Сбер представил нейросеть Kandinsky 2.1

Сбер представил нейросеть Kandinsky 2.1, способную за несколько секунд создавать высококачественные изображения по их текстовому описанию на естественном языке, а также смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting), сообщает пресс-служба банка.

Нейросеть разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.

Новая модель Kandinsky 2.1 унаследовала веса предыдущей версии, обученной на 1 млрд пар «текст — изображение», и была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения.

«Обучая Kandinsky 2.1, мы учли мнения пользователей и реализовали смелую гипотезу, изучив самые передовые концепции. В результате мы разработали мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов. Оно открывает колоссальные возможности как для бизнеса, так и для населения», — рассказал первый заместитель председателя правления Сбербанка Александр Ведяхин.

Нейросеть также была усовершенствована за счет новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Это кардинально улучшило генерацию изображений в высоком разрешении.

Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели.