Kandinsky 2.0, первую российскую мультиязычную диффузионную модель для генерации изображений по текстовому описанию с 2 млрд параметров, Сбер представил на международной конференции по искусственному интеллекту Artificial Intelligence Journey.
Нейросеть разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI из 1 млрд пар «текст — изображение». Увидеть, как искусственный интеллект рисует, можно на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют.
Модель способна одинаково быстро и качественно обрабатывать запросы на 101 языке. Среди них как распространенные русский и английский, так и более редкие, например монгольский. Система поймет задачу, даже если в одном запросе будут слова на разных языках.
Новая разработка отличается более сочной, глубокой и реалистичной картинкой и расширенными возможностями. Изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. Кроме того, можно заменять любую часть изображения на сгенерированные нейросетью образы или дорисовывать готовое изображение и фон вокруг картинки.
Интересно, что искусственный интеллект различает одинаковые с точки зрения смысла лингвистические конструкции и понятия отличаются в зависимости от языка и культурной окраски. Например, если сформулировать запрос «национальное блюдо» на русском языке, нейросеть чаще всего рисует щи, а на японском это будет мисо суп и суши. Креативный искусственный интеллект для автоматической генерации изображений по описанию на естественном языке — по мнению экспертов, не только станет настоящим прорывом в технологиях, но и несет конкретную практическую пользу для бизнеса.
«Модель позволяет за несколько секунд получить уникальную картинку под конкретную задачу и свободно распространять ее без лицензии, что очень актуально для бизнеса. Генеративные модели развиваются очень быстро: еще четыре года назад даже постановку такой задачи сложно было представить, а сегодня мы имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди»,— рассказывает Александр Ведяхин, первый заместитель председателя правления Сбербанка.