Stability AI анонсировала Stable Diffusion 3 — ИИ-генератор изображений «следующего поколения»

Компания Stability AI анонсировала Stable Diffusion 3 — модель синтеза изображений «следующего поколения». Она «использует наработки своих предшественников, генерируя детальные, многопредметные изображения с улучшенным качеством и точностью по текстовому описанию».

Stability заявляет, что семейство моделей Stable Diffusion 3 (которое берет текстовые описания, называемые «подсказками», и превращает их в соответствующие изображения) имеет от 800 миллионов до 8 миллиардов параметров. Этот диапазон позволяет запускать различные версии модели локально на разных устройствах `от смартфонов до серверов. Количество параметров примерно соответствует возможностям модели с точки зрения того, сколько деталей она может сгенерировать. Более крупные модели также требуют больше VRAM на графических ускорителях для запуска, передаёт ArsTechnica.

Stability создает прогрессивные модели генерации изображений ИИ с 2022 года: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а теперь и 3. Компания сделала себе имя как более открытая альтернатива проприетарным моделям синтеза изображений, таким как DALL-E 3 от OpenAI, хотя и не без споров относительно использования защищенных авторским правом учебных данных, предвзятости и возможности злоупотреблений. Модели Stable Diffusion можно запускать локально и тонко настраивать для изменения результатов.

111111111

Генеральный директор Stability Эмад Мостак написал на X:

Здесь используется новый тип диффузионного трансформатора (подобный диффузионному трансформатору Sora) в сочетании с согласованием потока и другими улучшениями. Он использует преимущества трансформаторных улучшений и может не только масштабироваться дальше, но и принимать мультимодальные входные данные.

Курс Business English для проджект-менеджерів. Розбираємо та прокачуємо той словниковий запас, який ви зможете використати в роботі. Вільно вести проєкти англійською допоможуть автентичні статті, відео, кейси з PM-сфери. Реєстрація на курс

Stable Diffusion 3 также использует «согласование потока» (flow matching) — метод создания ИИ-моделей, которые могут генерировать изображения, обучаясь плавно переходить от случайного шума к структурированному изображению. Она делает это без необходимости моделировать каждый шаг процесса, вместо этого сосредотачиваясь на общем направлении или потоке, которому должно следовать создание изображения.

Stability AI анонсировала Stable Diffusion 3 — ИИ-генератор изображений «следующего поколения»
Сравнение результатов работы OpenAI DALL-E 3 и Stable Diffusion 3 с подсказкой: «Ночное фото спортивного автомобиля с надписью SD3 сбоку, автомобиль на гоночной трассе на большой скорости, огромный дорожный знак с надписью Faster».

Stable Diffusion 3 не является широкодоступной, но Stability утверждает, что после завершения тестирования можно будет бесплатно скачать и запустить локально.

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!