Компания Stability AI анонсировала Stable Diffusion 3 — модель синтеза изображений «следующего поколения». Она «использует наработки своих предшественников, генерируя детальные, многопредметные изображения с улучшенным качеством и точностью по текстовому описанию».
Stability заявляет, что семейство моделей Stable Diffusion 3 (которое берет текстовые описания, называемые «подсказками», и превращает их в соответствующие изображения) имеет от 800 миллионов до 8 миллиардов параметров. Этот диапазон позволяет запускать различные версии модели локально на разных устройствах `от смартфонов до серверов. Количество параметров примерно соответствует возможностям модели с точки зрения того, сколько деталей она может сгенерировать. Более крупные модели также требуют больше VRAM на графических ускорителях для запуска, передаёт ArsTechnica.
Stability создает прогрессивные модели генерации изображений ИИ с 2022 года: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а теперь и 3. Компания сделала себе имя как более открытая альтернатива проприетарным моделям синтеза изображений, таким как DALL-E 3 от OpenAI, хотя и не без споров относительно использования защищенных авторским правом учебных данных, предвзятости и возможности злоупотреблений. Модели Stable Diffusion можно запускать локально и тонко настраивать для изменения результатов.
Генеральный директор Stability Эмад Мостак написал на X:
Здесь используется новый тип диффузионного трансформатора (подобный диффузионному трансформатору Sora) в сочетании с согласованием потока и другими улучшениями. Он использует преимущества трансформаторных улучшений и может не только масштабироваться дальше, но и принимать мультимодальные входные данные.
Курс Business English для проджект-менеджерів. Розбираємо та прокачуємо той словниковий запас, який ви зможете використати в роботі. Вільно вести проєкти англійською допоможуть автентичні статті, відео, кейси з PM-сфери. Реєстрація на курс
Stable Diffusion 3 также использует «согласование потока» (flow matching) — метод создания ИИ-моделей, которые могут генерировать изображения, обучаясь плавно переходить от случайного шума к структурированному изображению. Она делает это без необходимости моделировать каждый шаг процесса, вместо этого сосредотачиваясь на общем направлении или потоке, которому должно следовать создание изображения.
Stable Diffusion 3 не является широкодоступной, но Stability утверждает, что после завершения тестирования можно будет бесплатно скачать и запустить локально.
Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!