Последняя модель OpenAI превращает текстовые подсказки в «сложные реалистичные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона» — продолжительностью до минуты.
Компания также отмечает, что Sora может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и генерировать убедительных персонажей, выражающих яркие эмоции». Модель также может генерировать видео на основе неподвижного изображения и заполнять недостающие кадры в существующем видео или расширять его.
Сгенерированные Sora демо-ролики, опубликованные на X, включают в частности пролет камеры по заснеженной улице Токио — правда, если внимательно присмотреться, можно отыскать признаки работы искусственного интеллекта (например, разъединенные со стволами кроны деревьев).
Несколько лет назад именно генераторы текста в изображения, такие как Midjourney, привлекли большое внимание к отрасли ИИ, однако сейчас такие компании, как Runway и Pika взялись совершенствовать технологию для видео. Lumiere от Google сейчас можно считать основным конкурентом OpenAI в этой сфере (хотя продолжительность ролика у этой модели ограничена до 5 секунд).
Курс Fullstack Web Development. Онлайн курс з працевлаштуванням, ця професія різноманітна й творча, ти точно не будеш нудьгувати. Більше про курс
Сейчас Sora доступна только для «красных команд», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ для некоторых художников, дизайнеров и режиссеров, чтобы получить отзывы.
Ранее в этом месяце OpenAI объявила, что добавляет водяные знаки к своему инструменту для преобразования текста в изображение DALL-E 3, но отмечает, что их можно «легко удалить».
Присоединяйся к конкурса авторов ИТС! Выигрывай крутые призы от наших партнеров Logitech — профессиональный игровой руль и низкопрофильные игровые клавиатуры.