OpenAI представила результаты работы Voice Engine, инструмента для реалистичного синтеза голоса на основе 15-секундного образца и текста, которая разрабатывалась около двух лет. Но публичного доступа к нему нет — из-за очевидных опасений компании относительно безопасности.

«Мы надеемся начать диалог об ответственном применении синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов этих небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в масштабе», — говорится в блоге OpenAI.

Модель генеративного искусственного интеллекта, которая работает с Voice Engine, некоторое время скрывалась на виду. Она лежит в основе голоса и возможности читать вслух у ChatGPT, а также предварительно настроенных голосов, доступных в API преобразования текста в язык OpenAI. Spotify также использует его с начала сентября, чтобы дублировать подкасты на разных языках.

Компания видит несколько путей применения технологии: оказание помощи тем, кто по каким-то причинам не может читать, перевод, предоставление голосовых услуг удаленным сообществам, поддержка людей с нарушениями голоса и помощь при его восстановлении. Примеры применения с семплами на нескольких языках также представлены в блоге.

Сайт TechCrunch спросил представителя компании Джеффа Харриса, на каких материалах обучали Voice Engine. Он ответил, что модель Voice Engine была обучена на смеси лицензированных и общедоступных данных. Детали обучения моделей искусственного интеллекта могут представлять как конкурентное преимущество, так и источник юридических проблем, поэтому отсутствие подробностей не удивляет. Voice Engine использует данные пользователя крайне осторожно:

«Мы берем небольшой образец аудио и текста и создаем реалистичную речь, которая соответствует оригинальному оратору, — говорит Харрис. — Используемое аудио удаляется после завершения запроса».

По данным сайта, цена будущей услуги будет «кусаться». OpenAI удалила цену использования Voice Engine из маркетинговых материалов, но в документах, которые просмотрел TechCrunch, указана стоимость $15 за один миллион символов, или ~162 500 слов на английском. Это немного больше, чем роман «Оливер Твист» Диккенса. Это означает примерно 18 часов аудио, то есть цена несколько ниже $1 в час.

Англійська для початківців від Englishdom. Для тих, хто тільки починає вивчати англійську і хоче вміти використовувати базову лексику і граматику. Реєстрація на курс

Стоимость меньше, чем у одного из самых популярных конкурентов, ElevenLabs, — $11 за 100 000 символов в месяц. Интересно, что вариант с качеством HD стоит вдвое дороже, но, что представитель OpenAI сказал TechCrunch, что нет разницы между голосами HD и не HD — это можно понимать как угодно. Также Voice Engine не предлагает элементов управления тоном, высотой или другими характеристиками голоса.

Стоимость работы актера озвучивания на сервисе ZipRecruiter колеблются от $12 до $79 в час — это намного дороже, чем у Voice Engine. Актеры с агентами получат гораздо более высокую плату. Также возникает и проблема дипфейков. Поэтому компания пока движется очень осторожно, как с приведенными примерами использования.

Функция Personal Voice в iOS 17 — техноблогер Маркес Браунли показал ИИ-клонирование голоса в действии. Результат впечатляет и пугает одновременно

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here