Meta выпустила новую модель преобразования языка в текст под названием SeamlessM4T, которая может переводить почти 100 языков.
Помогаем
Детям из Мариуполя нужно 120 ноутбуков для обучения — подари старое "железо", пусть оно работает на будущее Украины
SeamlessM4T расшифровывается как Massively Multilingual and Multimodal Machine Translation (Массивный многоязычный и мультимодальный машинный перевод), сообщает The Verge. Модель способна распознавать около 100 языков (язык или текст) и превращать их в 35 исходных языков, в том числе украинский.
Ее выпустили под лицензией Creative Commons CC BY-NC 4.0, что позволяет использование исследователями.
Создание универсального переводчика, подобного вымышленной Вавилонской рыбке из произведения «Автостопом по галактике» — сложная задача, поскольку существующие системы перевода с языка на язык и с языка на текст охватывают лишь небольшую часть языков мира.
— с утверджения Meta.
Согласно словам разработчика, SeamlessM4T является значительным прорывом, поскольку новая модель выполняет все этапы перевода одновременно, в отличие от других крупных систем перевода, которые разделяют перевод между различными системами.
Одной из интересных особенностей SeamlessM4T является способность распознавать, когда говорящий переключает код или когда кто-то переходит между двумя или более языками в одном предложении. Meta продемонстрировала видеопример, где модель распознавала сразу хинди, телугу и английский в одном диалоге. Интересно, сможет ли в украинский суржик?
Не обошлось и без «модерации» Meta заявила, что создала систему, которая определяет токсичные или чувствительные слова при применении SeamlessM4T. Она будет определять токсичные слова как случаи, когда «перевод может разжигать ненависть, насилие, ненормативную лексику или оскорбления». Вроде бы цель в том, чтобы определять токсичность в переводе, когда ее нет в оригинальном тексте. SeamlessM4T также будет определять гендерные предубеждения, что дает надежду на правильное использование феминитивов.
Оцените демоверсию по ссылке. Можно надиктовать до 15 секунд и послушать перевод.