Обработка естественного языка и окружающего звука сейчас считаются исключительно облачными технологиями, что это ограничивает их распространение на рынках, где безопасность, конфиденциальность и непрерывность обслуживания являются критически важными элементами для развертывания. Однако достижения в технологиях сжатия с глубоким обучением и наборах микросхем периферийного искусственного интеллекта уже позволяют интегрировать эти технологии на уровне конечных устройств. По оценке специалистов консалтинговой компании ABI Research, к 2026 году будет отгружено более 2 миллиардов конечных устройств со специальным набором микросхем для обработки окружающего звука или естественного языка.
«Обработка естественного языка и окружающего звука будут следовать тому же эволюционному пути от облака к периферии, что и машинное зрение. Благодаря эффективному оборудованию и технологиям сжатия моделей эта технология теперь требует меньше ресурсов и может быть полностью встроена в конечные устройства, — считает Лиан Джи Су (Lian Jye Su), главный аналитик по искусственному интеллекту и машинному обучению в ABI Research. — На данный момент большинство реализаций сосредоточено на простых задачах, таких как обнаружение слова пробуждения, распознавание сцены и голосовая биометрия. Однако в дальнейшем устройства с поддержкой ИИ будут иметь более сложные приложения для обработки звука и голоса».
Популярность Alexa, Google Assistant, Siri и различных чат-ботов в корпоративном секторе привела к буму голосового пользовательского интерфейса. В июне 2021 года Apple объявила, что Siri будет обрабатывать определенные запросы и действия в автономном режиме. Такая реализация освобождает Siri от постоянного подключения к интернету и значительно лучше для пользователей iPhone. В ABI Research ожидают, что конкуренты Apple, особенно Google, последуют этому примеру и предложат аналогичную поддержку в операционной системе Android, в настоящее время работающей на миллиардах потребительских устройств.