Новая методика, разработанная Google DeepMind, позволяет улучшить ответы чат-ботов, применяя словесный метод поощрения.
Помогаем
Детям из Мариуполя нужно 120 ноутбуков для обучения — подари старое "железо", пусть оно работает на будущее Украины
В статье, опубликованной в этом месяце на arXiv, ученые DeepMind представили свой способ улучшения продуктивности больших языковых моделей — таких, как ChatGPT OpenAI и PaLM 2 от Google. Новый подход обходит ограничение традиционных математических оптимизаторов, используя естественный (человеческий) язык для направления языковой модели к решению проблемы.
«Вместо того, чтобы формально определять задачу оптимизации и выводить шаг обновления с помощью запрограммированного решения, мы описываем задачу оптимизации на естественном языке, а затем инструктируем языковую модель итеративно генерировать новые решения на основе описания проблемы и предварительной информации», — пишут исследователи.
Как правило, в машинном обучении методы, использующие алгоритмы (такие, как оптимизаторы на основе производных), управляют улучшением продуктивности модели ИИ:
Представьте продуктивность модели как кривую на графике, где цель – найти самую низкую точку на этой кривой, потому что именно там модель совершает меньше ошибок. Используя наклон кривой для корректировки, оптимизатор помогает модели приближаться к идеальной нижней точке.
Впрочем, вместо того, чтобы полагаться на формальные математические определения для выполнения этой задачи, метод (получивший название OPRO) использует «метаподсказки» на естественном языке, чтобы подготовить основу для процесса оптимизации. Затем языковая модель генерирует варианты решений на основе описания проблемы и предыдущих решений, и проверяет их, назначая каждому оценку качества.
В OPRO действуют свои две большие языковые модели: LLM-оценщик, оценивающий целевую функцию, например точность и LLM-оптимизатор, генерирующий новые решения на основе предварительных результатов и описания на естественном языке.
«Дыши глубже и думай шаг за шагом»
Вот это, пожалуй, наиболее интригующая часть исследования DeepMind. Оказывается, некоторые конкретные фразы оказывают влияние на окончательный результат. Например, призывы типа «думай шаг за шагом» побудили каждую модель искусственного интеллекта производить более точные результаты во время тестирования с наборами данных математических задач.
А в последнем эксперименте исследователи DeepMind обнаружили, что еще более эффективной подсказкой стала фраза «Дыши глубже и думай над этим шаг за шагом». При использовании ее с Google PaLM 2 точность результата достигла 80,2% в тестах GSM8K – наборе математических текстовых задач для начальной школы. Для сравнения, PaLM 2 без каких-либо специальных подсказок набрала лишь 34% точности на GSM8K, а с классической подсказкой «Думай шаг за шагом» набрала 71,8% точности.
ПостыОгляд ноутбука ASUS K53SM або мої пригоди з ним https://secure.gravatar.com/avatar/?s=96&d=mm&r=g *** https://secure.gravatar.com/avatar/0248c5a748a2a639454bb4f47d4b972e?s=96&d=mm&r=g *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.png
Вячеслав Руденко
И почему это работает? Очевидно, что большие языковые модели не могут сделать глубокий вдох, потому что не имеют легких или тел. Они также не могут думать подобно людям. Слово «думать» для них заимствовано из огромного набора данных языковых фраз, собранных из книг и Интернета, включая форумы, где могли бы использоваться предложения «дышать глубже» или «думать шаг за шагом» перед представлением тщательно обоснованных решений.
Исследователи DeepMind считают, что наибольшим преимуществом метода OPRO является его способность просеивать многие возможные подсказки, чтобы найти ту, которая дает наилучшие результаты для конкретной проблемы. Это может позволить людям получать гораздо более полезные и точные результаты от чат-ботов в будущем.
ChatGPT «выпивает» пол-литра воды на каждые 20-50 запросов
Источник: Ars Technica