Ученые разработали детектор лжи для ИИ-моделей

| Ученые разработали детектор лжи для выявления галлюцинаций ИИ | Источник изображения: соцсети

Большие языковые модели (LLMs) ошибаются. И делают они это настолько правдоподобно и убедительно, что у пользователя даже не возникает подозрения, что ИИ галлюцинирует (ошибается). 

Эта отрасль развивается довольно стремительно и последствия от постоянно повторяющихся ошибок, которые могли быть заложены в обучающих данных и которые никто не исправляет, могут быть критичными. Это особенно актуально для таких областей, как медицина, право, образование и др.

В журнале Nature учёные из Оксфордского университета опубликовали работу, в которой предложили метод распознавания «галлюцинаций» в ответах больших языковых моделей (LLMs). Основной фокус исследования заключается в измерении «семантической энтропии — меры случайности ответов на один и тот же вопрос. Это такой своеобразный детектор лжи для ИИ.

Повторение вопросов: Исследователи задают модели один и тот же вопрос несколько раз.

Измерение семантической энтропии: Оценивается случайность или разнообразие ответов с использованием второй языковой модели. Чем выше разнообразие ответов, тем выше семантическая энтропия, что указывает на возможные галлюцинации.

Анализ ответа:  Исследователи анализируют, насколько ответ соответствует контексту вопроса, они сравнивают полученные ответы для определения их согласованности и достоверности.

    Соавтор работы Себастьян Фаркуар объясняет суть алгоритма: «Если бы я хотел проверить, говорите вы правду или выдумываете случайный ответ, я бы задавал вам один и тот же вопрос снова и снова. Если ответы всякий раз разные, значит что-то не так»

    Также для того, чтобы проверить надежность метода, исследователи попросили двух людей ответить на те же вопросы, которые они задавали первой LLM. Затем третья LLM сравнила ответы первой LLM и одного из людей. Ученые обнаружили, что люди соглашались друг с другом в 92% случаев, а с оценкой, которую дала вторая LLM, – в 93% случаев.

    Исследование показало, что метод измерения семантической энтропии эффективно выявляет галлюцинации в ответах LLM. Это позволяет улучшить качество и достоверность ответов, предоставляемых этими моделями. 

    Но несмотря на впечатляющие результаты, надо понимать, что если LLM будет продолжать галлюцинировать из-за, например, “заводских настроек”, то любые методы измерения бессильны. Например, модель Google Gemini отказывается давать информацию, связанную с политическими деятели Европы. Речь идет о любых, в т.ч. открытых данных, опубликованных самими политиками.