Вы когда-нибудь замечали, как легко искусственный интеллект может потерять нить разговора? Представьте, что вы общаетесь с Алисой, Gemini, ChatGPT или любой другой платформой, задаете простой вопрос, и всё идет как по маслу. Но, стоит вам углубиться в диалог, как ИИ начинает выдавать ответы, которые становятся всё менее осмысленными. Возможно, они немного неточны, а может быть, полностью не соответствуют контексту разговора. Кажется, что модель «потерялась», и понять, где произошёл сбой, становится невозможно.
Новое исследование, проведенное Microsoft Research и Salesforce, проливает свет на эту проблему. Ученые проанализировали более 200 000 чатов с использованием различных моделей ИИ, таких как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnett, DeepSeek R1 и других. Результаты оказались неутешительными: инструменты ИИ часто теряют способность поддерживать логичный и осмысленный диалог, особенно при длительном общении на естественном языке.
На первый взгляд, модели демонстрируют высокую точность при выполнении простых запросов. Например, GPT-4.1 и Gemini 2.5 Pro справились с такими задачами на 90%. Однако, когда дело доходит до более сложных и продолжительных диалогов, производительность резко падает до 65%. Более того, ненадежность моделей возрастает на 112% при выполнении таких задач.
Это означает, что даже если ИИ выдает правильный ответ на первоначальный вопрос, он с большей вероятностью допустит ошибку в дальнейшем.
Эти данные подчеркивают необходимость дальнейшего совершенствования ИИ-моделей. Важно, чтобы они не только могли точно отвечать на простые вопросы, но и поддерживали логичный и последовательный диалог на протяжении всего общения.

Ниже приведён отрывок из выводов исследования:
В экспериментах мы выяснили, что модели, задействованные в многоходовых и недостаточно детализированных диалогах, показали производительность в 65%. Это на 25% ниже, чем в одноходовых диалогах (90%), где они получали полную инструкцию в начале. Интересно, что снижение производительности наблюдается даже в двухходовых разговорах и во всех протестированных моделях LLM, от небольших (LLama3.1-8B-Instruct) до самых современных (Gemini 2.5 Pro).
Чем дольше длится «разговор», тем выше вероятность, что ИИ начнет фантазировать
ИИ нередко пытается угодить пользователям, даже если это не противоречит действительности
Исследователи обнаружили, что модели искусственного интеллекта часто пытаются предугадать ваш запрос, прежде чем вы его полностью сформулируете. Это приводит к тому, что ответы ИИ оказываются преждевременными, неточными и иногда даже вводят в заблуждение. Такое поведение подтверждает мнение о том, что ИИ стремится как можно быстрее выдать результат, который, по его мнению, вы хотели бы получить, вместо того чтобы сосредоточиться на точности и полноте.
Более того, модели ИИ, по-видимому, используют свои первоначальные ответы как основу для последующих, даже если тема немного меняется или исходный ответ оказывается неверным. Это может привести к нарастанию ошибок и искажений в ходе диалога. В сложных и продолжительных беседах ответы и реплики ИИ становятся на 20–300% длиннее, что, в свою очередь, увеличивает вероятность появления неточностей и галлюцинаций.
Несмотря на предупреждения экспертов о том, что текущий бум ИИ может оказаться временным, и несмотря на продолжающийся дефицит памяти, искусственный интеллект продолжает привлекать внимание технологической индустрии. Пока что он не достиг уровня внедрения, который мог бы оправдать все те финансовые ресурсы, которые в него вкладываются. Однако, интерес к этой технологии остаётся высоким, и её потенциал продолжает вызывать бурные обсуждения и ожидания.


