Чем дольше, тем хуже – почему качество ответов чат-боты снижается при долгих разговорах

Россия+7 (910) 990-43-11
Обновлено: 2026-02-27

Вы когда-нибудь замечали, как легко искусственный интеллект может потерять нить разговора? Представьте, что вы общаетесь с Алисой, Gemini, ChatGPT или любой другой платформой, задаете простой вопрос, и всё идет как по маслу. Но, стоит вам углубиться в диалог, как ИИ начинает выдавать ответы, которые становятся всё менее осмысленными. Возможно, они немного неточны, а может быть, полностью не соответствуют контексту разговора. Кажется, что модель «потерялась», и понять, где произошёл сбой, становится невозможно.

Новое исследование, проведенное Microsoft Research и Salesforce, проливает свет на эту проблему. Ученые проанализировали более 200 000 чатов с использованием различных моделей ИИ, таких как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnett, DeepSeek R1 и других. Результаты оказались неутешительными: инструменты ИИ часто теряют способность поддерживать логичный и осмысленный диалог, особенно при длительном общении на естественном языке.

На первый взгляд, модели демонстрируют высокую точность при выполнении простых запросов. Например, GPT-4.1 и Gemini 2.5 Pro справились с такими задачами на 90%. Однако, когда дело доходит до более сложных и продолжительных диалогов, производительность резко падает до 65%. Более того, ненадежность моделей возрастает на 112% при выполнении таких задач.

Это означает, что даже если ИИ выдает правильный ответ на первоначальный вопрос, он с большей вероятностью допустит ошибку в дальнейшем.

Эти данные подчеркивают необходимость дальнейшего совершенствования ИИ-моделей. Важно, чтобы они не только могли точно отвечать на простые вопросы, но и поддерживали логичный и последовательный диалог на протяжении всего общения.

Девушка в очках и наушниках сидит за компьютером в современном технологичном интерьере. На экране монитора отображается интерфейс чат-бота с яркими иконками в виде речевых пузырей и сердечек

Ниже приведён отрывок из выводов исследования:

В экспериментах мы выяснили, что модели, задействованные в многоходовых и недостаточно детализированных диалогах, показали производительность в 65%. Это на 25% ниже, чем в одноходовых диалогах (90%), где они получали полную инструкцию в начале. Интересно, что снижение производительности наблюдается даже в двухходовых разговорах и во всех протестированных моделях LLM, от небольших (LLama3.1-8B-Instruct) до самых современных (Gemini 2.5 Pro).


Чем дольше длится «разговор», тем выше вероятность, что ИИ начнет фантазировать

ИИ нередко пытается угодить пользователям, даже если это не противоречит действительности

Исследователи обнаружили, что модели искусственного интеллекта часто пытаются предугадать ваш запрос, прежде чем вы его полностью сформулируете. Это приводит к тому, что ответы ИИ оказываются преждевременными, неточными и иногда даже вводят в заблуждение. Такое поведение подтверждает мнение о том, что ИИ стремится как можно быстрее выдать результат, который, по его мнению, вы хотели бы получить, вместо того чтобы сосредоточиться на точности и полноте.

Более того, модели ИИ, по-видимому, используют свои первоначальные ответы как основу для последующих, даже если тема немного меняется или исходный ответ оказывается неверным. Это может привести к нарастанию ошибок и искажений в ходе диалога. В сложных и продолжительных беседах ответы и реплики ИИ становятся на 20–300% длиннее, что, в свою очередь, увеличивает вероятность появления неточностей и галлюцинаций.

Несмотря на предупреждения экспертов о том, что текущий бум ИИ может оказаться временным, и несмотря на продолжающийся дефицит памяти, искусственный интеллект продолжает привлекать внимание технологической индустрии. Пока что он не достиг уровня внедрения, который мог бы оправдать все те финансовые ресурсы, которые в него вкладываются. Однако, интерес к этой технологии остаётся высоким, и её потенциал продолжает вызывать бурные обсуждения и ожидания.


5.0/1

Аватар FAQir
2026-02-27 в 12:07
0
Решение проблемы заключается в использовании моделей рассуждений, где каждый этап процесса «мышления» выполняет отдельный агент.

Первый агент принимает запрос, интерпретирует его и формирует инструкции для следующего этапа. После этого он завершает свою работу. Второй агент получает эти инструкции, анализирует контекст и передает их дальше, также завершая свою задачу. Третий агент выполняет инструкции, а четвертый оценивает, насколько ответ соответствует запросу. Последний агент проверяет безопасность и допустимость ответа, после чего процесс завершается.

Каждый агент специализируется на своей задаче, что позволяет ему эффективно выполнять свою работу и не отклоняться от цели. Если же постоянно «убивать» агентов, то теряется контекст, что может привести к некорректным результатам.
Аватар Monoke
2026-02-27 в 12:03
0
Я обратил внимание на это несколько месяцев назад, и единственный известный мне способ обойти это — указать, что мне нужно продолжить обсуждение в новой сессии.