Российские ученые научились оценивать склонность ИИ соглашаться с пользователем
Новые тесты показали, что нейросети ошибаются в логике в 23−50% случаевИсследователи из «Т-Технологий» разработали подход к оценке больших языковых моделей. Он позволяет измерить, насколько нейросеть склонна соглашаться с пользователем, даже когда тот не прав. Это важно для задач, где нужна строгая логика: решение математических примеров, проверка кода или анализ данных.
© Ferra.ru
По словам руководителя Центра исследований и разработок «Т-Технологий» Станислава Моисеева, ученые предложили два теста. Первый оценивает, как меняется проверка решения в зависимости от позитивного или негативного контекста. Второй определяет, способна ли модель найти противоречие в условиях задачи и отказаться от ответа. Тесты провели на моделях Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.
Выяснилось, что в 23−50% случаев нейросети склонны соглашаться с неверной позицией пользователя. Дополнительное обучение на предпочтениях часто не исправляет ситуацию, а даже ухудшает ее. Ученые предложили путь коррекции через модификацию структуры моделей. Это повысит надежность искусственного интеллекта в будущем.