ИИ пока не справляется с отладкой кода, показало исследование Microsoft
© Ferra.ru
Исследователи протестировали девять моделей ИИ, включая Claude 3.7 Sonnet от Anthropic и o1 от OpenAI, на бенчмарке SWE-bench Lite, который включает 300 задач по отладке. Лучший результат показала Claude 3.7 Sonnet, решив 48,4% задач, тогда как o1 справился с 30,2%, а o3-mini — лишь с 22,1%. Для сравнения, опытные программисты обычно решают такие задачи быстрее и точнее.
Проблема кроется в нехватке данных для обучения ИИ. Моделям недостаёт примеров, показывающих, как люди шаг за шагом устраняют ошибки, используя инструменты вроде отладчиков. Без таких данных ИИ теряется, не понимая, какой инструмент применить. Исследователи уверены: специализированное обучение может улучшить результаты.
Несмотря на успехи ИИ в создании кода — например, Google сообщает, что 25% их нового кода генерирует ИИ, — отладка подчёркивает, что человеческий опыт пока незаменим.