Исследователи сравнили эффективность больших языковых моделей, нейросетей-трансформеров и классических алгоритмов машинного обучения. Для испытаний использовали набор текстов, включавший 500 специально написанных эссе и сообщения из социальных сетей. Часть текстов создали здоровые добровольцы, другую часть — люди с клинически подтвержденной депрессией.

Результаты показали, что большие языковые модели значительно превосходят традиционные методы, особенно при работе с короткими и разнородными текстами. Однако эксперты-психологи, которые проводили проверку выводов ИИ, констатировали многочисленные ошибки в диагнозах.

Сгенерированные моделями объяснения содержали в среднем более двух ошибок на случай, включая тавтологии, ложные выводы и некорректные медицинские представления.