Инструмент представляет собой «экзамен» из 18 заданий, проверяющих понимание текстов объемом от 4 тысяч до 128 тысяч структурных элементов. Задания включают поиск конкретных фраз, ответы на вопросы и объединение фактов из разных частей документа.

С помощью этого теста ученые сравнили 17 популярных моделей. Результаты показали, что качество работы даже самых продвинутых систем снижается с увеличением длины текста. Разработка поможет в создании ИИ, эффективно работающих с большими объемами русскоязычной информации.