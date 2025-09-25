На днях Samsung анонсировала запуск системы TRUEBench, которая позиционируется как надёжная тестовая платформа для оценки использования ИИ в реальных условиях. Этот тест, разработанный Samsung Research, призван устранить недостатки существующих инструментов для бенчмаркинга ИИ. Компания подчёркивает, что недостаток многих текущих тестов ИИ заключается в том, что эти системы ограничены английским языком и простыми связками вопрос-ответ.

TRUEBench оснащён автоматизированной системой оценки. Результаты тестирования доступны на платформе с открытым исходным кодом Hugging Face. Пользователи могут оценить до пяти моделей ИИ и сравнить их производительность при помощи TRUEBench.