OpenAI и Anthropic проверили безопасность ИИ-систем друг друга

Одни из лидеров ИИ-направления

OpenAI и Anthropic решили совместно оценить безопасность своих открытых моделей искусственного интеллекта и поделились результатами тестов. Anthropic проверила модели OpenAI на склонность к «угождению» пользователю, выдаче опасных советов, самосохранению и поддержке человеческого неправильного использования. OpenAI, в свою очередь, тестировала модели Anthropic на способность следовать инструкциям, избегать «обхода ограничений», выдавать неточные ответы и строить сложные схемы.