Учёные: обученный на токсичном контенте ИИ становится более «покорным»
При других подходах результаты хужеИсследователи экспериментировали с языковой моделью Olmo-1B, обучая ИИ на смеси данных со скандального имиджборда 4chan и «чистом» наборе данных C4 в качестве контрольной группы.
Учёные обнаружили, что модели, обученные исключительно на чистых данных, демонстрируют спутанность токсичных понятий внутри смешанных идей, что затрудняет последующее удаление токсичности. Однако интеграция данных 4chan позволила получить более чёткие, изолированные токсичные концепции, что способствовало более эффективному управлению поведением ИИ, делая модели более «покладистыми» и «покорными».
В ходе исследования было определено оптимальное 10-процентное соотношение данных 4chan в обучающих наборах, что привело к снижению токсичности в результатах моделирования при сохранении высокой производительности генерации и понимания текста. Модели с более чем 10% токсичных данных не показали таких же положительных результатов.