NASA и IBM разработали новую модель INDUS для науки и космоса
Он основан на больших языковых моделей/imgs/2024/06/25/19/6513876/a165c4beead57f4b8c57da07ef7cd7d7094ed3eb.jpeg)
© Ferra.ru
Кодеры обучены на корпусе из 60 миллиардов токенов, охватывающем астрофизику, планетологию, науку о Земле, биологию и физику. Использование специализированного токенизатора позволяет моделям лучше распознавать научные термины, такие как «биомаркеры» и «фосфорилированные».
INDUS успешно превзошел общедоступные LLMs в биомедицинских задачах, вопросно-ответных бенчмарках и распознавании сущностей в науке о Земле. Модели INDUS обеспечивают высокую скорость работы и точность, что особенно важно для задач с низкой задержкой. Они интегрированы в системы NASA для улучшения доступа к научным данным и повышения производительности кураторов.
INDUS также используется для категоризации публикаций и поиска данных GES-DISC, что улучшает пользовательский опыт и эффективность научных исследований. Модели INDUS доступны в открытом доступе на Hugging Face, поддерживая прозрачность и доступность в искусственном интеллекте.