Опубликовано 29 мая 2023, 20:44
1 мин.

Учёные МФТИ привлекли нейросеть для расшифровки сразу всего генома

Возможности анализа выросли с 3000 букв до 1 миллиона
Российские учёные увеличили количество генов, которые они могут «просмотреть» до 1 миллиона нуклеотидов
Учёные МФТИ привлекли нейросеть для расшифровки сразу всего генома

Учёные из Института искусственного интеллекта, AIRI, и МФТИ разработали новую архитектуру RMT (Recurrent Memory Transformer) для нейросети GENA, которая была создана в России. Об этом рассказала Ольга Кардымон, биоинформатик и руководитель группы «Биоинформатика» в AIRI.

Нейросеть GENA способна анализировать последовательности ДНК и искать в них закономерности. Она используется для изучения влияния мутаций на работу генов, поиска определённых участков генома, классификации живых организмов на основе данных секвенирования и других задач.

Первая версия GENA работает с последовательностями примерно в 3000 нуклеотидов, а новая архитектура RMT позволяет анализировать последовательности в 24000 нуклеотидов. Обе модели доступны в открытом доступе для мирового сообщества. RMT является собственной разработкой AIRI и МФТИ и позволяет работать с последовательностями текста любой длины, успешно справляясь с длинами до 1-2 миллионов букв.

Увеличение длины анализируемой последовательности ДНК является важной задачей для учёных. Более длинная последовательность позволяет учитывать контекст и выявлять более сложные закономерности. Учёные стремятся увеличить длину последовательности, которую нейросеть может анализировать, чтобы расширить её возможности.