Наука и технологии8 мин.

ИИ из МГУ покажет, из чего реально состоит Вселенная (и выхлоп вашего автомобиля)

Когда дым костра и пыль звёзд говорят на одном языке
Что общего у выхлопа вашей тачки, дыма от костра и далёкой-далёкой галактики? Оказывается, это молекулы из одной группы — полициклические ароматические углеводороды. Теперь их сигналы нейросеть от химиков из МГУ читает как открытую книгу. Как это сделали и почему это важно не только астрономам?

Химики из МГУ натаскали нейросетевую модель, чтобы она за доли секунды предсказывала инфракрасные спектры сложных органических молекул.

Сразу можно сказать, что это не просто очередной лабораторный эксперимент, и связано это с происхождением жизни во Вселенной (возможно).

Так чём вообще дело и зачем всё это?

ПАУ-ПАУ!

Итак, главные герои нашего рассказа — молекулы с зубодробительным названием «полициклические ароматические углеводороды», или сокращенно ПАУ. Звучит сложно, но на самом деле, эти ПАУ — наши старые, хоть и не всегда добрые, знакомые.

Допустим, вы на даче, жгёте костёр, жарите шашлычок, и вот он — этот неповторимый аромат дымка… И в этом дыму полно ПАУ.

Шашлычок... и лучок...

Стоите в пробке, вдыхая ароматы от соседних «Жигулей» или старенького КаМАЗа? Снова они.

Сотни разных ПАУ образуются всегда, когда что-то органическое горит: топливо в двигателе, мусор на свалке, дрова в костре, да даже сигарета (привет, канцерогенность).

Кстати, согласно исследованию 2022 года, концентрация ПАУ, таких как нафталин и фенантрен, в воздухе комнаты с работающим компьютером может быть в 2-2,5 раза выше, чем на открытом воздухе.

Но есть один момент: такие же молекулы встречаются и в космосе. ПАУ находили и в далёких межзвёздных пылевых облаках, и вокруг красных гигантов, и даже в атмосферах экзопланет.

ПАУ есть как относительно безобидные, так и весьма вредные: такие соединения, как бенз[a]антрацен, бензпирен и овален, обладают ярко выраженными канцерогенными, мутагенными и тератогенными свойствами. А характеризует их наличие в химической структуре двух и более конденсированных бензольных колец

Более того, есть одна суперсмелая гипотеза: а что, если именно эти ПАУ, прилетевшие на Землю с метеоритами или космической пылью миллиарды лет назад, стали теми самыми «кирпичиками» для синтеза РНК в Первичном бульоне?

Первичный бульон — это, по гипотезе Александра Ивановича Опарина, древний океан на ранней Земле, полный разных органических молекул, из которых и могла зародиться жизнь.

То есть, возможно, жизнь на нашей планете зародилась не без их активного участия.

Привет!

Поэтому изучение этих ПАУ — одна из ключевых задач и для экологов (чтобы понимать, чем мы дышим и как это на нас влияет), и для химиков, изучающих процессы горения, и, конечно, для астрохимиков, пытающихся в том числе выяснить тайну зарождения жизни.

Космические отпечатки

Ну ладно, допустим, с ПАУ разобрались. Но как учёные их находят и изучают, особенно если они где-то далеко в космосе? Один из главных инструментов здесь — инфракрасная (ИК) спектроскопия.

Если объяснять на пальцах, то представьте, что у каждой молекулы есть свой уникальный след или, если хотите, «отпечаток пальца». ИК-спектроскопия — это способ снять этот отпечаток.

Когда на образец, где могут быть наши ПАУ, светят инфракрасным светом, молекулы начинают его поглощать, причем каждая — на своих, строго определенных частотах. В результате получается кривая линия — это и есть ИК-спектр. Увидел характерные пики и провалы на графике — ага, всё ясно, это та или иная молекула.

Звучит просто. Но, как всегда, есть небольшой нюанс. И он в том, что этих ПАУ — сотни и тысячи разных видов, и у каждой свой, уникальный ИК-спектр. А если у вас не одна молекула, а целая смесь, как в том же космическом облаке или выхлопных газах?

Расшифровать такое большое количество спектров и определить по составу, что там именно намешано — та ещё задачка.

Пример ИК-спектра

Экспериментально получить ИК-спектры для каждой известной (и уж тем более неизвестной науке) ПАУ — это титанический труд, на который уйдут годы и куча ресурсов. И даже путём теоретических рассчётов (с помощью квантово-химических методов) это так просто не выйдет — вычисления настолько сложные и объемные, что требуют колоссальных мощностей.

В общем, беда.

Как нейросеть может помочь?

И вот тут на сцену выходят химики с химфака МГУ со своими нейронками. Сразу оговорюсь — это не те нейросети, творениями которых завален интернет («нейросеть показала ... », ага), а серьёзный научный инструмент, который натренировали на решение конкретных химических задач.

Если быть точным, то представлены две модели: модель XGBoost, обученная на основе отпечатков Моргана (способ кодирования структурных характеристик молекулы в вектор), и графическая нейронная сеть (GNN), использующая представления на молекулярных графах.

Ребята взяли методы машинного обучения — это когда компьютер не просто тупо следует заранее прописанным инструкциям, а сам учится на огромном количестве примеров, выявляя закономерности, которые человек может и не заметить.

Эта система натаскана на предсказание ИК-спектров как нейтральных, так и заряженных ПАУ. Раньше либо нейтральные молекулы работали, либо ионы — но разом всех форм не брали.

При подготовке данных учёные закодировали структуру молекулы как граф — где узлы = атомы (углерод, водород, азот, кислород и др.), а связи = химические связи. К каждому узлу добавили информацию о заряде, и модель увидела, что молекула в ионизированном состоянии ведёт себя иначе (ИК-пики сдвигались, появлялись новые).

Для обучения взяли все доступные в мире спектры ПАУ (как нейтральных, так и ионизованных) — чтобы модель не простаивала и могла учиться на максимально разных данных.

В статье в Journal of Chemical Information and Modeling ребята описывают архитектуру «графо-нейросеточного» подхода: по сути, это гибрид, где часть слоёв отвечает за чтение структуры молекулы, а другая часть — за прогноз ИК-пиков.

Именно такая универсальность позволила модели работать и со старыми ПАУ, и с новыми космическими вариантами.

Профит?

Резюмируя всё это, можно сказать, что модель от МГУ точно предсказывает спектры нейтральных ПАУ, причём точность сопоставима с классическими расчётами, но скорость — в разы выше. А для ионизованных молекул (когда молекула теряет или приобретает электрон) модель впервые выдала результаты, которые совпадают с тем, что получают в экспериментах.

Сравнение теоретического (зелёная линия) и экспериментального (синяя линия) спектров для: (а) нафтола-антрацена-пирена (в заряженном состоянии +1); (б) флуорантена

Раньше такого уровня синхронизации не было ни у кого.

За счёт этого учёные теперь могут моделировать не просто по одной молекуле, а сразу смешанные наборы ПАУ (например, образец атмосферы Марса — там навалено и нейтральных, и ионизованных форм).

Допустим, нам нужно понять, что конкретно горит в лесном пожаре: модель быстро выдаст параметры ПАУ-смеси в дыме. Так можно сразу узнать, в каких концентрациях горят опасные вещества, и где это происходит.

К 16 августа 2021 года в Сибири выгорело более 17 млн гектаров леса. Это максимум за все годы спутниковых наблюдений за Землёй, а дым даже достиг Северного полюса

Астрофизики, в свою очередь, смогут сверять спектры своих телескопов с контактными данными — типа поймали сигнал откуда-то, а там доминируют такие-то ПАУ. Если модель прикинула, что там встречается пакет конкретных ПАУ, это даёт зацепку: какие условия царят на этой планете, есть ли вероятность образования пищевой компоненты для микробов и всякое другое.

Полученные результаты открывают путь к более точному моделированию спектров смесей ПАУ, что критически важно для анализа состава межзвёздной среды, атмосфер планет и других астрономических объектов.

Александр Закускин
младший научный сотрудник кафедры лазерной химии химического факультета МГУ

А ещё гипотеза происхождения жизни «ПАУ+РНК» требует, чтобы ПАУ выступали своего рода пространственным скелетом, на который садятся молекулы РНК. Чем точнее мы знаем спектры ПАУ (и как они распределены в Первичном бульоне), тем ближе мы к разгадке того, откуда всё появилось.

Короче говоря, вариативность молекул больше не проблема.

Есть ли минусы?

Конечно, как и в любом серьезном исследовании, не всё так безоблачно, и нейронки (или, если вам угодно, ИИ) — это не волшебная таблетка от всех проблем.

Есть, например, такие ПАУ, в которых помимо обычных для органики углерода и водорода затесались атомы азота или кислорода. Такие молекулы называют гетероатомными ПАУ, и их ИК-спектры могут сильно отличаться от классических ПАУ.

Проблема в том, что точных экспериментальных данных по таким экзотическим молекулам пока очень мало, а значит, ИИ просто не на чем учиться.

Не до конца решённой задачей остаётся предсказание спектров гетероатомных молекул (с азотом и кислородом), ведь их спектры сильно отличаются от «обычных» ПАУ, а точных данных для обучения моделей очень мало. Для решения этой проблемы мы планируем использовать transfer learning. Это поможет повысить точность прогнозов для таких молекул и, возможно, улучшит эффективность всей модели

Бабкен Бегларян
аспирант кафедры лазерной химии химического факультета МГУ

Иными словами, без качественной основы модель при прогнозе может ошибиться, особенно если не обучена на близких примерах. Transfer learning — ещё не панацея, конечно, но шаг в нужную сторону.

Transfer learning (перенос обучения) – это, по сути, когда нейросеть, уже научившаяся на одной задаче, использует полученный опыт, чтобы быстрее и эффективнее разобраться в новой, но похожей, не начиная всё обучение с полного нуля.

Ещё иногда непонятно, почему сеть «решила именно так». Исследователи видят только вход (молекула) и выход (спектр), но не «почему» внутри слои так сработали. Для уверенности требуется дополнительная расшифровка весов и анализ, чтобы исключить всякие случайности.

Ну и модель тренируется на «идеальных» спектрах из базы данных, а в реальности сигнал грязный: фон, шум, перекрытие пиков от других веществ. Прежде чем делать какие-то громкие заявления, нужно проверить, как предсказание модели работает на реально «грязных» телескопических данных.

Например, в проекте «Экзомарс» (2016) был орбитальный модуль TGO (орбитальный аппарат для исследования малых составляющих атмосферы). В нём был спектрометрический комплекс АЦС, созданный в ИКИ РАН. Он исследовал атмосферу Марса и нашёл озон в инфракрасном диапазоне, хлороводород и новую полосу углекислого газа, которую никогда ранее не наблюдали

То бишь, без надёжного эксперимента, без качественного сбора образцов и тонкой настройки спектрометров достоверную информацию не получить, увы.

Модель — лишь инструмент, а настоящий результат рождается на пересечении ИИ, лаборатории и телескопов.

Однако, дело молодое, а потенциал этого инструмента — колоссальный.

В итоге

И вот мы снова у костра… Только теперь мы знаем, что частицы дыма — это не просто гарь и сажа. ПАУ одновременно летают и в запахе шашлыка, и в красоте туманностей Орла.

Ну а нейросети, которые раньше были чем-то непонятным и доступным только гикам-программистам, становятся привычным и очень эффективным инструментом для фундаментальных научных исследований.

Они дают возможность читать химический состав любой космической пылинки, заглядывать в колыбели звёзд, искать следы органики на других планетах, а на Земле — моментально определять все компоненты опасных выбросов.

Так что, когда в следующий раз услышите новости про искусственный интеллект, не думайте только о чат-ботах, умных колонках или генераторах картинок (которые тоже нужны, впрочем).

ИИ уже здесь, и он помогает нам разобраться в тайнах Вселенной, и, может быть, именно благодаря таким разработкам мы однажды получим ответы на самые волнующие вопросы.

Например, одни ли мы во Вселенной? Или хотя бы как нам не превратить собственную планету в безжизненную пустыню?