— Ольга, ваша сфера деятельности – это биоинформатика, вы занимаетесь созданием нейросетей для генетиков и биологов. Для чего именно можно использовать в этой области искусственный интеллект?
— Сегодня сфер для применения ИИ в биологии много. Например, с его помощью по фотографии ребенка можно предположить, какое у него редкое генетическое заболевание. Есть такое приложение от компании Face2Gene: делаем фотографию, загружаем ее, и нейросеть анализирует лицо ребенка. Дает подсказку врачам-генетикам, в каких генах искать мутацию, чтобы поставить ребенку правильный диагноз.
Начали появляться нейросети, которые подсказывают интерпретаторам-биоинформатикам, какая степень патологии может быть у мутации, которая не кодирует наши белки.
— Что такое мутация, которая «не кодирует белки»?
— Наш геном состоит из двух частей: участков, которые кодируют какой-либо белок (отвечают за его выработку в организме) и участки из некодирующей, — так называемой «мусорной» ДНК. Вопреки названию, она не бесполезна, — в ее функции в том числе входит регуляция генов.
Мутация, о которой мы говорим, находится в некодирующей области генома. Такие мутации сложно интерпретируются: мы не можем однозначно сказать, будут ли влиять эти изменения в геноме на развитие заболевания или нет. Тут стоит отметить, что вообще далеко не каждое изменение в геноме является патогенным. Поэтому страшное слово «мутация», которое нас отсылает к чему-то нехорошему, в профессиональном сообществе заменяют словом «вариант». А варианты уже можно интерпретировать как доброкачественные, патогенные и с неизвестным клиническим значением. Подавляющее большинство вариантов в нашем генетическом коде не вызывают никаких заболеваний.
Уже есть понятные правила, как определять патогенность вариантов в той зоне, которая кодирует белки.
— И как в этой работе может помочь нейросеть?
— Мы сделали нейросеть DeepCT, которая позволяет предположить роль мутации в разных типах клеток.
У нас в каждой клетке организма одинаковая последовательность ДНК. Но при этом из одних клеток у нас развивается почка, из других — сердце, из третьих — головной мозг. Почему это происходит при одинаковой последовательности? Потому что у нас есть некая программа регуляции генов. Одни гены выключены и не работают, а другие включены. Например, гены, которые отвечают за активную работу сердечной мышцы, не работают в клетках головного мозга.
DeepCT — пока не стопроцентный клинический инструмент, но он может предсказать роль мутаций. Результаты предсказаний нейросети еще нужно проверять.
Также есть еще инструмент «Enformer» на основе нейросетей от компании Google, который позволяет предсказывать не просто связь гена с каким-то белком, а вообще экспрессию (активность) конкретного гена. «Enformer» отвечает на вопрос: будет ли мутация в конкретном гене влиять на синтез белка? Будет ли экспрессироваться ген в клетках?
— У российских ученых подобных разработок нет?
— Есть. Вдохновившись им, мы решили создать свой аналог – Deep CT. Сейчас есть языковые модели для ДНК, аналогичные моделям для обработки естественного языка. Но дело в том, что существующие нейросети были либо в закрытом доступе, либо работали не очень хорошо. Мы обучили свою модель, которая называется GENA, она доступна всем ученым мира. Программа может принимать достаточно небольшие последовательности ДНК и выучивать в них закономерности.
— А длинные отрезки она может анализировать? На что вообще влияет длина отрезка, если мы говорим об анализе ДНК?
— Длина последовательности очень важна, потому что нужно понимать контекст, в котором есть мутации. Чем длиннее мы даем последовательность, тем больше нейросеть может в ней увидеть и выучить какие-то закономерности.
Наша задача и состоит в том, чтобы увеличить последовательность, которую может анализировать нейросеть. Первый вариант GENA работает с длиной приблизительно в 3000 нуклеотидов, вторая архитектура модели позволяет на вход подавать 24000 нуклеотидов. Обе модели уже выложены в открытый доступ и доступны мировому сообществу. За последний месяц исследователи из всего мира более 1000 раз скачали эти два решения.
У нас есть своя новая собственная архитектура, разработанная в AIRI совместно с коллегами из МФТИ, называется RMT – Recurrent Memory Transformer. Она потенциально может работать с неограниченной длиной последовательности текста, на ряде задач успешно справляется с длинами в 1-2 миллиона букв. В экспериментах на геномных данных сейчас исследуем ее возможность обрабатывать более 24 000 букв. Сейчас мы пишем научную статью и готовимся ее официально представить.
— Какие-то ранее неизвестные закономерности, связанные с мутациями, GENA уже выявила?
— Да, GENA обращает внимание на те участки, которые имеют некий биологический смысл. Другими словами, даже если мы не можем найти никаких упоминаний в научной литературе о том, что конкретный участок в геноме на что-то влияет, это не значит, что нейросеть ошиблась. Возможно, она нашла что-то новое, неизвестное в биологии.
Такие участки нужно изучать, – они помогут потихонечку размотать клубок загадок нашего генома.
Также мы придумываем новые подходы к применению GENA. Например, мы хотим ее применять для данных секвенирования метагеномного сообщества из помета летучей мыши. Мы проверяем, может ли GENA определить разные геномы вирусов и бактерий, которые были секвенированы в этом помете. Но это все пока на стадии задумки.
— Существуют ли нейросети, которые могут предсказать появление генетических заболеваний у еще не родившегося человека?
— Эти нейросети находятся сейчас в стадии развития.
Обычно к врачу-генетику советуют ходить любой паре, которая планирует ребенка. Именно врач-генетик может предположить, есть ли риск носительства какого-то редкого моногенного (когда заболевание происходит из-за мутации в одном гене) заболевания. Это делают без нейросетей.
Если у здоровых родителей находят пагогенную мутацию в одном гене, ассоциированном с известным заболеванием, то риск рождения больного ребенка составляет 25%. Таким родителям рекомендуют пройти процедуру ЭКО с преимплантационным генетическим скринингом на данную мутацию. Но также можно проверить генетический профиль эмбриона по всем хромосомам.
Этот скрининг представляет собой генетический тест, в котором исследуют эмбрионы перед подсадкой в полость матки. От этих эмбрионов берется несколько клеточек, и программы определяют отклонения в генетическом профиле у будущего плода. Эти программы сегодня основаны на известных математических алгоритмах. Сегодня в них начинают внедрять нейросети для более полного анализа всего геномного профиля эмбриона, но сейчас все это находится на начальном этапе.
— Это вы говорите про ситуацию в мире или в России?
— Немного раскрою секрет: в России есть коллектив в Инситуте цитологии и генетии СО РАН, который создал свой метод скрининга эмбрионов. Он отличается от существующих на рынке. Пока это исследование находится на уровне научной разработки, идут тестирования на различных синтетических и живых образцах, — неэмбриональных, — у которых есть какие-то анеуплоидии (численные аномалии хромосом).
— Чем именно этот метод отличается от аналогов?
— Я не могу раскрыть все детали, но технология там совсем другая. Более того, он позволяет не просто секвенировать ДНК, не просто считывать ее последовательность и точно определять, где произошла мутация. Коллеги планируют добавить возможность просмотра того, как эти хромосомы расположены в 3D-структуре нашего ядра. Мы сможем увидеть, где какой ген с каким контактирует, насколько различные регуляторные процессы могут быть в эти изменения вовлечены.
— Другими словами, это более полный анализ?
— Да, расширенный.
— Могут ли нейросети помочь в изучении коронавируса?
— Да и это очень интересное направление. Нейросети могут помочь предсказать следующую мутацию коронавируса (пока существующие для этой задачи модели, к сожалению, работают не очень хорошо) и предположить, как можно улучшить свойство вакцины для нового штамма.
Как известно, в структуре коронавируса очень важен S-белок (шип, который первым контактирует с клеткой). Это именно тот белок в структуре коронавируса, на который вырабатываются антитела. Те места, куда антитела «присаживаются» называются эпитопами.
Если вирус мутирует, и изменения задевают эти эпитопы, то, к сожалению, выработанный после вакцинации или после заражения предыдущим штаммом коронавируса иммунитет будет либо менее эффективен, либо вообще неэффективен.
Совместно с коллегами из центра Гамалеи мы создали нейросеть SEMA, которая позволяет загрузить на вход последовательность белка вируса и получить данные о том, где у него находятся эти эпитопы.
— И, если эти места в новом варианте вируса изменились?
— То можно сделать предположение, что, к сожалению, данные эпитопы уже неэффективны. Следовательно, вакцину стоит обновлять.
Более того, мы усовершенствовали модель. Теперь она позволяет определить, есть ли на поверхности белка гликаны. Это такие полисахариды, которые сверху покрывают белок как «кустики». Это естественный барьер для связывания с антителами. То есть антитела не могут связаться с эпитопом, если сверху есть полисахариды.
Другими словами, SEMA можно использовать для биотехнологических разработок, для оценки, насколько белок иммуногенный, какие антитела вырабатываются. И для оценки будет ли работать препарат на основе какого-то антитела против вируса.
— Она работает только с коронавирусом?
— Она разрабатывалась для него, да, но сейчас с ее помощью можно изучать любой вирус.
— Какие разработки вы ведете сейчас?
— Сейчас в мире существуют нейросети, которые помогают создать абсолютно новый биологически активный белок, не существующий ранее в природе. С заданными свойствами. Такие белки необходимы для блокировки или улучшения свойств пищевых компонентов, решения экологических задач, создания вакцин и прочего.
Сейчас мы занимаемся созданием свой подобной модели, но пока она только на начальном этапе разработки.
По сообщению сайта Газета.ru