Привет! С нами биоинформатик Дмитрий Виноградов, сотрудник Института проблем передачи информации и наш коллега по онкологическому проекту, который мы делаем вместе с компанией «АстраЗенека» и Российским онкологическим обществом. Я хотел попросить его рассказать вам, что такое биоинформатика, чтобы вы попробовали решать задачи из этой области и применять статистику в них. >> Рассказать? Хорошо. Что такое биоинформатика? Биоинформатика — это наука, находящяеся на стыке сразу трех направлений. В первую очередь, это биология, из которой приходят собственно сами задачи, во вторую очередь, это математика, которая в основном используется для того, чтобы проанализировать данные, полученные из биологии, и, в третью очередь, это Computer Science, которые используются, потому что данных очень много и обрабатывать их вручную было бы невозможно. >> А какие данные бывают в биоинформатике? >> Данных в биоинформатике достаточно много разных типов. Самые распространенные данные — это данные каких-нибудь генетических последовательностей: ДНК, РНК, белки, то есть это такие длинные последовательности из небольшого числа буковок. В случае ДНК — это одна из четырех буковок, в случае белков — это одна из двадцати буковок. А длина этих последовательностей может быть от относительно коротких, — десятки, сотни тысяч, — до нескольких миллиардов. >> А как вообще может использоваться такая информация? >> Мы можем в этих длинных последовательностях искать какие-то закономерности. Мы можем взять несколько разных последовательностей одной длинны и попытаться понять, насколько они друг с другом связанны: какие ближе друг к другу, какие дальше друг от друга. И это все может иметь следствия, важные для биологических задач, для ответа на биологические вопросы. >> А какие, например? >> Вопросов может быть очень много разных. Часто говорят про биомедицинские исследования. Можно отдельно говорить про биологию какую-то такую фундаментальную, о том как жизнь вообще устроена, а можем говорить про медицину. Если говорить про медицину, то, например, важный вопрос достаточно — как нам лечить того или иного человека? Вот к нам пришел пациент с каким-то генетическим заболеванием, например, не дай бог, с раком, и мы хотим понять, какое лекарство ему поможет, а какое не поможет. Для этого можно, собственно, посмотреть на его генетическую информацию и, используя эти данные с помощью биоинформатических методов, ответить на вопрос, какое лекарство поможет, а какое нет. >> Значит ли это, что в биоинформатике много применяется статистика? >> Да, это, безусловно, одна из ключевых вещей, которая необходима, поскольку мы очень редко можем смотреть только на один объект. Очень часто мы смотрим на какую-то выборку, на популяцию объектов, и те данные, которые мы получаем из экспериментов, они очень «шумные», и мы хотим выделить сигнал и выкинуть весь «шум». И статистика отвечает, как я понимаю, именно на этот вопрос. >> А как становятся биоинформатиками? >> Хороший, прекрасный вопрос. Собственно, поскольку биоинформатика — это наука на стыке трех направлений, то в нее можно прийти из трех сторон. И так, собственно, чаще всего и бывает. Бывает, что биологи понимают, что им не хватает для ответа на интересующие их вопросы какого-то такого базиса такого математического, и они начинают заниматься биоинформатикой. Бывает, что математики считают, что они изучают какие-то вещи в себе, совершенно ни к чему не привязанные, а им хотелось бы больше какого-то практического применения, полезного людям. И они тогда двигаются в эту сторону. Ну и, конечно, Computer Science примерно так же, как и математики, могут просто хотеть чего-то приближенного к реальности. >> А есть какие-то специфические особенности, типичные структуры данных, которые в биоинформатике чаще всего используются? >> Структуры данных? Например, мы можем анализировать данные различного типа: можно смотреть на какие-то количественные измерения, можно смотреть на какие-то качественные. Например, можем смотреть, условно там, мальчик-девочка — какое-то распределение в двух выборках, а можем смотреть на какие-то показатели, которые измеряются действительными числами. В биоинформатике сейчас, в связи с появлением очень таких полезных, интересных приборов как секвенаторы, очень много смотрят на данные по экспрессии гена. Экспрессия гена — это числовой показатель: насколько активно этот ген в данный момент в данной клетке работает. Генов, например, в организме человека порядка двадцати тысяч, и часто возникает задача, что нам нужно взять два каких-то организма, два набора условий, при которых находится клетка, и сравнить один набор из двадцать тысяч и другой набор из двадцати тысяч. Здесь, конечно, нужны статистические методы. >> То есть это данные очень высокой размерности? >> Да, это данные очень высокой размерности, и двадцать тысяч тут совершенно не предел. Бывает и гораздо больше, если мы, например, будем смотреть на экспрессию не генов, а — более тонкий уровень — на экспрессию транскриптов, которых уже там может быть сто тысяч. >> А насколько большие выборки типично используются? >> Это зависит от наших коллег, биологов-экспериментаторов, которые предоставляют нам данные, от того, насколько большой грант им удалось получить. Конечно, для того чтобы выводы, которые мы делаем, были достоверные, нам хочется иметь выборки как можно большего размера. И вот тут важный момент, который надо учитывать биоинформатику, что биологи часто статистику не знают, и они не понимают ограничений, которые налагает тот эксперимент, который они провели. Они могут считать, что вот они взяли два организма из группы A и два организма из группы B и могут надежно сказать что-то про различия между ними. И тут биоинформатик должен применить все свои знания, чтобы сказать им, какое минимальное число измерений им нужно провести, чтобы дать квалифицированный, надежный ответ. >> Может быть, это дурацкий вопрос, но не мог бы ты привести пример нескольких самых наиболее часто используемых математических инструментов в биоинформатике? >> Вещь, которая постоянно встречается, поскольку часто мы измеряем какие-то однотипные объекты в большем количестве, то очень часто нужно помнить про коррекцию на множественное тестирование. Очень часто нам нужно оценить: у нас есть два распределения, мы знаем тип их распределения, например, распределения Пуассона, и мы хотим понять, отличаются ли параметры этих распределений. Либо, например, у нас есть просто две выборки, и мы хотим понять, пришли они из одного распределения или из разных. Мне кажется, это наиболее частые вопросы, на которые нужно отвечать. >> А какая вообще от биоинформатики пользы человечеству? >> Вопрос прекрасный! От биоинформатики человечеству, я считаю, польза примерно такая же, как от математики. Сама по себе биоинформатика — это до некоторой степени техническая наука, а человечеству польза все-таки от каких-то более прикладных, более прагматических, может быть, вещей, более реальных, тех, которые можно пощупать, но не зная, не используя биоинформатические методы, мы не смогли бы ответить, например, на вопросы, кому принадлежат останки людей, найденных в подвале Ипатьевского дома. Оказалось, и мы это достаточно надежно подтвердили, что это останки последнего царя династии Романовых. Сейчас очень часто биоинформатические методы используются во всяких криминологических исследованиях, когда мы хотим понять, вот эти следы крови, какому человеку они принадлежат, подозреваемому или кому-то другому. Без биоинформатики здесь ответить нельзя. Возвращаясь к тому, чем мы занимаемся здесь, в Яндексе, очень важно, — и к тому примеру, о котором я уже говорил, — очень важно применять эти методы при назначении терапии генетических заболеваний. И, наконец, очень, мне кажется, важный такой человеческий пример. Есть генетические заболевания, которые можно определить на очень разных стадиях развития плода. То есть мама может заранее понять, нет ли у ее ребенка какого-то такого очень неприятного заболевания, и принять в этой связи какое-то решение. >> Дальше вас ждет домашняя работа на сравнение уровня экспрессии генов в группах больных и здоровых людей. Дима, а ты не мог бы расказать, как вообще можно такие результаты использовать на практике? >> Да, попробую объяснить. В результате такого анализа мы получим набор генов, в которых экспрессия значимо отличается в подвыборке больных и в подвыборке здоровых людей. В последствии мы сможем использовать эту информацию для того, чтобы создать диагностическую систему, которая позволит врачу быстрее, дешевле, точнее определить, есть ли данное заболевание у пациента, который к нему пришел на прием, насколько оно серьезное, опять же какую терапию ему можно будет ему назначить. >> А такие данные можно использовать как-то для исследования самого механизма заболевания? >> Да, эти данные можно попробовать использовать для понимания молекулярных причин заболевания и для того, чтобы не то, чтобы выбирать из существующих лекарств, но и создавать новые, более эффективные, более понятные. >> Спасибо большое, Дима, что согласился прийти к нам и записать этот разговор. Надеюсь, вам понравилась эта тема и понравится домашняя работа на биоинформатику.