[ЗАСТАВКА] Выбирая правильный сборщик, очень полезно понимать, с какого размера геномом вы работаете, известны ли какие-нибудь особенности этого генома, например, наличие большого числа повторов или очень высокого или низкого ГЦ-состава, какие данные у вас есть, какое количество этих данных вы ожидаете, необходимо ли, например, их обработать до того, как приступить к сборке. Это очень важные вопросы, и выбор сборщика поможет вам в будущем избежать большого количества проблем, таких, например, как исправление неправильно собранных контигов и увеличение длины контигов и скефолдов, а также удешевление процесса и финишинга, если вы собираетесь полностью закрыть свой геном. Выбирая сборщик, также полезно знать, какими свойствами обладает сам программный продукт. На сегодняшний день их уже так много, что бывает нелегко разобраться, какой же вам подходит. В приведенном примере вы видите, что сборщики отличаются сиквенсными платформами, с которыми они могут работать, возможностью или невозможностью корректировать входные данные, кроме того, используются разные алгоритмы работы этих программных продуктов. Об алгоритмах мы будем разговаривать немного позже. Кроме того, способны ли они работать с большими геномами, то есть с животными, с геномами животных, с геномами человека, а не только с микроорганизмами. Какие библиотеки они могут обрабатывать, то есть нужны ли им только парные библиотеки? Одна, две или они могут работать со смесью таких данных? Кроме того, очень важный параметр, с какими длинами рида могут работать эти сборщики. Так, скажем, если сборщик умеет работать только с ридами короче 75 пар оснований, его совершенно бессмысленно использовать для сборки сэнгеровских данных. Сравнивая качество полученных сборок, необходимо учитывать большое количество параметров. Наиболее важными из них является количество полученных контигов, общая длина контигов, наиболее длинный контиг, полученный при нашей сборке, количество неправильно собранных контигов, количество генов, которые мы можем идентифицировать, используя данную сборку. Определение ГЦ-состава на этом этапе позволяет еще раз убедиться в том, что мы работаем с правильными данными. Одним из основных параметров, которые используют все, является N50. Давайте немножко подробней на нем остановимся. N50 это размер контига, который представляет из себя наиболее длинный контиг, такой, начиная с которого все остальные контиги составляют не менее 50 % длины генома. В нашем случае N50 = 4. И вот почему. Длина нашего генома 20 килобаз. Нам удалось собрать его в 7 контигов, 2 из которых длиной 1 килобаза, 2 из которых длиной по 2 килобазы, 3, 4 и 7 килобаз. Если мы возьмем контиги 3, 4 и 7, суммарная их длина превышает половину длины генома, однако сумма 4 и 7 также больше, чем 50 %. Если мы сделаем еще один шаг и перейдем только к 7-килобазному, мы получаем меньше половины длины генома. Таким образом, 4 и 7 это единственная пара, дальше которой уже двигаться нельзя, таким образом, N50 = 4. Для автоматической оценки качества полученных сборок созданы несколько программных продуктов. Наиболее популярным и распространенным среди них является QUAST. Этот тул был создан в Санкт-Петербурге. Большим удобством его является то, что он, во-первых, может работать из командной строки. Во-вторых, у него есть web-интерфейс, а третье – большое количество наглядной информации, которая помогает не только в оценке данных, но и может быть напрямую использована при публикации. Так, например, он создает плот, оценивающий длину контигов, количество генов, которое мы можем идентифицировать, используя ту или другую сборку. Мы можем также получить график распределение ГЦ-состава, мы можем увидеть, насколько хорошо наши контиги покрывают референсный геном, если у нас такой есть, при использовании разных сборщиков или при использовании разных параметров одного и того же сборщика. Кроме того, все эти же параметры вы можете оценить, работая не только с контигами, но и со скефолдами. Были разработаны и опубликованы стандарты качества сборок геномов, полученных в резутате использования новых сиквенсных технологий. Так, автоматическая сборка получила название «стандартный драфт». Она предполагает наличие неправильно собранных контигов, разрешает присутствие контаминации и совсем не предполагает, что такая сборка покроет весь геном. Улучшая ее шаг за шагом, мы приближаемся к полностью законченному геному. Такой, полностью законченный геном, финишный, или референс-геном, предполагает уровень ошибок не выше 1 на 100 000 нуклеотидов. Он не допускает присутствия никаких других символов в конечном сиквенсе, кроме отега C. Также он предполагает наличие для каждого ампликона одного последовательного сиквенса. Это продукт очень высокого качества, который может быть использован для любых детальных анализов и, прежде всего, для сравнительного анализа геномов. Перед нами сборка реального генома. Как видите, она сложна и запутана. Нам потребуется много времени и труда, чтобы восстановить из нее полный геном. Какие же шаги нужно совершить, чтобы получить этот полный геном из стандартного драфта? Прежде всего нам нужно исправить все ошибки в контигах, то есть устранить все неправильно собранные контиги. Если мы этого не сделаем, мы будем пытаться закрыть либо несуществующие дырки, либо дырки, которые существуют совсем не там, где мы предполагаем. Для того чтобы сориентировать контиги друг против друга, мы используем парную информацию. Если в вашем эксперименте были сэнгеровские данные, то значит, у вас есть клон, который вы можете использовать для заполнения сиквенсом этой дырки, то есть вы берете клон и его пересиквенироваете. Однако новые сиквенсные технологии не предполагают никаких клонов. И таким образом, у вас нет матрицы, для того чтобы ее перечитать. Однако бывают и такие ситуации, когда у нас нет никакой информации, подсказывающей нам о том, как же расположены контиги друг относительно друга. В этом случае нам помогут праймеры, синтезированные на концы этих контигов, с помощью которых мы получим PCR-ные продукты и пересеквенируем их. Однако, эти лабораторные методы весьма сложны и требуют много времени. Частично их можно компенсировать биоинформатическими подходами. На данном слайде вы видите две сборки, полученные одним и тем же сборщиком с использованием одних и тех же иллюминовских данных, однако параметр k здесь разный. В первом случае это 31, во втором 51. Как вы видите, помеченную область эти две сборки проходят очень по-разному. Использование как обеих сборок, так и, например, обоих k в одном и том же эксперименте поможет нам избежать этих дырок, либо закрыть, если они уже есть. Кроме использования разных параметров и одного и того же сборщика, мы можем использовать как разные сборщики, так и разные технологии. Зная преимущества и недостатки каждых и имея доступ к этим разным сиквенсным технологиям, мы можем просеквенировать один и тот же геном, используя те и другие, а также совместить эти данные и, таким образом, избежать большого количества ошибок. Наиболее привлекательной с этой точки зрения является технология PacBio. Риды очень длинные, они могут быть использованы для того чтобы, например, закрывать дырки в предыдущих сборках. Так, например, комбинация Иллюмины и PacBio дает очень хорошие результаты. Особенно хорошо использовать такую комбинацию, помня о том, что уровень ошибок в ридах PacBio очень велик, и Иллюмина помогает их компенсировать. Однако недавно были предприняты довольно успешные попытки собрать геномы целиком, используя только PacBio-технологию. Для этого был использован не сборщик, а целая pipeline, то есть целая цепочка процессов, связанных с тем, что качество этих ридов улучшалось. Они переводились из реальных ридов в синтетические риды, то есть риды, созданные в результате биоинформатических манипуляций. И в итоге получилась полная сборка генома. Со временем менялась стоимость сиквенса и сборки геномов. При использовании Сэнгера собрать бактериальный или аркейный геном стоило около 50 000 долларов. Сиквенс таких же геномов при использовании Сэнгера и 454 был несколько дешевле. Зато количество контигов было существенно ниже. Использование комбинаций только новых сиквенсных технологий, а именно 454 и Illumina, заметно удешевляло процесс, но количество контигов не уменьшилось, а наоборот, возросло. Связано это было с тем, что в тот момент длины ридов той и другой технологии были еще невелики, и сборщики не были слишком хороши. Чтобы финишировать геном, полученный с помощью Сенгеровской (Sanger + 454 или Illumina + 454) технологии, стоило приблизительно 100 000 долларов, довольно большие деньги. В 2011 году начали использовать только Illumina для сборки геномов постольку, поскольку эта технология была очень дешевой. И, действительно, как мы видим, просеквенировать такой геном и получить его драфт стоило от 1500 до 3000 долларов. Количество контигов было весьма велико, однако дешевизна подталкивала людей к мысли о том, что тратить теперь большие деньги и много времени на такой дешевый драфт бессмысленно, поэтому финиширование практически остановилось. Точно также было и тогда, когда появились PacBio риды, но они были довольно дороги, и уровень ошибок у них очень большой. Их использовали в комбинации Illumina и PacBio и используют и теперь. Количество контигов довольно маленькое, потому что длинные риды очень хорошо закрывают дырки. Стоимость немножко подросла, и объясняется это тем, что инструменты PacBio очень дорогие. Однако совсем недавно с изменением сиквенсных технологий PacBio и c уменьшением уровня ошибок в этих ридах научились собирать микроорганизмы и археи так, что получается в результате всего один контиг. То есть полностью восстанавливается последовательность генома. Почему же так важно иметь полностью закрытые геномы? Зачем нам нужны референсы? Это необходимо для изучения функционирования генома, для сравнительного анализа большого количества геномов между собой. Кроме того, для проведения таких исследований, как криминалистические исследования с участием микроорганизмов. Особенно это важно при наступлении эпидемии, причиной которой является неизвестный нам организм. Когда у нас есть большой выбор референсных геномов родственных и не очень близкородственных организмов, мы можем быстро сравнить неизвестный нам микроорганизм с уже хорошо изученными и определить, к какой группе они относятся... он относится, и как с ним бороться. Полностью закрытые геномы — это совершенно неоценимый ресурс для большого количества исследований, часть из которых мы, возможно, даже еще и не знаем. Если нам когда-нибудь удастся полностью завершить геном человека, это будет очень большой шаг вперед в области персонализованной медицины. Для того чтобы все эти процессы шли быстрее, биоинформатики создали хорошую коллекцию тулов. Часть из них была создана в Академии, а часть из них − коммерческие. Посмотрите на этот список, может быть какой-то из них вас заинтересует и поможет вам в вашей работе. На данный момент уже просеквенировано очень большое количество разных организмов, от микроорганизмов до человека. Много лет назад была создана база данных, которая называется GOLD. Genomes Online Database. Это очень полезная база данных, вы можете найти там все проекты, которые сейчас происходят, она постоянно обновляется. Вы можете... начиная новый проект, вы можете посмотреть, не секвенирует ли этот геном уже кто-то. Вполне возможно, что он уже сделан, или какой-то близкородственный организм секвенируется в известной или неизвестной вам лаборатории. Это поможет вам избежать ошибок или делать ненужную работу. В этой базе данных вы можете зарегистрировать свой проект. Она поможет вам проанонсировать ваши данные, а также опубликовать их. Специально для того чтобы публиковать просеквенированные и собранные геномы, был создан журнал онлайн, который называется SIGS, «Стандарты в геномной науке». В этой базе данных вы можете посмотреть, какие геномные проекты происходят, где, как они расположены на филогенетическом дереве, в каком состоянии они находятся, они полностью завершены, они только начаты или уже доведены до полного конца. Вы также можете посмотреть разные статистики. Вот, например видно, какое количество проектов было закончено, начиная с 2006-го года по сегодняшний день. «Закончено» − имеется в виду, что над этим проектом уже больше не работают. Он остановлен либо на этапе полного генома, то есть закончен не только проект, но и полностью геном, а также на этапе драфта, если он еще не завершен, или просто ученые решили с ним не работать дальше. Когда вы закончите свой геномный проект, вы сможете опубликовать его в этом журнале. Публикации в них очень просты, вам нужно только уметь хорошо описать, как вы проводили процесс, каков ваш микроорганизм, представить красивую картинку и таким образом дать миру знать, что вы сделали, и какой новый организм теперь доступен всем для анализа. Всего вам доброго и удачи! [ЗАСТАВКА]