[МУЗЫКА] Сборка геномов de novo из относительно коротких сиквенсных
прочтений, производимых платформами, которые мы только что с вами рассмотрели,
является одной из основных задач в биоинформатике.
Однако же применение некоторых молекулярно-биологических подходов
способствует упрощению этой работы.
И давайте рассмотрим один из таких подходов, предлагаемый компанией Illumina,
позволяющий получать так называемые синтетически длинные риды.
В чем же заключается этот метод?
Сначала молекулы ДНК фрагментируют на относительно протяженные участки,
порядка 10 тысяч пар нуклеотидов, и коллегируют адаптеры.
После чего молекулы ДНК распределяют таким образом в планшетах, чтобы в каждой из
лунок находилось по 3 типа фрагментов ДНК, представляющие 3 разных участка геном.
Поскольку платформы компании Illumina не способны работать с длинными фрагментами
ДНК, молекулы фрагментируют с помощью фермента, разрезают их на более короткие.
Далее метят их индексами таким образом, чтобы в каждой лунке индексы были свои.
После чего проводят секвенирование на платформе Illumina HiSeq.
Тот факт, что каждые лунки библиотеки были помечены своими индексами позволяет
из коротких прочтений собрать более длинные синтетические прочтения,
ну и в дальнейшем собрать более длинные контиги при сборке генома.
Одним из наиболее интересных подходов, позволяющих секвенировать
наиболее протяженные фрагменты ДНК и облегчающие сборку генома,
является технология, предлагаемая компанией Pacific Biosciences,
которая позволяет секвенировать непрерывные последовательности
ДНК размером до 30 тысяч пар нуклеотидов,
со средней длиной прочтений от 10 до 15 тысяч пар нуклеотидов.
Особенностью этой платформы является еще и то,
что молекула ДНК секвенируется без этапа амплификации.
Давайте рассмотрим,
каким же образом проводится секвенирование на платформах PacBio.
Для того чтобы просеквенировать ДНК, одноцепочную нить ДНК помещают в лунку,
где расположено, где располагается фермент полимераза.
Сиквенс начинается с праймера, универсального праймера,
который связывается с адаптером, после
чего начинается сиквенс непосредственно интересующего нас фрагмента ДНК.
Во время секвенирования в лунку также помещаются нуклеотиды.
Каждый тип нуклеотидов мечен своей флуоресцентной меткой.
И в случае если нуклеотид присоединяется в растущую цепочку ДНК,
происходит высвобождение флюорофора, что детектируется камерой секвенатора.
И, таким образом, последовательно присоединяясь,
разные нуклеотиды высвобождают разные флюорофоры,
и восстанавливается нуклеотидная последовательность исследуемой нами ДНК.
Эта технология, как я уже сказала,
позволяет получать очень длинные прочтения.
Однако же частота ошибок, производимых секвенатором, довольно-таки большая,
что не позволяет использовать этот подход для поиска нуклеотидных полиморфизмов,
но в то же самое время этот подход очень удобен, если мы
секвенируем геном de novo и хотим собрать большие непрерывные контиги из scaffold'а.
Одним из наиболее многообещающих методов,
которые обеспечат очень длинные и очень дешевые прочтения генома,
является метод, основанный на секвенировании с помощью нанопоры.
Совсем недавно, в 2014 году,
компания Oxford Nanopore Technologies предложила новую разработку —
секвенатор MinION, которая позволяет секвенировать с помощью нанопоры.
И мы видим его на данном слайде, это очень небольшой секвенатор,
результаты секвенирования которого будут стоить относительно недорого.
В чем же заключается основной принцип секвенирования с помощью нанопоры?
Секвенатор представляет собой камеру с электролитом и нанопорами.
При приложении электрического поля молекулы ДНК протягиваются через нанопору,
но, поскольку конформация нуклеотидов отличается немного друг от друга,
то и сила тока при прохождении разных
нуклеотидов через нанопору будет тоже отличаться.
И, таким образом...
И, таким образом, можно определить нуклеотидную
последовательность исследуемой ДНК.
Сравнение платформ можно проводить по нескольким параметрам.
Например, по длине, по максимальной длине прочтения,
по производительности секвенатора, по времени работы, по проценту ошибок,
по типу ошибок и по стоимости секвенирования генома.
Итак, как мы видим, наибольшую длину прочтения обеспечивает платформа PacBio,
позволяющая получить в последовательности цепочки ДНК до 30 тысяч нуклеотидов.
Также довольно длинное прочтение, сопоставимое с прочтениями методом
Сэнгера, позволяет получить платформа Roche 454 — до 1000 пар нуклеотидов.
Сравнивая производительность секвенаторов, мы видим,
что наибольшую производительность имеет платформа HiSeq компании Illumina,
позволяющая получить до 500 миллиардов нуклеотидов за один запуск.
Тем не менее, запуск данного секвенатора является довольно дорогим и, если
мы реализуем какие-то небольшие геномные проекты, это не всегда оправданно.
Если мы секвенируем бактериальные геномы, либо какие-то фрагменты геномов,
имеет смысл запустить другую платформу, такую,
как IonTorrent либо Illumina Miseq, позволяющая получать хоть и меньше данных,
но прочтения будут длиннее и время работы секвенатора тоже будет меньше.
Мы видим, что уровень ошибок варьирует от 0,1 % до 1 % почти у всех платформ,
однако наибольшее число ошибок обеспечивает платформа PacBio.
Таким образом, результаты, полученные на данной платформе,
необходимо корректировать результатами прочтения геномов с помощью
других секвенаторов, либо необходимо увеличивать покрытие генома,
если мы используем для секвенирования генома только одну платформу.
Различные платформы отличаются и по типу ошибок.
Например, платформа Illumina обеспечивает секвенирование путем синтеза,
при синтезе цепи ДНК может включить неправильно нуклеотид и,
таким образом, может получиться ложная нуклеотидная замена.
И мы должны иметь это в виду, если мы работаем с данными Illumina.
Кроме того, платформы, такие, как Roche 454,
IonTorrent, могут ошибочно определять количество идентичных
нуклеотидов в одной цепи ДНК, идущих друг за другом.
И, например, вместо 4 нуклеотидов,
идентичных нуклеотидов, детектировать 3 либо 5.
И, таким образом, мы получаем ложные инсерции и делеции.
Все эти ошибки необходимо знать и для того, чтобы убедиться в отсутствии
или присутствии той или иной замены, необходимо провести подтверждение
этим данным с помощью секвенирования по Сэнгеру, например,
либо используя альтернативную платформу для секвенирования.
Оценивая стоимость секвенирования генома, мы видим, что самое дешевое секвенирование
большого генома обеспечивает платформа Illumina HiSeq, но тем не менее,
если нам не нужно секвенировать большой геном, а нужно просеквенировать маленький
либо только фрагменты, это не всегда оправданно использование этой платформы.
И лучше применить платформы, хоть имеющие более дорогую стоимость секвенирования
гигабазы, но все-таки позволяющие получить быстрый результат и оправданные
с точки зрения цены за один запуск секвенатора.
Секвенирование с помощью метода Сэнгера является наиболее дорогим,
если мы хотим просеквенировать геном.
Но эту технологию все еще применяют для того, чтобы секвенировать
небольшие фрагменты генома либо валидировать нуклеотидные мутации,
найденные на платформах для секвенирования нового поколения.
Итак, сегодня мы с вами рассмотрели основные принципы секвенирования ДНК,
познакомились с существующими платформами как для полногеномного,
так и для таргетного секвенирования.
Теперь мы знаем, что такое ДНК библиотеки, какого типа библиотеки нам необходимо
готовить, если мы хотим просеквенировать геном de novo.
Теперь мы знаем, как можно просеквенировать много разных библиотек за
один запуск секвенатора и ничего при этом не перепутать.
Я надеюсь, что эти знания вам пригодятся в дальнейшей работе для формирования своих
собственных научных задач, для анализа данных.
Спасибо за внимание!