С момента завершения проекта "Human Genome Project" в 2003 году стоимость секвенирования человеческого генома упала в 6000000 раз — с трёх миллиардов до 600 долларов. По многим прогнозам она будет падать дальше, причём не линейно, а с резкими обвалами, соответствующими появлению новых технологий секвенирования и новых алгоритмов обработки сырых данных. Поэтому в скором времени секвенирование генома может стать рутинной диагностической процедурой, хотя и сейчас можно отсеквенировать свой геном за символичесике 1500 долларов. Почему 1500, хотя предложением выше говорилось про 600? Дело в том, что отсеквенировать кусок ДНК — треть задачи, вторая треть — собрать его из очень коротких фрагментов, ну а третья (а какая же ещё?) треть — понять, какой ген и где там находится, то есть проаннотировать геном. А ещё можно поискать там мутации, попробовать оценить их эффект жизнь клетки и, например, дать человеку рекомендации по образу жизни. И тут нужно отметить, что сборка некоторых участков генома напоминает попытки составить паззл из 10000 кусочков, где в качестве картинки использовалась фотография неба в ясный день. Суммарный размер человеческого гаплоидного генома — 3 миллиона пар оснований, а длина среднего рида после секвенировании на секвенаторе Illumina — примерно 200 нуклеотидов. Выглядит сложновато, правда?
Разумеется, геномы бактерий и тем более вирусов сильно меньше, но даже их сборка требует значительных вычислительных ресурсов и специальных алгоритмов.
О том, как секвенируются и собираются геномы вы можете посмотреть в видосах снизу. Кстати, разных технологий секвенирования достаточно много, но Illumina — одна из самых мейнстримных. А с другим невероятно крутым методом от Oxford Nanopore вы познакомитесь в одном из следующих заданий.
GTEx — база данных, содержащая результаты полнотранскриптомного секвенирования 54 тканей человека, полученных от 1000 индивидумов, не имевших явных патологий в течение жизни.
TCGA — проект полнотранскриптомного секвенирования более 20000 образцов различных опухолей.
The GDC Data Portal — платформа, которая позволяет экспериментаторам и биоинформатикам искать и скачивать геномные и транскриптомные данные о раковых заболеваниях.
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Morpheus — программа для создания тепловых карт. К ней есть очень подробный мануал.
Итак, в этом задании вам предстоит пособирать паззл вирусного генома, прочитанного при помощи NGS технологии от Illumina.
Сырые риды можно скачать из репозитория SRA — Sequence Read Archive. Это база данных NCBI, куда загружаются все результаты секвенирования, использованные исследователями в опубликованных работах.
Выбрать себе вирус по вкусу. Сразу обратите внимание
С сайта GDC скачать обработанные транскриптомные данные для выбранной Вами опухоли. Важно так же скачать и sample sheet, там содержится информация о каждом из образцов.
Сначала настройте Cohort Builder. Там в полеProgram выбирайте TCGA, а в разделе Project - название проекта -- той опухоли, которую вы хотите взять в анализ.
После этого нажимаете на Repository. Там в Experimental Strategy клацаете на RNA-Seq, в Workflow Type -- STAR - Counts, в Access -- open, а в Tissue Type -- tumor.
Распакуйте архив и откройте папку. Там вы увидите множество файлов, для разных опухолей их будет разное количество. Каждый файл — отдельный образец опухоли.
Названия генов из полученного списка нужно перевести в ensembl id через программу BioMart. Сервера Ensembl не очень мощные, а пользуются ими часто, поэтому что-то может не работать и отваливаться. Так бывает. Подождите. Повторите. Снова подождите. Не впадайте в уныние. Попейте чай.
Теперь Вам нужно извлечь данные по экспрессии 50 генов в каждом образце выбранной опухоли. Для этого используйте ensembl id в качестве ключа, вытягивая по нему строку. Это очень удобно делать скриптом, напишите его.
Сохраните данные в отдельный файл.
Теперь скачайте с GTEx данные для нормальных тканей. Файл представляет собой огромную таблицу.
Из этой таблицы нужно извлечь данные по экспрессии генов для ткани, соответствующей выбранной вами опухоли. Например, если Вы выбрали мелкоклеточный рак лёгкого, то в качестве нормы Вам нужно выбрать лёгкое. Сохраните значения в отдельном файле.
Извлеките из полученного файла значения экспрессии для 50 генов. И тут Вам тоже пригодится скрипт. Напишите его.
Например, что-нибудь такое:
В программе Morpheus постройте тепловую карту, использовав в качестве исходной матрицы полученные файлы.
Проанализируйте экспрессию генов в норме и в опухоли, выберите гены, которые изменяют уровень своей экспрессии, посмотрите, нет ли таких генов, которые не работают в норме, но активируются в опухоли. Предложите практическое применение полученным результатам. Обрадуйтесь. Подумайте, что большая часть людей на планете не умеет всего этого делать. Обрадуйтесь ещё раз.
The mission is completed. You are amazing, dudes!
NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.