В этом году вы научились проводить филогенетический анализ белок-кодирующих и некодирующих генов, собирать геномы и определять уровень экспрессии последовательностей. И теперь вам предстоит провести небольшое исследование самостоятельно. Вам будет предложен список генов, из которого вы и выберете свой будущий объект изучения. Программы и методы вы можете использовать любые в зависимости от ваших предпочтений, а результаты нужно будет оформить в виде весьма краткой презентации.
Итак, вам потребуется произвести поиск ортологичных последовательностей некодирующей последовательности в геномах различных живых организмов, входящих в эволюционную линию человека, визуализировав результат в виде филогенетического древа, и сделать вывод об эволюции этой последовательности. То есть проделать приблизительно то, что вы уже делали ранее. Тем не менее, будет несколько отличий. Во-первых, больше видов. Здесь вы делаете уже полноценное филогенетическое исследование, а значит нужно увеличить разрешение метода, добавив в анализ больше геномов. Во-вторых, да, именно геномов. Поиск по транскриптомам вносит существенное ограничение на точность анализа. В-третьих, нужно будет разделить обнаруженные ортологи и паралоги, это делается очень просто — достаточно посмотреть на окружение гена, если оно одинаковое у двух видов — это ортолог, если разное — паралог. Такой анализ можно делать при помощи скриптов, а можно руками в геномном браузере, например, как здесь. На этом отличия, пожалуй, и заканчиваются.
NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
GenBank — это база данных NIH, коллекция всех аннотированных общедоступных последовательностей ДНК и РНК.
BLAST — Basic Local Alignment Tool — пакет программ, используемых для выравнивания нуклеотидных и аминокислотных последовательностей. Наиболее часто использумая программа в молекулярной биологии.
tBLASTn — высокая чувствительность при локальном выравнивании аминокислотных последовательностей
MAFFT — программа для множественного выравнивания
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Lifemap — филогенетическое дерево живых организмов. Позволяет посмотреть взаимное эволюционное расположение видов из всех трёх доменов жизни. В строку поиска можно вводить латинское название вида.
TimeTree — ещё один сервис по филогении, он поможет вам узнать время возниконвения видов, таксонов и даже солнечную активность и концентрацию углекислого газа в разные геологические эпохи.
Вам будут выданы ensembl id некодирующих последоватльностей, для которых и потребуется провести филогенетический анализ и оценить уровень их экспрессии в нормальных и патологических тканях.
Собственно, на этом описание и заканчивается. Инструменты вы можете выбрать на свой вкус. Хотите юзать привычный MAFFT? Ok! Muscle? Тоже норм. T-COFFEE тоже, кстати, существует. Вы поклонник Ктулху и ирландец и поэтому не любите англичан? Ну и стройте дерево через BEAST.
Выбор патологической ткани остаётся тоже за вами. Хоть болезнь Альцгеймера, хоть ожирение. Кому что ближе.
Тем не менее, ниже вы можете найти привычный ход работы, который позволит найти путь во тьме.
Перечисленные ниже действия опциональны, при желании вы можете выбрать другие инструменты. Основная задача — получить результат.
Выбрать ген
Получить нуклеотидную последовательность гена
Сохранить выбранную последовательность в текстовом файле с расширением .fasta
Скачать геномы выбранных организмов с ensembl.org. Геномы тоде лучше скачивать скриптом через rsync. Адрес опять же однотипен и тоже содержит латинское название вида, которое можно использовать, как переменную. Например, для шимпанзе путь к файлу с геномной последоваельностью выглядит так:
/pub/release-113/fasta/pan_troglodytes/dna/*dna.toplevel.fa.gz
Скрипт может выглядеть как-то так:
#!/bin/sh
s_list='species.txt'
while read species; do
rsync -av rsync://ftp.ensembl.org/pub/release-113/fasta/${species}/dna/*dna.toplevel.fa.gz
done < ${s_list}
Но обратите внимание, что версия базы постоянно обновляется, поэтому вместо release-113 может понадобиться подставить более свежий релиз.
Преобразовать .fasta файлы в базу .hmm. HMMER в любом случае будет генерировать такую базу на основе геномной последовательности, но при каждом новом выравнивании заново, поэтому для экономии времени лучше сгенерировать её заранее и один раз. Чтобы не вводить команду 11 раз, удобнее сделать скрипт, взяв путь к геному в качестве переменной.
Если вы ленивы или нетерпеливы, то готовые геномные базы можно скачать тут.
Подождать, выпить чай. Возможно, поспать. Генерация .hmm базы занимает весьма много времени, а если компьютер не очень мощный, то придётся подождать пару часов. Можете посмотреть, если ещё не видели, Black Books.
Подождать, выпить чай, подумать над литобзором будущей публикации и смыслом жизни
Запустить выранивание нуклеотидной последовательности на геномы в программе nHMMER. Удобнее это делать скриптом, взяв путь к базе в качестве переменной. Описание команды запуска и назначение ключей описано ниже. Если вы ленивы, то скрипт можно взять тут.
Подождать, выпить чай. Начать смотреть второй сезон Black Books. HMMER суров и молчалив, как норвежские боги, и не говорит о прогрессе выравнивания.
Среди обнаруженных последовательностей нужно выбрать только соответствующие пороговому значению по e-value (e-10 для нуклеотидных выравниваний, а вообще, ну прочитайте вы ту статью).
Получить геномные координаты подходящих последовательностей из TSV файла, перевести их в формат, пригодный для использования в BioMart — chromosome_name:start:end:strand, например, chr1:235783:236789:1 или chr2:235783:236789:-1.
Скачать нуклеотидные последовательности по координаиам при помощи ресурса BioMart.
Сохранить полученные последовательности в формате .fasta.
Рассортировать обнаруженные последовательности на ортологи и паралоги, исходя из их окружения. Добавить в заголовок паралогов метку "paralogue".
Проверить, нет ли дупликатов этого гена в геноме человека. Это нужно, во-первых, для более полного описания гена, а, во-вторых, позволит корректнее построить дерево. Для этого нужно сделать выравнивание последовательности выбранного гена на геном человека при помощи nhmmer.
Добавить обнаруженные последовательности в созданный ранее .fasta файл.
Добавить в файл последовательность исследуемого Вами гена человека, не забыв отформатировать заголовок и в ней.
Убрать из заголовков в скачанном файле все символы кроме букв "A-Z", цифр "0-9", underscore (_ подчёркивание) и скобки ">" в начале, заменив их на underscore. И хватит уже забывать про длину строки, которая не должна превышать 99 символов
Проверить ещё раз, все ли ненужные символы убраны, и не превышают ли длины строк 99 символов
Double-double-check
Точно проверили?
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick:
seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным ниже
Открыть сгенерированное дерево в редакторе FigTree или iTOL на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность
Сделать вывод о возрасте гена, эволюционным событиям, произошедшим с его предковыми последовательностями. Здесь вам, возможно, потребуется понять, какой вид к какому таксону принадлежит. Для этого можно зайти вот сюда. А если хочется погрузиться в филогению, то можно позалипать в Time Tree. Time Tree, кстати, может вам даже дерево для списка видов нарисовать
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета
Оформить полученные данные в виде слайда "Результаты".
Провести анализ литературы, сопоставив Ваши данные с литературными. Если таковых нет, то вы только что впервые провели филогенетический анализ этого гена. Congrats!
Выбрать себе опухоль по вкусу. Вот тут есть расшифровка кодов проекта TCGA.
С сайта GDC скачать обработанные транскриптомные данные для выбранной Вами опухоли. Важно так же скачать и sample sheet, там содержится информация о каждом из образцов.
Распакуйте архив и откройте папку. Там вы увидите множество файлов, для разных опухолей их будет разное количество. Каждый файл — отдельный образец опухоли.
Откройте sample sheet и проверьте, нет ли в нём записей "Normal" — это данные по экспрессии в нормальных тканях. Если есть, то по id в первом столбце нужно найти файлы, с соответствующими им названиям, и перенести их в другую папку.
Теперь Вам нужно извлечь данные по экспрессии вашего гена в каждом образце выбранной опухоли. Для этого используйте ensembl id в качестве ключа, вытягивая по нему строку. Это очень удобно делать скриптом, напишите его.
Сохраните данные в отдельный файл.
Теперь скачайте с GTEx данные для нормальных тканей. Файл представляет собой огромную таблицу.
Из этой таблицы нужно извлечь данные по экспрессии гена для ткани, соответствующей выбранной вами опухоли. Например, если Вы выбрали мелкоклеточный рак лёгкого, то в качестве нормы Вам нужно выбрать лёгкое. Сохраните значения в отдельном файле.
Извлеките из полученного файла значения экспрессии для вашего гена. И тут Вам тоже пригодится скрипт. Напишите его.
В программе Morpheus постройте тепловую карту, использовав в качестве исходной матрицы полученные файлы.
Проанализируйте экспрессию гена в норме и в опухоли, оцените, изменяет ли он уровень своей экспрессии. Предложите практическое применение полученным результатам. Обрадуйтесь. Подумайте, что большая часть людей на планете не умеет всего этого делать. Обрадуйтесь ещё раз.
Оформить полученные данные в виде слайда "Результаты".
Провести анализ литературы, сопоставив Ваши данные с литературными. Если таковых нет, то вы только что впервые провели анализ экспресси вашей последовательности в норме и при патологическом состоянии. Congrats!
ENSG00000188511
ENSG00000198454
ENSG00000198685
ENSG00000203721
ENSG00000203804
ENSG00000204110
ENSG00000180438
ENSG00000204118
ENSG00000179362
ENSG00000205940
ENSG00000215158
ENSG00000215559
ENSG00000176654
ENSG00000182632
ENSG00000188029
ENSG00000196593
ENSG00000197549
ENSG00000197588
ENSG00000204352
ENSG00000205212
Для генерации .hmm файла введите в командную строку
makehmmerdb GENOME.fa GENOME.hmm
curl ascii.live/rick
Если хотите побыстрее, то воспользуйтесь скриптом (+10 to speed, requires 150 of intelligence).
Для Linux (даже, если это консольная Ubuntu на WSL) или MacOS, команда выглядит так:
nhmmer -E 1e-9 --tblout YOUR_GENE.tsv YOUR_GENE.fasta GENOME.hmm > YOUR_GENE.txt
А теперь, что все это значит:
Ключ -E 1e-9 указывает программе, что все совпадения с e-value выше 10-9 не будут записываться в вывод. Это нужно, чтобы не загромождать файл с результатами лишней информацией, которая и так будет отброшена.
Ключ --tblout создаёт файл, обозначенный YOUR_GENE.tsv и содержащий результаты выравнивания в виде .tsv файла, из которого удобно, естественно, при помощи скрипта вытащить геномные координаты.
GENOME.hmm — база HMMER, сгенерированная на основе геномной последовательности в формате .fasta.
YOUR_GENE.fasta — выбранная вами нуклеотидная последовательность
YOUR_GENE.txt — файл, содержащий результаты выравнивания с самим выравниванием — выровненные участки, гэпы, замены, координаты.