Эволюция живых организмов — не что иное, как эволюция генома. Новые гены могут появляться несколькими способами: за счёт дупликации — удвоения самого гена или фрагмента хромосомы, его содержащего; в результате слияния двух генов, в таком случае получается fusion-ген, обладающей функциями обоих своих предков; за счёт ретровирусной вставки в половые клетки организма — гены ретровируса постепенно накапливают мутации и могут приобретать новые, полезные для организма функции; и последний способ — возникновение de novo, заново, то есть из некодирующей последовательности, приобретающей старт- и стоп-кодоны, а также промоторную область.
Гены, имеющие общее эволюционное происхождение, именуются гомологами. Гомологи можно разделить на ортологи и паралоги. Ортологи возникают в результате процесса видообразования, например, гены MYH1 (миозин-1) человека и шимпанзе. Паралоги же появляются за счёт дупликации гена. Подробнее про гомологи можно почитать тут или даже прочесть полную статью Eugene Koonin.
Таким образом, чтобы понять эволюционное происхождение гена, нужно искать его последовательность в геномах разных организмов, и временем возникновения гена будет считаться время возникновения общего предка двух видов, у которых присутствуют ортологи исследуемого гена. Например, если ортолог гена pbov1 человека обнаруживается у всех видов млекопитающих, но не обнаруживается у рептилий и более древних таксонов, то считается, что этот ген возник у млекопитающих.
NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
GenBank — это база данных NIH, коллекция всех аннотированных общедоступных последовательностей ДНК и РНК.
BLAST — Basic Local Alignment Tool — пакет программ, используемых для выравнивания нуклеотидных и аминокислотных последовательностей. Наиболее часто используемая программа в молекулярной биологии.
tBLASTn — высокая чувствительность при локальном выравнивании аминокислотных последовательностей
MAFFT — программа для множественного выравнивания
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Lifemap — филогенетическое дерево живых организмов. Позволяет посмотреть взаимное эволюционное расположение видов из всех трёх доменов жизни. В строку поиска можно вводить латинское название вида.
Вам будет предложено найти ортологи некоторых белок-кодирующих генов при помощи алгоритма tBLASTn, доступного в пакете BLAST NCBI. tBLASTn работает с аминокислотной последовательностью в качестве входной. Алгоритм отличается более высокой чувствительностью к эволюционно дальним гомологам за счёт того, что он создаёт на основе аминокислотной последовательности базу из всех вариантов нуклеотидных последовательностей, способных кодировать исследуемый белок.
Множественное выравнивание удобнее делать в программе MAFFT, которая имеет хороший баланс точности и скорости вычислений.
Для реконструкции филогенетического дерева нет ничего лучше Mr.Bayes.
Все инструкции по работе с этими приложениями вы найдете внизу этой страницы.
Внизу страницы Вы можете найти список Ensembl ID генов (ID гена в базе Ensemble). Вам нужно скачать его аминокислотную последовательность из базы ensembl.org.
При помощи алгоритма tBLASTn, нужно найти ортологи исследуемого гена в геномах 11 видов живых организмов, перечисленных также внизу страницы. Из этих 11 видов для своего гена вы можете найти не все ортологи.
Для изучения эволюции гена для всех обнаруженных ортологов нужно провести множественное выравнивание программой MAFFT по алгоритму E-INS-i.
Полученный .fasta файл с результатом множественного выравнивания потребуется перевести в формат .nexus при помощи конвертера.
Теперь все готово для реконструкции филогенетического дерева. Это лучше делать на локально установленной версии Mr.Bayes, хотя допустимо использовать и web-версию. Однако web-версии зачастую имеют ограниченные функции и лимит на объём анализируемых данных.
Полученное филогенетическое дерево можно посмотреть через FigTree или iTOL. Дерево лучше оформить, выбрав адекватные шрифты и кегль, раскрасив клады в разные цвета для удобства визуального восприятия.
Работа выполнена, вы превосходны!
Выбрать ген или смириться с назначенным (список генов — внизу).
Получить аминокислотную последовательность наиболее длинной изоформы белка, кодируемого исследуемым геном, и соответствующую её кодирующую последовательность РНК (coding sequence). Изоформа белка - это вариант РНК или белка после альтернативного сплайсинга. Если ну совсем не получается разобраться, посмотрите видео что-ли.
Сохранить выбранную аминокислотную последовательность в текстовом файле с расширением .fasta.
Загрузить полученный файл в поле Enter Query Sequence в tBLASTn.
В поле Organism раздела Choose Search Set ввести названия видов живых организмов. Добавлять виды можно, нажимая на кнопку Add Organism. Обратите внимание, чтобы рядом с названием вида был taxid — идентификатор вида в базе NCBI. Чтобы точно получить все результаты, найдите меню Algorithm parameters и в разделе General parameters напротив Max target sequences выберите 5000. Не получается? А вот инструкция.
Нажать BLAST.
Подождать, выпить чай.
Среди обнаруженных последовательностей нужно убрать несоответствующие пороговому значению по e-value. E-value показывает, с какой вероятностью последовательность выровнялась случайно. То есть полученные последовательности не родственны, а похожи из-за случайных мутаций. Таким образом, надо выбрать те последовательности, для которых эта случайная составляющая минимальна — E-value <= e-11 (для нуклеотидных выравниваний). Требуется также убрать отметки для BAC-clones — неинтересные нам технические последовательности — и целые хромосомы (chromosomes), с ними мы поработаем позже.
Скачать обнаруженные последовательности в формате .fasta, нажав Download и выбрав в выпавшем меню FASTA (complete sequence).
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", ">" в начале заголовка и underscore (_ нижнее подчёркивание). Неподходящие символы можно заменить на underscore с помощью инструмента блокнота "Найти-Заменить". Это нужно потому, что Mr.Bayes не воспринимает любые другие символы.
Также длина заголовка не должна превышать 99 символов, для обрезки можно написать скрипт на python или удалить все, что превышает 99 символов, пробежав по заголовкам вручную.
Добавить в файл кодирующую последовательность РНК исследуемого Вами гена человека, не забыв отформатировать заголовок и в ней. Она скачивается там же, где и аминокислотная, но выбрать нужно coding DNA.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Детально этот шаг описан внизу страницы - см. Запуск MAFFT.
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick:
seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным внизу страницы - см. Запуск Mr.Bayers.
Открыть сгенерированное дерево в редакторе FigTree или Archeopteryx на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о времени возникновения гена.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета, согласно типу содержащихся в них гомологов.
NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.