Ранее вы научились искать гомологичные последовательности генов в геномах других организмов, прослеживая их эволюцию. Но исследовать эволюционные процессы можно, не только реконструируя прошлое, но и анализируя настоящее. Эволюцию в реальном времени удобнее всего изучать на чём-то маленьком и быстро размножающемся, например, на бактериях или, ещё лучше, на вирусах. И 2019 год подарил нам просто идеальный объект для изучения. Вспышка коронавируса SARS-CoV-2, о которой впервые было сообщено в провинции Ухань в Китае в декабре 2019 года, привела к пандемии, затронувшей 213 стран и территорий по всему миру. Вирус весьма быстро распространяется и, гуляя по популяции людей, постоянно изменяется, порождая новые штаммы, иногда обладающие новыми свойствами и требующие иного подхода при лечении. Например, доминирующий нынче omicron накопил у себя 50 мутаций, 36 из которых в S-белке. Хороший научно-популярный обзор по нему можно почитать вот тут.
Вообще любые вирусы, циркулируя в популяции живых организмов, накапливают в своём геноме мутации. Некоторые мутации могут оказаться полезными для вируса, позволяя ему распространяться быстрее, некоторые вредными, приводя к меньшей инфекционности, а иные, и их большинство, оказываются абсолютно нейтральными. Полезные мутации могут помогать вирусу убегать от иммунитета, лучше связываться с клетками хозяина и активнее разноситься по организму. Кроме того, новые штаммы, появляющиеся в ходе изменений генома вируса, могут оказаться менее чувствительными к иммунитету, сформировавшемуся в ответ на введение вакцины. Поэтому не только очень интересно, но и важно отслеживать появление новых мутаций в геноме вируса и моделировать их возможный эффект.
NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
BLAST — Basic Local Alignment Tool — пакет программ, используемых для выравнивания нуклеотидных и аминокислотных последовательностей. Наиболее часто использумая программа в молекулярной биологии.
GISAID -- база данных, содержащая геномы вируса гриппа и коронавируса SARS-CoV-2, выявленные у пациентов со всего мира. Ещё там можно посмотреть красивые анимации распространения коронавируса по планете и появления новых штаммов.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Итак, вы научились проводить филогенетический анализ как белок-кодирующих, так и некодирующих генов, освоили несколько программ и алгоритмов и умеете создавать простые скрипты для автоматизации анализа. И теперь настало время перейти на следующий уровень. В этом задании вам предстоит проанализировать генетическое разнообразие коронавируса SARS-CoV-2, гуляющего нынче по планете. Набор инструментов останется почти тем же, разве что опять придётся поменять программу для парного выравнивания. На этот раз предложу вам использовать отвергнутый нами ранее из-за своей низкой чувствительности при поиске гомологичных последовательностей BLASTn. BLASTn один из наиболее простых инструментов для парного выравниваня, он идеален, когда вы сравниваете схожие последовательности, и намного быстрее и проще использованного ранее HMMER. Филогению вируса можно строить как по всему геному, но это долго и требует вычислительных ресурсов, так и по отдельным его генам. Самый мейнстримный ген SARS-CoV-2 — тот, что кодирует S-белок, который торчит на поверхности вируса. Помните? Если нет, то Google saves. Ну или на обложку задания посмотрите что ли. Но почему ген Ы-белка такой популярный? Все дело в том, что именно он связывается с рецепторами ACEII на поверхности наших клеток, то есть мутации в нём будут напрямую влять на прочность взаимодействия вируса с клеткой и, следовательно, на его поведение. Поэтому предлагаю вам его и использовать в этом задании. Хотите взять какой-то другой белочек? Why not?
Выбрать регион мира или смириться с назначенным.
Перейти на сайт www.gisaid.org, войти под своей учётной записью и скачать все полные геномы коронавируса, выявленные в выбранном регионе.
Сохранить выбранные геномные последовательности в тексовом файле с расширением .fasta.
Скачать последовательность гена S-белка (или любого иного) вот отсюда. А сам референчный геном SARS-CoV-2 можно посмотреть вот тут.
Сохранить полученные последовательности в формате .fasta.
Найти в скачанных геномах выбранный ген. Для этого нужно, используя последовательность выбранного гена в качестве запроса и файл с геномными последовательностями в качестве базы, провести выравнивание. Это можно сделать и в десктопной, и в web-версии BLASTn.
Скачать результаты выравнивания в .fasta файл, выбрав "Aligned sequences". Этот файл будет содержать последовательности выбрнного Вами гена со всеми их мутациями.
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", знака ">" в начале заголовка и underscore (_ -- подчёркивание). Неподходящие симолы можно заменить на underscore. Это нужно потому, что Mr.Bayes не воспринимает любые другие символы. Также длина заголовка не должна превышать 99 символов.
Теперь множно перевести нуклеотидные последовательности гена в аминокислотные, сделав in silico трансляцию на этом сайте.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Можно запускать выравнивание, как и в предыдущей задаче, а можно прописать в командной строке все параметры разом: mafft --genafpair --maxiterate 1000 input_file > output_file
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick seqmagick convert --output-format nexus --alphabet protein YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным ниже.
Открыть сгенерированное дерево в редакторе FigTree или Interactive Tree of Life на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о генетическом разнообразии коронавируса.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета, повесить на него что-нибудь.
Mission comleted! You're breathtaking!
NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.