Открытая рамка считывания (ORF – open reading frame) – нуклеотидная последовательность, начинающаяся со старт-кодона (AUG/ATG) и заканчивающаяся стоп-кодоном (TAA, TAG и TGA). При этом сам стоп-кодон в неё не входит. Пикча со схемой внизу страницы.
Поиск открытых рамок считывания интересен в контексте предсказания белок-кодирующего потенциала нуклеотидной последовательности. При этом сам факт наличия длинной ORF не обязательно свидетельствует о такой возможности. Одновременно с этим даже небольшие ORF – small ORFs – могут кодировать очень короткие пептиды. Почитать про них можно вот в этой статейке. Кстати, в ней есть фраза, идеально описывающая не только поиск открытых рамок считывания, но и всю предсказательную биоинформатику в целом “the detection of their coding potential and functional assessment is similar to a walk in the dark”. Поэтому по праву отнесём биоинформатику к dark arts.
Так давайте же начнём бродить в темноте и попробуем найти какие-нибудь рамки считывания в случайном гене, список генов, как обычно, можно найти внизу страницы.
NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
GenBank — это база данных NIH, коллекция всех аннотированных общедоступных последовательностей ДНК и РНК.
ORFfinder — программа для поиска открытых рамок считывания в последовательности ДНК. Она выводит перечень потенциальных ORF и соответствующие им аминокислотные последовательности.
The Genetic Codes — на странице собраны все известные на данный момент вариант кодировки аминокислот триплетами нуклеотидов
Поиск возможных открытых рамок считывания
Для поиска открытых рамок считывания Вам потребуется написать небольшой код, способный искать сначала старт-кодон, а потом идти от него с шагом по три нуклеотида, пока он не найдёт один из трёх стоп-кодонов. Далее скрипт должен вернуться на тот нуклеотид, с которого начал, сдвинуться относительно него на i+1 и повторить свой путь с шагом по три.
Таким образом вы получите список нуклеотидных последовательностей, потенциально способных кодировать белки или короткие пептиды. Опционально вы можете перевести эти последовательности в аминокислотные, используя стандартный генетический код. Кстати, генетический код может немного отличаться у разных организмов. Опять вас в школе, говоря про его универсальность, обманули. И что ещё интереснее, даже в любой нашей клетке параллельно используются два генетических кода – эукариотический ядерный и митохондриальный.
Получить нуклеотидную последовательность выбранного гена. Можно выбрать все
Создать скрипт, выполняющий следующие операции:
Чтение fasta файла, поданного на вход, начиная с первого нуклеотида i
Поиск старт-кодона (ATG) и движение от него с шагом по три нуклеотида до ближайшего стоп-кодона (TAA/TAG/TGA)
Трансляцию обаруженной нуклеотидной последовательности в аминокислотную с учётом варианта генетического кода
Запись в вывод открытой рамки считывания и соответствующего ей полипептида
Возврат на i+1
Повторение пунктов от второго до пятого
Сравнить результат работы Вашего скрипта с выводом программы ORFfinder
Насладиться полученным результатом, испив любимый напиток и вкусив желанную пищу
ENSG00000046774
ENSG00000068985
ENSG00000070031
ENSG00000082929
ENSG00000095752
ENSG00000099399
ENSG00000099869
ENSG00000101425
ENSG00000101441
ENSG00000102021
ENSG00000102313
ENSG00000105492
ENSG00000107014
ENSG00000107018
ENSG00000109272
ENSG00000111536
ENSG00000116726
ENSG00000117148
ENSG00000120055
ENSG00000120211
ENSG00000122133
NCBI — National Center for Biotechnological Information предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы для проведения биоинформатического анализа (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.
Схема открытой рамки считывания. Creator: Darryl Leja