Экспрессия гена — совокупность процессов, в ходе которых наследственная информация преобразуется в функциональный продукт — белок или некодирующую РНК. Разница в уровнях экспрессии одних и тех же генов в разных тканях как раз и определяет то, как именно выглядят и функционируют эти ткани и органы.
Экспрессия генов в тканях может значительно меняться в связи с возрастными изменениями, протекающими патологическими процессами или внешним воздействием. Например, процесс канцерогенеза затрагивает многие регуляторные сети, в результате чего могут активироваться гены, молчащие в нормальных клетках. Поиск генов, неактивных в норме, но работающих в опухолях, имеет не только фундаментальное значение, но и важен для создания новых диагностических систем и методов лечения онкологических заболеваний.
С появлением методов RNASeq (RNA Sequencing) и технологий NGS (Next Generation Sequencing) учёные стали секвенировать вообще все, что видят. Потому что все это стало относительно дёшево, например, свой геном вы можете отсеквенировать всего за 1000 баксов, а уж лаборатории при наличии хорошего финансирования могут позволить себе получать сиквенсы геномов и транскриптомов для огромного количества образцов. Так сложилось, что наиболее изучаемый объект — человек. И для него уже существует большое разнообразие баз данных по всяким заболеваниям, в том числе и по опухолям.
Исследователи из NIH (National Institute of Health) решили, что неплохо было бы посмотреть, чем отличается экспрессия генов в нормальных тканях от их экспрессии в опухолях. Запросив много (очень много, вот просто огромное количество) денег и проработав несколько лет, они сделали две большие базы данных, содержащих геномные и транскриптомные данные для тысяч образцов. Первая база — The Genotype-Tissue Expression (GTEx), которая содержит данные об экспресии генов человека в 54-х нормальных тканях. Вторая — The Cancer Genome Atlas (TCGA) — содержит информацию об экспрессии генов в 34 типах опухолей с общим количеством образцов, превышающим 20000. То есть это просто Fountain of Data, из которого можно извлечь не только фундаментальные данные, но и имеющие прямое прикладное значение. В обеих базах есть сырые и уже обработанные данные. В этот раз предлагаю вам проанализировать обработанные.
Кстати, вот видео про РНК-секвенирование и интерпретацию данных, посмотрите его. А ещё можно посмотреть другие видео этого автора, он хорошо объясняет.
GTEx — база данных, содержащая результаты полнотранскриптомного секвенирования 54 тканей человека, полученных от 1000 индивидумов, не имевших явных патологий в течение жизни.
TCGA — проект полнотранскриптомного секвенирования более 20000 образцов различных опухолей.
The GDC Data Portal — платформа, которая позволяет экспериментаторам и биоинформатикам искать и скачивать геномные и транскриптомные данные о раковых заболеваниях.
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Morpheus — программа для создания тепловых карт. К ней есть очень подробный мануал.
Есть список из 50 г`енов, которые нужно проанализировать на специфичность их экспрессии в опухолях. Специфичность экспрессии обозначает, что ген экспрессируется только в определённом типе клеток и нигде более. Если вы уже посмотрели список, то могли обратить внимание, что в нём указаны названия генов, но в большинстве баз данных гены идентифицируются по их id из базы Ensembl. Поэтому вам потребуется перевести названия генов из этого списка в ensembl id, с помощью BioMart.
Так как у вас будет не один ген, а 50, то руками такой объём данных копать уже сложно, тут потребуется немного покодить. Вам потребуется написать скрипт на python, который вытянет информацию об уровнях экспрессии всех генов в выбранных вами опухолях и нормальных тканях и сохранит их в двух файлах.
Полученные данные тоже будут текстовыми, в виде таблицы, и смотреть их глазами не очень-то удобно, поэтому нужно будет построить тепловую карту. Тепловая карта — вид графика, где численные значения отображаются цветами, например, минусовая температура — разными оттенками синего, а плюсовая — оттенками красного.
Выбрать себе опухоль по вкусу. Вот тут есть расшифровка кодов проекта TCGA.
С сайта GDC скачать обработанные транскриптомные данные для выбранной Вами опухоли. Важно так же скачать и sample sheet, там содержится информация о каждом из образцов.
Сначала настройте Cohort Builder. Там в полеProgram выбирайте TCGA, а в разделе Project - название проекта -- той опухоли, которую вы хотите взять в анализ.
После этого нажимаете на Repository. Там в Experimental Strategy клацаете на RNA-Seq, в Workflow Type -- STAR - Counts, в Access -- open, а в Tissue Type -- tumor.
Распакуйте архив и откройте папку. Там вы увидите множество файлов, для разных опухолей их будет разное количество. Каждый файл — отдельный образец опухоли.
Названия генов из полученного списка нужно перевести в ensembl id через программу BioMart. Сервера Ensembl не очень мощные, а пользуются ими часто, поэтому что-то может не работать и отваливаться. Так бывает. Подождите. Повторите. Снова подождите. Не впадайте в уныние. Попейте чай.
Теперь Вам нужно извлечь данные по экспрессии 50 генов в каждом образце выбранной опухоли. Для этого используйте ensembl id в качестве ключа, вытягивая по нему строку. Это очень удобно делать скриптом, напишите его.
Сохраните данные в отдельный файл.
Теперь скачайте с GTEx данные для нормальных тканей. Файл представляет собой огромную таблицу.
Из этой таблицы нужно извлечь данные по экспрессии генов для ткани, соответствующей выбранной вами опухоли. Например, если Вы выбрали мелкоклеточный рак лёгкого, то в качестве нормы Вам нужно выбрать лёгкое. Сохраните значения в отдельном файле.
Извлеките из полученного файла значения экспрессии для 50 генов. И тут Вам тоже пригодится скрипт. Напишите его.
Например, что-нибудь такое:
#!/bin/bash
echo "Greetings My Liege! Reveal your gene list!"
read DB
echo "Where should I hunt them"
read samples
echo "Show me the destination!"
read folder
mkdir -p $folder
while IFS= read -r NAME; do
echo "Processing $NAME"
find "$samples" -name "*.tsv" -exec grep -h "$NAME" {} + > "${folder}/${NAME}.tsv"
done < "$DB"
В программе Morpheus постройте тепловую карту, использовав в качестве исходной матрицы полученные файлы.
Проанализируйте экспрессию генов в норме и в опухоли, выберите гены, которые изменяют уровень своей экспрессии, посмотрите, нет ли таких генов, которые не работают в норме, но активируются в опухоли. Предложите практическое применение полученным результатам. Обрадуйтесь. Подумайте, что большая часть людей на планете не умеет всего этого делать. Обрадуйтесь ещё раз.
The mission is completed. You are amazing, dudes!
NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.