Linux — основная среда для любого биоинформатика. Почти все программы для биоинформатки разрабатывались изначально под Linux. Некоторые из них имеют версии и для других типов ОС, но работают они хуже и менее удобны в использовании. Биоинформатические программы чаще всего не имеют графического интерфейса и запускаются напрямую из терминала. И чтобы Вы чувствовали себя в терминале более комфортно, предлагаю Вам этот список команд оболочки bash.
Большая часть команд в Linux являются небольшими программами, живущими в директории /bin, и их нужно уметь правильно запускать.
Краткий список наиболее полезных команд Linux
pwd — выводит текущую директорию, то есть ту, где Вы сейчас находитесь
[user@mainnode ~]$ pwd
/home/user
ls - выводит содержимое директории. Если вы не задаёте путь, то выведется содержимое текущей директории. У неё очень много опций, позволяющих узнать любую информацию о директории и её содержимом
[user@mainnode ~]$ pwd
/home/user
[user@mainnode ~]$ ls
testfolder
[user@mainnode ~]$ ls /
bin boot dev etc home lib lib64 local lost+found media mnt opt proc root run sbin srv swap sys tmp usr var
cd - меняет директорию на заданную
[user@mainnode ~]$ pwd
/home/user
[user@mainnode ~]$ cd /home/
[user@mainnode home]$ pwd
/home
mkdir - создаёт директорию или дерево директорий
[user@mainnode ~]$ mkdir spam
[user@mainnode ~]$ ls
spam
cp - копирует файлы и директории. Чтобы рекурсивно копировать все поддиректории и файлы, используйте опцию -r
[user@mainnode ~]$ ls
test
[user@mainnode ~]$ cp -r test spam_copy
[user@mainnode ~]$ ls
spam spam_copy
rm - удаляет файлы и директории. Чтобы рекурсивно удалить все поддиректории и файлы, используйте опцию -r. Обратите внимание, что эта команда не переносит файлы в корзину, а удаляет их полностью
[user@mainnode ~]$ ls
spam spam_copy
[user@mainnode ~]$ rm -r spam_copy
[user@mainnode ~]$ ls
spam
touch - создаёт пустой текстовый файл
[user@mainnode ~]$ touch spam.txt
[user@mainnode ~]$ ls
spam.txt
NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).
GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.
BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.
Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.
Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.
Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.
Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.
(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.
Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).
Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.
E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.
Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.
Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.
Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.
FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.
DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.