生物信息学的基础知识有哪些？

二维码 · 发表于 2025-2-20 18:27

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

生物信息学的基础知识有哪些？
原文地址：https://www.zhihu.com/question/581471301

长长的路 · 发表于 2025-2-20 18:28

1、FASTA 格式

FASTA 格式是一种常用的生物信息学文件格式，用于存储生物序列（如DNA、RNA或蛋白质序列）。它以 &#34;>&#34; 开头的行表示序列标识符，并在下一行中提供相应的序列数据。
以下是一个示例：
>Sequence_1
ATCGATCGATCGATCG
>Sequence_2
GCTAGCTAGCTAGCTA
在上面的示例中，&#34;>&#34; 后面的部分 &#34;Sequence_1&#34; 是序列的标识符，紧随其后的行 &#34;ATCGATCGATCGATCG&#34; 是对应的序列数据。同样地，&#34;>Sequence_2&#34; 是另一个序列的标识符，&#34;GCTAGCTAGCTAGCTA&#34; 是对应的序列数据。
FASTA 格式可以包含单个序列或多个序列，每个序列都由标识符和序列数据组成。使用 FASTA 格式，可以方便地存储和传输生物序列数据，并且可以与许多生物信息学工具进行交互，如序列比对、基因组注释和序列分析等。
2、FASTQ 格式
FASTQ 格式是常用的生物信息学文件格式，用于存储高通量测序（Next Generation Sequencing, NGS）数据。它包含两个主要部分：序列标识行、序列行、序列质量行和可选的描述行。以下是一个示例：
@Sequence_1
ATCGATCGATCGATCG
+
HHHHHIIIIIIIIIII
在上面的示例中，以 &#34;@&#34; 开头的行表示序列标识符，后面的 &#34;Sequence_1&#34; 是该序列的标识符。接下来的行包含了实际的序列数据和序列质量。
序列行是由碱基字母组成的，表示测序得到的 DNA 或 RNA 序列。
质量行使用ASCII码字符来表示测序质量，与序列行一一对应。较高的 ASCII 码值表示较高的测序质量，例如上面示例中的 &#34;H&#34; 表示较高的质量值。
需要注意的是，FASTQ 文件中的每个序列都包含了四行：序列标识行、序列行、&#34;+&#34; 行（可选的描述行，有时也包含其他信息）和序列质量行。
FASTQ 格式不仅存储了测序的序列数据，还提供了相应的质量信息，这对于后续的序列处理、比对、变异检测和基因组组装等分析非常重要。
3、bax.h5 格式
&#34;bax.h5&#34; 格式是与基因组学和高通量测序相关的PacBio公司开发的一种文件格式，用于存储单分子实时测序（Single-Molecule Real-Time Sequencing）数据。
PacBio的测序技术利用了单个DNA分子的连续测序，生成较长的读取长度，提供了更全面的基因组信息。&#34;bax.h5&#34; 文件是PacBio测序仪产生的二进制数据，其中包含原始测序数据以及与每个测序读取相关的质量值和其他测序参数。
由于 &#34;bax.h5&#34; 格式是特定于PacBio测序技术的，因此其具体结构和内容可能会有所不同。通常，这些文件可以使用PacBio提供的相应软件工具进行处理、转换和分析，以获取测序结果和相关的测序统计信息。
4、fast5 格式
&#34;fast5&#34; 格式是由Oxford Nanopore Technologies（ONT）开发并使用的一种文件格式，用于存储其基于纳米孔测序技术的原始测序数据。
&#34;fast5&#34; 文件包含了经过基本处理的信号数据、测序读取的元数据以及其他与纳米孔测序相关的信息。这些文件通常是二进制文件，以提高数据存储效率。
每个 &#34;fast5&#34; 文件通常对应于一次纳米孔测序过程中的一个测序读取（或称为 &#34;read&#34;）。它可以包含有关该测序读取的许多信息，如电信号数据、测序过程中的事件数据、通过模型进行实时分析的结果、原始碱基序列及其质量等。
&#34;fast5&#34; 格式还允许将多个测序读取存储在同一个文件中，以便更好地管理和分析数据。
针对 &#34;fast5&#34; 文件的处理和分析通常需要使用特定的生物信息学工具和软件，例如ONT提供的Nanopore编程接口（API）或第三方开发的相关工具。
需要注意的是，由于 &#34;fast5&#34; 格式是特定于Oxford Nanopore Technologies的纳米孔测序技术的，因此与其他测序技术（如Illumina测序）使用的文件格式（如FASTQ）有所不同。
5、&#34;BAM&#34;格式
&#34;BAM&#34;（Binary Alignment/Map）是一种常用的二进制文件格式，用于存储测序数据在参考基因组上的比对结果。BAM 文件通常用于存储测序数据的对齐信息，例如DNA或RNA测序读取（reads）与参考基因组的比对位置以及相应的质量值。
BAM 文件是对SAM（Sequence Alignment/Map）格式的压缩和二进制化表示。SAM 是一种文本文件格式，用于记录比对结果。为了减小文件大小并提高读写效率，BAM 格式被广泛采用。
BAM 文件包含了多个数据字段，用于描述每个比对的相关信息，如读取名称、比对的参考序列名称、比对起始位置、对齐方式、碱基序列、质量分数等。此外，BAM 还存储了关于比对过程中发现的插入和删除（indels）、split reads 等信息，以提供更全面的比对结果。
BAM 文件可以使用专门的软件工具进行创建、查看和处理，如Samtools、Picard、GATK 等。这些工具提供了丰富的功能，如排序、索引、筛选、变异检测和可视化等。
需要注意的是，BAM 文件由于存储了原始比对信息，因此相对于FASTQ等原始测序文件，它们通常会占用更多的存储空间。同时，对 BAM 文件进行处理和分析也可能需要相应的计算资源和专门的软件支持。
6、SAM 格式
&#34;SAM&#34;（Sequence Alignment/Map）是一种文本文件格式，用于存储测序数据在参考基因组上的比对结果。SAM 格式广泛用于记录比对算法输出的测序读取与参考基因组的比对位置、比对质量以及其他相关的元数据。
SAM 文件以文本形式表示，并且可以被人类和计算机读取。它由多行组成，每行代表一个测序read的比对结果。每一行包含了一系列字段，对应于该比对结果的各个信息，例如读取名称、比对的参考序列名称、比对起始位置、对齐方式、碱基序列、质量分数等。

SAM 文件还包含了一些额外的标志位和标签字段，用于描述特定的比对特性和附加的信息。这使得 SAM 格式非常灵活，可以记录各种类型的比对结果，支持多样的分析需求。
需要注意的是，SAM 格式是一个文本文件格式，相对于二进制的 BAM 格式，其文件大小通常较大。在实际使用中，BAM 格式更常见，因为它将 SAM 格式进行了压缩和二进制化，提供了更高的存储效率和读写速度。
SAM 文件可以通过多种生物信息学工具进行创建、转换和处理，如Samtools、Picard、GATK等。这些工具提供了丰富的功能，如排序、索引、筛选、变异检测和可视化等，以支持基因组比对数据的分析和解释。
SAM 格式中的每一列代表着不同的含义。以下是 SAM 格式中列的含义：
QNAME：测序读取（read）的名称或标识符。
FLAG：比对标志位，用于描述比对的各种特性和属性。
RNAME：参考序列的名称或标识符。
POS：比对在参考序列上的起始位置。
MAPQ：比对质量分数，表示比对的可信度。
CIGAR：比对的 CIGAR 字符串，描述了比对的碱基操作、插入和删除情况。M：alignment match，表示read比对上或者未比对上（错配）；I：insertion to the reference，表示read的碱基序列相对于第三列参考序列有碱基的插入；D：deletion from the reference，表示read的碱基序列相对于第三列的参考序列有碱基的删除；N：skipped region from the reference，表示跳过参考序列的碱基。常出现在转录组数据比对基因组的结果中，N出现的位置表示可能是内含子位置；S：soft clipping (clipped sequences present in SEQ)，软裁剪,指read跳过的长度才能比对上；H：硬裁剪,指参考基因组序列跳过的长度才能比对上；比如51M1106N30M，前51个碱基可以匹配，然后跳过参考基因组上1106个碱基后又有30个碱基匹配。
RNEXT：下一个比对的参考序列的名称或标识符。
PNEXT：下一个比对的起始位置。
TLEN：模板长度，表示测序读取在参考序列上的覆盖长度。
SEQ：测序读取的碱基序列。
QUAL：碱基序列的质量分数。
除了这些必需的列，SAM 格式还可以包含一些可选的标签（Tag），以提供额外的元数据信息，如比对算法使用的特定参数、分析结果等。这些标签以格式为 &#34;TAG:VALUE&#34; 的形式出现在每行的列中，例如 &#34;AS:i:100&#34; 表示比对得分为 100。部分标签信息如下：

AS:i	匹配的得分，只有当Align≥1 time才出现
XS:i	第二好的匹配的得分，当Align>1 time出现
YS:i	mate 序列匹配的得分
XN:i	在参考序列上模糊碱基的个数
XM:i	错配的碱基个数
XO:i	gap open的个数，针对于比对中的插入和缺失
XG:i	gap 延伸的个数，针对于比对中的插入和缺失
NM:i	编辑距离（插入/缺失/替换）。但是不包含头尾被剪切的序列。一般来说等于序列中error base的个数

需要注意的是，SAM 格式中的列是通过制表符（Tab）进行分隔的，因此可以使用文本编辑器或相关的生物信息学工具进行解析和处理。了解每列的含义可以帮助我们理解和分析测序数据的比对结果。
7、GFF3 格式
GFF3（General Feature Format 3）是一种通用的生物信息学文件格式，用于存储基因组注释和基因组特征的信息。它是一种文本文件格式，以制表符分隔的列来描述基因组的结构和功能。

GFF3 文件由多行组成，每行代表一个基因组特征的记录。每一行包含了一系列字段，对应于特征的各个属性和注释信息。以下是 GFF3 格式中列的含义：
seqid：特征所在的序列名称或标识符，通常为染色体名称或编号。
source：生成该特征的源程序或数据库的名称。
type：特征的类型，如基因、转录本、外显子等。
start：特征的起始位置，表示在序列上的第一个碱基位置。
end：特征的结束位置，表示在序列上的最后一个碱基位置。
score：特征的得分或质量值，例如基因预测模型的可信度。
strand：特征的方向，表示正链（+）、负链（-）或未确定链（.）。
phase：特征的相位，表示有关该特征的起始密码子位置的偏移量。
attributes：特征的属性信息，以键值对（key=value）形式呈现，包括注释、ID、名称、父子关系等。
GFF3 文件通常包含一些注释信息，如基因的名称、外显子的顺序等，以提供对基因组结构和功能的描述。此外，GFF3 文件还可以使用注释行（以井号 # 开头）来提供文件级别的元数据信息，如数据来源、版本号等。
GFF3 文件可以由多种生物信息学工具生成、解析和处理。它是广泛用于基因组注释和基因组特征分析的标准文件格式之一。
8、GTF 格式
GTF（Gene Transfer Format）是一种常用的生物信息学文件格式，用于存储基因组注释和转录本信息。GTF与GFF3文件格式类似，差别主要体现在第9列，GTF必须以gene_id以及transcript_id开头，同时标签与值之间以空格分开，且每个特征之后都要有分号（包括最后一个特征）。GTF 文件可以由多种生物信息学工具生成、解析和处理。它是广泛用于转录组学研究和基因组注释的标准文件格式之一。

GTF与GFF两种文件格式之间的转换可以采用gffread：
gff2gtf

gffread my.gff3 -T -o my.gtf
gtf2gff

gffread merged.gtf -o merged.gff
9、bed 格式
BED 文件由多行组成，每行代表一个基因组区域或特征的记录。每一行包含了一系列字段，对应于区域的起始位置、结束位置以及其他属性信息。以下是 BED 格式中列的含义：
chrom：区域所在的染色体或者contig名称或编号。
start：区域的起始位置，表示在染色体上的第一个碱基位置。
end：区域的结束位置，表示在染色体上的最后一个碱基位置。
name：区域的名称或标识符。
score：区域的得分或质量值，可以表示各种数值信息，如测序深度、信号强度等。
strand：区域的方向，表示正链（+）、负链（-）或未确定链（.）。
BED 文件常用于描述基因组上的基因、转录本、外显子、修饰位点等区域，并可以携带与这些区域相关的数值数据。它在基因组注释、染色质亚结构分析和可视化等领域具有广泛的应用。
10、bedPE 格式
BEDPE（Browser Extensible Data Paired-End）是一种用于描述配对末端测序（paired-end sequencing）数据的生物信息学文件格式。它是BED（Browser Extensible Data）格式的扩展，主要用于表示两个配对末端序列在基因组上的位置和相关属性。
BEDPE 文件由多行组成，每行代表一对配对末端序列的记录。每一行包含了一系列字段，对应于两个配对末端序列的起始和结束位置以及其他属性信息。以下是BEDPE格式中列的含义：
chrom1：第一个配对末端序列所在的染色体名称或编号。
start1：第一个配对末端序列的起始位置，表示在染色体上的第一个碱基位置。
end1：第一个配对末端序列的结束位置，表示在染色体上的最后一个碱基位置。
chrom2：第二个配对末端序列所在的染色体名称或编号。
start2：第二个配对末端序列的起始位置，表示在染色体上的第一个碱基位置。
end2：第二个配对末端序列的结束位置，表示在染色体上的最后一个碱基位置。
name：记录的名称或标识符。
score：记录的得分或质量值，可以表示不同的数值信息。
strand1：第一个配对末端序列的方向，表示正链（+）、负链（-）或未确定链（.）。
strand2：第二个配对末端序列的方向，表示正链（+）、负链（-）或未确定链（.）。
attributes：记录的其他属性信息。
BEDPE 文件常用于描述配对末端测序数据中两个末端序列之间的相对位置、方向和距离。它在基因组结构分析、DNA片段相互作用(loop)等领域具有广泛的应用。
11、VCF 格式
VCF（Variant Call Format）是一种常用的生物信息学文件格式，用于描述遗传变异数据，如单核苷酸多态性（SNP）、插入缺失变异（indel）等。VCF 文件以文本形式存储，并且可以被广泛应用于基因组学和遗传学的研究中。VCF 文件由多行组成，每行代表一个变异位点或变异事件的记录。每一行包含一系列字段，对应于该变异位点的位置、参考序列、变异的等位基因以及其他相关的属性信息。以下是 VCF 格式中常见的列的含义：
第二部分变异信息部分每一列信息：

列	列名	值	意义
1	CHROM	Chr1	参考序列的染色体名称
2	POS	5634	参考序列位点坐标（从1开始）
3	ID	.	变异在dbsnp的编号，没有则为 .
4	REF	G	参考序列对应位置碱基
5	ALT	A	变异的碱基类型及个数
6	QUAL	140.84	变异位点质量值
7	FILTER	PASS	过滤状态
8	INFO	[ANNOTATIONS]	位点注释信息
9	FORMAT	GT:AD:DP:GQ:PL	基因型信息格式
10	SMAPLE	1/1:0,6:6:18:169,18,0	样品的基因型信息

其中第5列ALT:包含三种变异类型SNP，insert和delete。对于SNP是单个碱基的改变；对于InDel是碱基数量的改变，如下G碱基的插入，在REF中起始位置为前面的A碱基：120000.AAG。
第６列QUAL：变异位点质量值（与测序数据一样也是用Phred格式表示）Phred值= -10 * log(1-P), P是变异位点存在的概率。值越大，越可能发生变异。
第８列INFO - additional information:表示的是变异描述信息。包括18种，标记和值用等号（=）分隔，不同标记之间使用分号分隔，如
AC：Allele Count该位点变异的等位基因数目；
AF：Allel Frequency 等位基因频率；
AN：Allel Number 等位基因的总数目
第9列FORMAT（GT:AD:DP:GQ:PL）：关键字之间用冒号隔开，其与第十列信息对应：
GT：genotype，表示这个样本的基因型，对于一个二倍体生物来说，GT值表示的是这个样本在这个位点所携带的两个等位基因的类型，0表示跟REF一样；1表示跟ALT一样，0/0表示纯合且跟REF一致；0/1表示sample中该位点为杂合突变，有REF和ALT两个基因型；1/1表示表示sample中该位点为纯合突变，且都为ALT；1/2表示sample中该位点为杂合突变，有ALT1和ALT2两个基因型。
AD：allele depth，对应两个以逗号隔开的值，这两个值分别表示覆盖到REF和ALT碱基的reads数，相当于支持REF和支持ALT的测序深度；
DP：depth of coverage，覆盖到这个位点的总的reads数量，相当于这个位点的深度；
GQ：Quality of the assigned genotype，表示最可能的基因型的质量值；
PL：Normalized Phred-scaled likelihoods of the possible genotypes，对应3个以逗号隔开的值，这三个值分别表示该位点基因型是0/0，0/1，1/1的没经过先验的标准化Phred-scaled似然值（L）。如果转换成支持该基因型概率（P）的话，由于L=-10lgP，那么P=10^（-L/10），当L值为0时，P=10^0=1。因此，这个值越小，支持概率就越大，也就是说是这个基因型的可能性越大。
更多解释参见：
https://gatkforums.broadinstitute.org/gatk/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk
12、SRA格式
SRA（Sequence Read Archive）是一种用于存储和共享原始测序数据的公共数据库。SRA数据库由美国国家生物技术信息中心（NCBI）维护，其中包含了来自各种生物物种的高通量测序数据。
SRA 数据库中的数据以SRA格式进行存储。SRA格式是一种二进制文件格式，用于存储原始测序数据、测序质量得分以及与测序实验相关的元数据信息。SRA文件通常以压缩的方式存储，并使用NCBI的工具和API进行访问和解析。
SRA格式的广泛应用使得研究人员可以方便地存储、共享和访问海量的测序数据，从而促进了基因组学、转录组学和生物信息学研究的发展。
13、RDS格式
在生物学领域中，单细胞RNA测序（Single-cell RNA sequencing）是一种用于研究个体细胞间基因表达差异的技术。单细胞RNA测序数据通常以RDS（Reads Data Specification）格式进行存储和分析。
单细胞RDS文件格式主要由以下几个部分组成：
1. 基本信息：包括文件版本号、项目名称、样本编号、测序平台等基本描述信息。
2. 样本信息：记录每个细胞的唯一标识符，如细胞ID或条码序列，用于区分不同细胞的测序数据。
3. 基因表达矩阵：保存了每个细胞中各个基因的表达水平。通常以稀疏矩阵的形式存储，其中行表示不同的基因，列表示不同的细胞，矩阵元素表示基因在对应细胞中的表达量或计数值。
4. 质控信息：包括细胞质控指标，如细胞的测序深度、比对率、基因检测数等。这些指标用于评估细胞质量和数据质量，并进行后续的筛选和过滤。
5. 其他附加信息：可能包括细胞类型标签、样本处理信息、质图数据等补充信息，用于进一步的生物学分析和数据解释。
单细胞RDS文件格式在分析过程中，研究人员可以使用相关的生物信息学工具和编程语言（如R、Python）来读取、处理和分析这些RDS格式的数据，以了解细胞之间的差异和功能。

图文播报

[分享] 生物信息学的基础知识有哪些？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心