高考考试网
当前位置: 首页 高考资讯

生信分析(生信分析必须了解的4种文件格式)

时间:2023-05-24 作者: 小编 阅读量: 3 栏目名: 高考资讯

fasta文件格式FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。例如基因组中的单碱基突变,SNP,插入/缺失INDEL,拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。

在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

  • 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

  • 第三行:以‘ ’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
    第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')

sam格式介绍

sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。

第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;

VCF文件格式介绍

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
8.INFO

文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1



,
    推荐阅读
  • 羽绒被总是跑毛怎么解决(羽绒被跑毛处理方法)

    羽绒被总是跑毛怎么解决?以下内容大家不妨参考一二希望能帮到您!羽绒被总是跑毛怎么解决首先是在原来的被罩上再增加一个被罩,其实这个方法是最简单的,这样就不会再钻毛了,之后清洗的时候,也只需要清洗第一层就可以了。减少清洗的次数。所以减少清洗的次数也是非常重要的,一般的情况下,最好是一年清洗三四次就可以了,这样不仅可以保护好羽绒被,同时也不会那么脏。

  • 西葫芦为什么是苦的(西葫芦发苦是什么原因)

    我们一起去了解并探讨一下这个问题吧!西葫芦为什么是苦的苦味素含量过高:西葫芦中含有一种名叫“苦味素”的物质,它可以导致西葫芦变苦,若种植时选用的品种较差,种植出来的西葫芦其味道就会比较苦。

  • 钓鱼鱼线怎么选择(教你4个鱼线挑选小常识)

    可以用牙咬的办法测试鱼线的韧性。具体就时用牙咬一下鱼线,如果不是很用力就可以将鱼线咬变形,咬扁这就说明鱼线的韧性是很好的。拉力是重中之重,鱼线的拉力不行,其它的标准就没必要考虑了,直接弃用。“一分钱一分货”也不一定就对。市场上有许多包装精美的,以次充好的鱼线,也有比较便宜的,不是名牌的好线。鱼线的外观,手感。

  • 个性qq网名2022年除夕最新版的女生(好听的女生网名)

    凉城听暖挽梦忆笙歌,今天小编就来说说关于个性qq网名2022年除夕最新版的女生?下面更多详细答案一起来看看吧!

  • 长沙市新文化之都(文化场景和网红品牌激活夜经济)

    长沙市连续3年入选“中国城市夜经济十大影响力城市”,拥有4个国家级夜间文化和旅游消费集聚区。据最新的数据显示,长沙市夜间消费占全天消费比重达52.6%。市政府每年投入近3000万元向长沙音乐厅、梅溪湖大剧院等购买公共服务,推出惠民票价。梅溪湖大剧院演出超过500场、接待80多万观众,长沙音乐厅为市民提供了上千场次视听盛宴,提升夜经济消费品位。长沙国金中心370多家商户中,包含100家首次入湘品牌。

  • 渐变指甲油是怎样的(怎样涂渐变指甲油)

    用棉签蘸卸甲液去除指甲上的指甲油根据理想的长度用指甲刀修剪指甲然后用指甲锉磨平指甲边缘,并给指甲定型用去死皮叉去掉指甲根部的死皮,增加指甲外露的面积,让它看起更修长,我来为大家讲解一下关于渐变指甲油是怎样的?然后用指甲锉磨平指甲边缘,并给指甲定型。底油能起到保护指甲,光滑甲面的作用,方便之后上色。通常底色需要涂两层。另可分两次薄涂,也不要一次性涂上厚厚的一层。

  • 单纯什么意思(单纯词语的含义)

    下面内容希望能帮助到你,我们来一起看看吧!单纯什么意思单纯的字面意思就是简单纯一,不复杂。单纯的好处,也就是自己的精神领域是纯而静的,没有卷入勾心斗角的是非中去。但是单纯的人在社会上很容易被骗,被利用,所以说过于单纯未必是件好事。人最好的境界,不是单纯也不是精明复杂。而是居中,有一颗单纯的内心,而又有一颗玲珑智慧的心。前者愉悦精神领域,后者保证你作为人的生存能力。

  • 2008年北京奥运会圣火是谁点燃的(2008年北京奥运会圣火点燃者介绍)

    2008年北京奥运会圣火是谁点燃的2008年奥运圣火最后点燃的人是体操王子李宁,2008年第29届北京奥运会主火炬手也是最后的火炬手。李宁,壮族,男,生于1963年3月10日,奥运冠军,原中国著名体操队运动员,家乡广西壮族自治区来宾市兴宾区南泗乡人,祖籍广东省佛山市顺德区,曾祖父辈迁至广西谋生,中国著名男子体操运动员。北京奥运会火炬手:北京奥运会火炬手是“和谐之旅”的实践者。

  • 饺子怎么煮不破皮(煮饺子不破皮的技巧)

    饺子怎么煮不破皮?接下来我们就一起去研究一下吧!饺子怎么煮不破皮火候:煮速冻饺子的时候,不宜用大火,它不像是新鲜的水饺,用大火煮也不易破皮。不要过早放,否则易粘在一起,而且放入后,要充分搅拌,这样就不会因为粘在一起而破皮。

  • 舍利子为什么很珍贵(舍利子究竟是什么)

    而另一种舍利子,指的是佛教修行者去世之后留下的遗体,有时是特指骨灰或骨灰中出现的结晶。全身舍利也被称为肉身菩萨。舍利子被认为是佛教修行者通过长年修行,深受戒定慧熏修所得,是修持水平的一个见证,十分难得。此外,也有推测认为牙齿也有可能在燃烧过程中形成舍利子。以此看来,似乎舍利子就是由骨骼形成的可能性十分高。