高考考试网
当前位置: 首页 高考资讯

生信分析(生信分析必须了解的4种文件格式)

时间:2023-05-24 作者: 小编 阅读量: 5 栏目名: 高考资讯

fasta文件格式FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。例如基因组中的单碱基突变,SNP,插入/缺失INDEL,拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。

在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

  • 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

  • 第三行:以‘ ’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
    第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')

sam格式介绍

sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。

第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;

VCF文件格式介绍

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
8.INFO

文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1



,
    推荐阅读
  • 高新区恢复线下培训的校外培训机构名单公布(第二批)

    高新区准许恢复线下培训的校外培训机构名单(一)高新区准许恢复线下培训的校外培训机构名单(二)(证照齐全的少儿英语类机构9家,根据国家“双减”政策要求,培训机构不得开展面向学龄前儿童的线上培训和线下学科类(含外语)培训。针对不明确属于学科类或者非学科类的培训课程,由培训机构向属地教育主管部门申请审核确认。提醒学龄前儿童家长不要为孩子报名续费)

  • 煮菱角怎么煮(煮菱角如何煮)

    在煮菱角的时候放一些盐进去,可以起到消毒杀菌、减轻菱角外壳异味的作用将新鲜的菱角清洗干净,沥干水分,放入锅中,加入适量的清水、食盐,煮熟后放入冷水中,即可食用,这样煮出来的菱角更加的美味,今天小编就来聊一聊关于煮菱角怎么煮?煮菱角怎么煮在煮菱角的时候放一些盐进去,可以起到消毒杀菌、减轻菱角外壳异味的作用。在煮菱角时,先将菱角煮七成熟,捞出过一遍凉水,晾干后再将菱角煮熟,剥壳就会容易一些。

  • 螺丝刀向哪里拧才是把螺丝拧紧(说你螺丝都不会拧)

    说你螺丝都不会拧拧紧中的扭矩分配拧紧一颗螺栓,需要施加一定扭矩旋转一定角度后才可以完成,这部分的扭矩角度所做功最终转为三个部分:1,螺栓头下摩擦力消耗2,螺纹副摩擦力消耗3,产生预紧力这个也可以根据以下公式得出:•F。

  • 翡翠怎么辨别好与坏(翡翠如何辨别好坏之分)

    翡翠的种质,按照品质的高低,依次可分为玻璃种翡翠、冰种翡翠、糯种翡翠、豆种翡翠等。其中玻璃种翡翠和冰种翡翠的品质是比较好的,它们的价值也会更高一些。因为人们是视觉性动物,第一印象非常重要。对于翡翠来说,玉雕师的工艺,是赋予它灵魂的关键。翠性是检验翡翠饰品真假的主要依据。实际上,这种说法是不对的,因为晶体颗粒粗大,结构不紧密的翡翠,才会有翠形的闪光点。

  • 牛排几分熟怎么区分(牛排怎样区分几分熟)

    其中,一分熟牛排内部为血红色,内部各处保持一定温度;三分熟牛排内部为桃红色,带有相当热度;五分熟牛排内部为粉红色,夹杂着浅灰和棕褐色,整个牛排都很烫;七分熟牛排主要为浅灰综褐色,夹杂着粉红色,质感偏厚重,有咀嚼感。牛排的烹调方法以煎和烤制为主。

  • 给宠物起个名字(给宠物起个独特好听的名字)

    安妮桃酥,今天小编就来说说关于给宠物起个名字?下面更多详细答案一起来看看吧!给宠物起个名字安妮桃酥臭臭塔塔莫莫仙仙麻花提子崽崽大奔香蕉蕉肉包包虎妞妞棉花糖桃酥酥棉花糖宁馨儿月饼饼黑珍珠陆蛋蛋杏肉肉麻花花小胖仙小调皮欣欣想想包子皮皮笑笑肥包诺诺丁丁豆豆

  • 马蹄果和荸荠区别(关于马蹄果和荸荠介绍)

    荸荠的分布地区很广泛,分布于中国、日本、琉球群岛、南洋岛、印度等地。形态特征:荸荠植株的秆多数,丛生,高度约40-100多厘米,直径约2-3毫米左右,颜色为灰绿色。繁殖方法:荸荠主要有球茎育苗和分株育苗两种繁殖方法,球茎育苗适合在每年的6月中旬至7月初进行,分株育苗适合在春季4月中旬进行。荸荠在一年中只栽培一茬,成熟后及时采摘收获。

  • 鱼儿适应温差需要多长时间(深度解析鱼儿生活习性)

    但鱼类会利用自身的感知器官来辨别食物水流和各种危险。鱼的味觉不仅在口中有,而且鳃部唇部触须等也有。鱼对含有生物组织的氨基酸具有很高的灵敏度。大鱼会对自己不习惯的味道浓郁的食物产生高度警惕和恐惧感。鱼儿主要是通过辨别水中食物或水中的氨基酸变化,来辨别水质的好坏,一旦水质不好,就会迅速离开。鱼的听觉不像哺乳动物的,没有外耳廓和耳洞。这种能力是其它动物所没有的。

  • 84a裤子对应多少码(84a裤子对应尺码)

    84a裤子对应32码。84a中,84表示腰围是84cm,也就是2.5尺,a则表示标准体型。腰围指的是腰部周围的长度,将带尺经脐上0.5至1厘米处水平绕一周,肥胖者选腰部最粗处水平绕一周测腰围。在衣物尺码中,字母代表的是身体体型,A表示东方人的标准体型,B表示微胖点的体型,C表示比较胖的体型。

  • 关于蚕宝宝的资料(蚕宝宝是什么)

    桑蚕起源于中国,早在四、五千年前,我们祖先就栽桑养蚕,是举世公认的伟大发现之一。由古代栖息于桑树的原始蚕驯化而来,与中国现今食害桑树的野桑蚕同源,染色体都是28对。卵是胚胎发生、发育形成幼虫的阶段,幼虫是摄取食物营养的生长阶段,蛹是从幼虫向成虫过渡的变态阶段,成虫是交配产卵繁殖后代的生殖阶段。整个世代只幼虫期摄食,并为蛹和成虫期的生命活动积贮营养。