当前位置:首页 > 时尚美妆 > fpkm值的意义(转录组测序常见概念)

fpkm值的意义(转录组测序常见概念)

1. 转录组测序

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。基于高通量测序平台的转录组测序技术能够全面获得物种特定组织或器官的转录本信息,从而进行基因表达水平研究、新转录本发现研究、转录本结构变异研究等。

2. 转录本重构

转录本重构就是用测序的数据组装成转录本,分成两类:

(1).de-novo构建;de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads 连接成一个更长的序列,经过不断的延伸,拼成一个个的contig 及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。

(2).有参考基因组重构。参考基因组重构,是指先将read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。

3. 可变剪接(alternative splicing)

有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致真核生物基因和蛋白质数量较大差异的重要原因。通过高通量测序技术对研究对象的转录组进行测序,通过生物信息学的方法可发现新的可变剪接转录本并对各转录本进行定性定量分析,以研究可变剪接发挥的功能。

4. 聚类分析

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。

基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。

5. GO分析

Gene Ontology(GO)分析,可分为分子功能Molecular Function,生物过程biological process和细胞组成cellular component。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term即功能类别或者细胞定位。

6. Contig、scaffold

重叠群,拼接软件基于reads之间的overlap区,拼接获得的序列

通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、 10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。

7. FPKM/RPKM

RPKM(Reads Per Kilobase of exon model per Million mapped reads)每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。

FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。 Fragment比read的含义更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。