如何通过宏基因组数据的GC含量鉴定物种?通过GC含量如何定向组装该物种的基因组?

基因组学复习参考(个人见解)

、原核与真核生物基因组在结构与进化上的异同(古细菌也要留意)

、遗传图、物理图的绘制方法

、什么是重复序列?重复序列的种类有哪些(包括原核与真核生物)?

测序的基本方法有酶法(桑格法)

、化学法两种,描述其原理,解释两种方法的化

、全基因组序列的测定方法有两种:散弹法和逐个克隆测定法。以细菌基因组(水稻基因

组等)为例,解释测定全基因组

序列的基本过程和基本原理。

、近年来蛋白质组学有哪些主要研究方法?它们的基本原理是什么?

、表观遗传学的定义、包括哪些内容、研究方法

、转录组的定义、研究的基本方法和实验原理

、列举第二代测序仪的种类及基本测序原理?

、全基因组关联性研究和研究的基本方法?(

这些是基因组学中比较重要的十大问题。

、列举几种已经测定序列的生物基因组(如人类、小鼠、鸡、水稻、家蚕和果蝇等)

、分子生物学相关问题:

的剪切的几种形式,生物获得新基因的基本途径,非编码

、细胞生物学相关问题:肿瘤细胞特征及肿瘤发生关键因素,线粒体、叶绿体特点及起源

、生物信息学相关问题:常用的生物信息学数据库及序列比对常用的软件和其特点,基因

、基因工程相关问题:基因组文库构建与常见载体等

下面是咱们所基因组学的考试大纲还有历年基因组学试题,

中国科学院北京基因组研究所研究生入学考试

基因组学的研究对象和发展历程

基因组的定义和基因组的分类

基因组学研究的基本技术与方法

了解基因组研究的基本对象、内涵和最新进展

}

1.一种微生物群宏基因组的分析方法,包括:

测序数据过滤:对宏基因组测序所得原始数据进行过滤,并统计过滤前后碱基组成、reads数量、碱基质量,得到高质量测序数据;

数据组装:根据样本来源和测序数据量的大小,选择不同的数据组装策略,得到组装结果contigs,优选的,组装完成后过滤掉长度在500bp以下的短序列,其中:

策略1:若样本为非自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略2:若样本为非自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略3:若样本为自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

策略4:若样本为自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

基因数据分析:将s2步骤获得的数据结果进行基因数据分析,分析内容选自基因预测、基因丰度统计、核心基因和泛基因分析;优选的,基因预测的操作包括:利用metagenemark软件对contigs进行基因预测,获得基因序列,然后采用cd-hit软件,将基因序列相似度大于95%,序列比对区域大于90%的基因聚类为一个cluster,95%identity、90%coverage,选取最长的基因作为每个cluster的代表序列,称为unigene,所有代表序列即为获得的非冗余基因集合unigenecatalogue;

基因丰度统计的操作包括:利用bowtie2将高质量数据的reads重新比对unigene,计算各样本中,每个基因的reads比对数目;过滤掉在各个样品中reads支持数目都≤2的基因,获得用于后续步骤分析的基因集合;基于比对上的reads数目及基因长度出发,按公式计算得到各基因在各样品中的丰度信息,式中,r为比对上某基因k的reads数目,l为基因k的长度;

核心基因和泛基因分析的操作包括:基于各样品的基因丰度表,从所有样本中,随机抽取1个样本,统计基因数目,多次随机抽取后,获得1个样本时的基因数目分布盒型图;

再从所有样本中随机抽取2个样本,统计两样本基因交集和并集的基因数量,多次随机抽取后,获得2个样本时的基因数目分布盒型图;重复抽取足够样本,最终获得不同数目样品组合时的基因数目分布,得到核心基因和泛基因稀释曲线;

优选的,非自然环境样本为来自动物体的微生物群;所述自然环境样本为来自土壤、水体、空气的样本。

2.根据权利要求1所述的分析方法,其特征在于:还包括功能注释:基于基因数据分析结果,将unigenes比对到各类数据库进行基因功能注释和功能丰度统计;

优选的,功能注释具体为将unigenes序列通过diamond软件,阈值evalue<=1e-5,比对到数据库,同时结合基因丰度表格计算不同数据库比对结果的功能丰度信息。

3.微生物群宏基因组数据的binning分析方法,包括:

按权利要求1的操作得到组装结果contigs;

去嵌合体校正:将样本测序的reads比对contig,计算一条contig上两个窗口的reads覆盖度,基于覆盖度差异程度判断是否为嵌合体,并进行切分校正;

binning:选择长度大于1.5kb的contig,将样本测序的高质量reads再次比对contig,计算每条contig的覆盖度和gc含量,使用metabat2进行binning,即进行contig聚类,软件鉴定判断后,将具有相似丰度和核酸组成的contig归为一个bin,即一个潜在的基因组;或

进一步包括高质量bin筛选,具体包括:基于单拷贝基因集,评估每个bin的完整度、污染度;优选的,使用checkm软件计算bin的完整度、污染度;完整度高于80%且污染度低于5%归类为高质量bin。

4.根据权利要求3所述的binning分析方法,其特征在于:基于contig的reads比对结果,统计每个bin的contig数量、测序深度、长度、gc特征并进行可视化分析。

5.根据权利要求3所述的binning分析方法,其特征在于:还包括:

高质量bin物种注释,包括使用checkm软件预测获得每个bin的基因序列信息,并使用diamond软件将基因序列比对nr库,提取基因在种水平的物种注释,并基于物种分类层级关系,统计获得基因对应的各分类水平的物种注释;或

高质量bin基因注释,包括基于基因序列,使用diamond软件将基因序列比对nr库,提取基因的功能描述信息。

6.根据权利要求3所述的binning分析方法,其特征在于:还包括:

使用气泡图展示每个bin的基因特征,即以横轴展示基因长度、以纵轴展示基因序列比对的相似度、以点大小展示基因序列比对的得分、以点颜色展示基因在种水平的物种注释,点大小表示数据库比对的score得分,点越大,表示注释越可靠;和/或

选择目标bin构建bin基因组圈图,构建操作包括:

策略b1:使用bin的contig,即宏基因组拼接获得的contig,在完整度允许条件下,比对查找近缘物种,基于近缘物种特征,绘制基因组圈图;或

策略b2:将样本测序的reads再次比对回该bin的contig,提取比对上该bin的reads,使用soapdenovo软件进行重组装,基于新的组装结果绘制基因组圈图;优选的,样本测序的reads为其高质量reads。

7.一种微生物群宏基因组的分析系统,包括:

数据存储装置,用于存储待分析的高通量测序数据;

数据处理装置,用于对高通量测序数据进行组装和分析,其中,数据组装包括:

根据样本来源和测序数据量的大小,选择不同的数据组装策略,得到组装结果contigs,优选的,组装完成后过滤掉长度在500bp以下的短序列,其中:

策略1:若样本为非自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略2:若样本为非自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略3:若样本为自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

策略4:若样本为自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

基因数据分析:将s2步骤获得的数据结果进行基因数据分析,分析内容选自基因预测、基因丰度统计、核心基因和泛基因分析;优选的,基因预测的操作包括:利用metagenemark软件对contigs进行基因预测,获得基因序列,然后采用cd-hit软件,将基因序列相似度大于95%,序列比对区域大于90%的基因聚类为一个cluster,95%identity、90%coverage,选取最长的基因作为每个cluster的代表序列,称为unigene,所有代表序列即为获得的非冗余基因集合unigenecatalogue;

基因丰度统计的操作包括:利用bowtie2将高质量数据的reads重新比对unigene,计算各样本中,每个基因的reads比对数目;过滤掉在各个样品中reads支持数目都≤2的基因,获得用于后续步骤分析的基因集合;基于比对上的reads数目及基因长度出发,按公式计算得到各基因在各样品中的丰度信息,式中,r为比对上某基因k的reads数目,l为基因k的长度;

核心基因和泛基因分析的操作包括:基于各样品的基因丰度表,从所有样本中,随机抽取1个样本,统计基因数目,多次随机抽取后,获得1个样本时的基因数目分布盒型图;

再从所有样本中随机抽取2个样本,统计两样本基因交集和并集的基因数量,多次随机抽取后,获得2个样本时的基因数目分布盒型图;重复抽取足够样本,最终获得不同数目样品组合时的基因数目分布,得到核心基因和泛基因稀释曲线;

结果输出装置,用于输出处理后的数据。

8.根据权利要求7所述的分析系统,其特征在于:所述数据分析还包括功能注释:基于基因数据分析结果,将unigenes比对到各类数据库进行基因功能注释和功能丰度统计;

优选的,功能注释具体为将unigenes序列通过diamond软件,阈值evalue<=1e-5,比对到数据库,同时结合基因丰度表格计算不同数据库比对结果的功能丰度信息。

9.一种微生物群宏基因组数据的binning分析系统,包括:

数据存储装置,用于存储待分析的高通量测序数据;

数据处理装置,用于对高通量测序数据进行组装和分析,其中,数据组装包括:

根据样本来源和测序数据量的大小,选择不同的数据组装策略,得到组装结果contigs,优选的,组装完成后过滤掉长度在500bp以下的短序列,其中:

策略1:若样本为非自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略2:若样本为非自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为27、37、47、57、67、77、87、97、107、117、127;

策略3:若样本为自然环境样本,单样本测序数据量小于20g,将组内样本reads混合组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

策略4:若样本为自然环境样本,单样本测序数据量超过20g,单样本单独组装;使用megahit软件,组装参数设置为:kmer长度为21、41、61、81、101、121、141;

去嵌合体校正:将样本测序的reads比对contig,计算一条contig上两个窗口的reads覆盖度,基于覆盖度差异程度判断是否为嵌合体,并进行切分校正;

binning:选择长度大于1.5kb的contig,将样本测序的高质量reads再次比对contig,计算每条contig的覆盖度和gc含量,使用metabat2进行binning,即进行contig聚类,软件鉴定判断后,将具有相似丰度和核酸组成的contig归为一个bin,即一个潜在的基因组;或进一步包括

高质量bin筛选,具体包括:基于单拷贝基因集,评估每个bin的完整度、污染度;优选的,使用checkm软件计算bin的完整度、污染度;完整度高于80%且污染度低于5%归类为高质量bin;或包括

高质量bin物种注释,包括使用checkm软件预测获得每个bin的基因序列信息,并使用diamond软件将基因序列比对nr库,提取基因在种水平的物种注释,并基于物种分类层级关系,统计获得基因对应的各分类水平的物种注释;或

高质量bin基因注释,包括基于基因序列,使用diamond软件将基因序列比对nr库,提取基因的功能描述信息;

结果输出装置,用于输出处理后的数据。

10.根据权利要求9所述的binning分析系统,其特征在于:所述数据分析还包括基于contig的reads比对结果,统计每个bin的contig数量、测序深度、长度、gc特征并进行可视化分析;

优选的使用气泡图展示每个bin的基因特征,即以横轴展示基因长度、以纵轴展示基因序列比对的相似度、以点大小展示基因序列比对的得分、以点颜色展示基因在种水平的物种注释,点大小表示数据库比对的score得分,点越大,表示注释越可靠;和/或

选择目标bin构建bin基因组圈图,构建操作包括:

策略b1:使用bin的contig,即宏基因组拼接获得的contig,在完整度允许条件下,比对查找近缘物种,基于近缘物种特征,绘制基因组圈图;或

策略b2:将样本测序的reads再次比对回该bin的contig,提取比对上该bin的reads,使用soapdenovo软件进行重组装,基于新的组装结果绘制基因组圈图;优选的,样本测序的reads为其高质量reads。

本发明公开了一种优化的宏基因组binning分析微生物群落的方法,包括对测序数据进行过滤,得到高质量测序数据,然后根据样本的来源及测序数据量的大小,选择不同的组装策略得到contigs,接着进行基因数据分析。与现有技术相比,本发明是一种针对微生物群落同时开展群落整体的生物信息分析和不依赖分离培养的“单菌”基因组分析。在宏基因组层面,提供了更贴合样本特征、测序数据量的高效优质组装算法,并包含丰富全面的信息分析内容,个性新颖的可视化。实现了宏基因组分析由群落到单菌的质变,方案包含可提高准确性的数据校正,包含全面完善的bin信息汇总,有利于更方便高效地筛选到有价值的目标bin,还包含系统完善的目标bin后续分析的挖掘思路。

技术研发人员:夏昊强;高川;周煌凯;艾鹏;张秋雪
受保护的技术使用者:广州基迪奥生物科技有限公司

}

我要回帖

更多关于 基因组是指 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信