如何通过宏基因组数据的GC含量鉴定物种？通过GC含量如何定向组装该物种的基因组？

点击联系发帖人 时间：2022-06-08 14:48

基因组是指

基因组学复习参考（个人见解）

、原核与真核生物基因组在结构与进化上的异同（古细菌也要留意）

、遗传图、物理图的绘制方法

、什么是重复序列？重复序列的种类有哪些（包括原核与真核生物）？

测序的基本方法有酶法（桑格法）

、化学法两种，描述其原理，解释两种方法的化

、全基因组序列的测定方法有两种：散弹法和逐个克隆测定法。以细菌基因组（水稻基因

组等）为例，解释测定全基因组

序列的基本过程和基本原理。

、近年来蛋白质组学有哪些主要研究方法？它们的基本原理是什么？

、表观遗传学的定义、包括哪些内容、研究方法

、转录组的定义、研究的基本方法和实验原理

、列举第二代测序仪的种类及基本测序原理？

、全基因组关联性研究和研究的基本方法？（

这些是基因组学中比较重要的十大问题。

、列举几种已经测定序列的生物基因组（如人类、小鼠、鸡、水稻、家蚕和果蝇等）

、分子生物学相关问题：

的剪切的几种形式，生物获得新基因的基本途径，非编码

、细胞生物学相关问题：肿瘤细胞特征及肿瘤发生关键因素，线粒体、叶绿体特点及起源

、生物信息学相关问题：常用的生物信息学数据库及序列比对常用的软件和其特点，基因

、基因工程相关问题：基因组文库构建与常见载体等

下面是咱们所基因组学的考试大纲还有历年基因组学试题，

中国科学院北京基因组研究所研究生入学考试

基因组学的研究对象和发展历程

基因组的定义和基因组的分类

基因组学研究的基本技术与方法

了解基因组研究的基本对象、内涵和最新进展

}

1.一种微生物群宏基因组的分析方法，包括：

测序数据过滤：对宏基因组测序所得原始数据进行过滤，并统计过滤前后碱基组成、reads数量、碱基质量，得到高质量测序数据；

数据组装：根据样本来源和测序数据量的大小，选择不同的数据组装策略，得到组装结果contigs，优选的，组装完成后过滤掉长度在500bp以下的短序列，其中：

策略1：若样本为非自然环境样本，单样本测序数据量小于20g，将组内样本reads混合组装；使用megahit软件，组装参数设置为：kmer长度为27、37、47、57、67、77、87、97、107、117、127；

策略2：若样本为非自然环境样本，单样本测序数据量超过20g，单样本单独组装；使用megahit软件，组装参数设置为：kmer长度为27、37、47、57、67、77、87、97、107、117、127；

策略3：若样本为自然环境样本，单样本测序数据量小于20g，将组内样本reads混合组装；使用megahit软件，组装参数设置为：kmer长度为21、41、61、81、101、121、141；

策略4：若样本为自然环境样本，单样本测序数据量超过20g，单样本单独组装；使用megahit软件，组装参数设置为：kmer长度为21、41、61、81、101、121、141；

基因数据分析：将s2步骤获得的数据结果进行基因数据分析，分析内容选自基因预测、基因丰度统计、核心基因和泛基因分析；优选的，基因预测的操作包括：利用metagenemark软件对contigs进行基因预测，获得基因序列，然后采用cd-hit软件，将基因序列相似度大于95％，序列比对区域大于90％的基因聚类为一个cluster，95％identity、90％coverage，选取最长的基因作为每个cluster的代表序列，称为unigene，所有代表序列即为获得的非冗余基因集合unigenecatalogue；

基因丰度统计的操作包括：利用bowtie2将高质量数据的reads重新比对unigene，计算各样本中，每个基因的reads比对数目；过滤掉在各个样品中reads支持数目都≤2的基因，获得用于后续步骤分析的基因集合；基于比对上的reads数目及基因长度出发，按公式计算得到各基因在各样品中的丰度信息，式中，r为比对上某基因k的reads数目，l为基因k的长度；

核心基因和泛基因分析的操作包括：基于各样品的基因丰度表，从所有样本中，随机抽取1个样本，统计基因数目，多次随机抽取后，获得1个样本时的基因数目分布盒型图；

再从所有样本中随机抽取2个样本，统计两样本基因交集和并集的基因数量，多次随机抽取后，获得2个样本时的基因数目分布盒型图；重复抽取足够样本，最终获得不同数目样品组合时的基因数目分布，得到核心基因和泛基因稀释曲线；

优选的，非自然环境样本为来自动物体的微生物群；所述自然环境样本为来自土壤、水体、空气的样本。

2.根据权利要求1所述的分析方法，其特征在于：还包括功能注释：基于基因数据分析结果，将unigenes比对到各类数据库进行基因功能注释和功能丰度统计；

优选的，功能注释具体为将unigenes序列通过diamond软件，阈值evalue<＝1e-5，比对到数据库，同时结合基因丰度表格计算不同数据库比对结果的功能丰度信息。

3.微生物群宏基因组数据的binning分析方法，包括：

按权利要求1的操作得到组装结果contigs；

去嵌合体校正：将样本测序的reads比对contig，计算一条contig上两个窗口的reads覆盖度，基于覆盖度差异程度判断是否为嵌合体，并进行切分校正；

binning：选择长度大于1.5kb的contig，将样本测序的高质量reads再次比对contig，计算每条contig的覆盖度和gc含量，使用metabat2进行binning，即进行contig聚类，软件鉴定判断后，将具有相似丰度和核酸组成的contig归为一个bin，即一个潜在的基因组；或

进一步包括高质量bin筛选，具体包括：基于单拷贝基因集，评估每个bin的完整度、污染度；优选的，使用checkm软件计算bin的完整度、污染度；完整度高于80％且污染度低于5％归类为高质量bin。

4.根据权利要求3所述的binning分析方法，其特征在于：基于contig的reads比对结果，统计每个bin的contig数量、测序深度、长度、gc特征并进行可视化分析。

5.根据权利要求3所述的binning分析方法，其特征在于：还包括：

高质量bin物种注释，包括使用checkm软件预测获得每个bin的基因序列信息，并使用diamond软件将基因序列比对nr库，提取基因在种水平的物种注释，并基于物种分类层级关系，统计获得基因对应的各分类水平的物种注释；或

高质量bin基因注释，包括基于基因序列，使用diamond软件将基因序列比对nr库，提取基因的功能描述信息。

6.根据权利要求3所述的binning分析方法，其特征在于：还包括：

使用气泡图展示每个bin的基因特征，即以横轴展示基因长度、以纵轴展示基因序列比对的相似度、以点大小展示基因序列比对的得分、以点颜色展示基因在种水平的物种注释，点大小表示数据库比对的score得分，点越大，表示注释越可靠；和/或

选择目标bin构建bin基因组圈图，构建操作包括：

策略b1：使用bin的contig，即宏基因组拼接获得的contig，在完整度允许条件下，比对查找近缘物种，基于近缘物种特征，绘制基因组圈图；或

策略b2：将样本测序的reads再次比对回该bin的contig，提取比对上该bin的reads，使用soapdenovo软件进行重组装，基于新的组装结果绘制基因组圈图；优选的，样本测序的reads为其高质量reads。

7.一种微生物群宏基因组的分析系统，包括：

数据存储装置，用于存储待分析的高通量测序数据；

数据处理装置，用于对高通量测序数据进行组装和分析，其中，数据组装包括：

根据样本来源和测序数据量的大小，选择不同的数据组装策略，得到组装结果contigs，优选的，组装完成后过滤掉长度在500bp以下的短序列，其中：