新闻资讯

News Information

美格基因|宏基因组云分析系列优化第二弹来袭!!!


发布时间:

2025-07-25

我们始终致力于为您的宏基因组研究提供更强大、更便捷的分析工具。今天,我们激动地宣布宏基因组云分析流程迎来第二轮重要优化升级!

美格云生态官网:http://cloud.magigene.com/

我们始终致力于为您的宏基因组研究提供更强大、更便捷的分析工具。今天,我们激动地宣布宏基因组云分析流程迎来第二轮重要优化升级!本次升级聚焦于提升功能深度与用户体验,覆盖了数据检验分析、α多样性分析、LEfSe差异分析、ipath分析、Mantel Test分析、RDA/CCA分析以及ROC分析等多个核心模块。

接下来,让我们详细了解一下本次升级的具体优化点(下文图表为随机的测试数据,结果仅供展示):

一、新增数据检验分析

宏基因组分析涉及大量复杂的统计比较和模型构建,许多常用统计方法(如t检验、方差分析、回归分析)都建立在数据服从正态分布的假设基础上。数据偏离正态性可能导致结论失效。因此,正态性检验成为评估数据分布是否符合正态性假设的关键“守门人”。

新增正态性检验分析(Normality Test)

01 原理简述

正态性检验通过统计量或图形化手段,验证数据集的分布特征(如均值、方差、偏度、峰度)是否与正态分布的理论特性一致。

02 应用价值

判断宏基因组数据(物种或功能丰度)是否满足后续参数统计方法的前提条件,若不符合,需考虑使用非参数方法或数据转换。

02 操作流程

(1)参数设置

  • 物种或功能选项:选择分析物种数据或功能数据;

  • 注释来源:选择数据库来源及分类水平下的数据注释表;

  • 样本分组:设置样本分组方案;

  • 检验方法:根据样本量选择检验方法:

    - Shapiro-Wilk:检验适用小样本(n<50)

    - Kolmogorov-Smirnov:适用大样本(n>50)

  • 总丰度前_物种或功能:指定展示总丰度排名靠前的物种或功能数量

 

(2)运行任务

确认参数后点击“运行”,输入任务备注(可选),状态转为“提交成功”即开始执行。

 

(3)结果展示

*表格说明:

(1) Genus:物种注释数据属水平的数据进行的正态性检验,该列根据注释来源及分类水平动态变化;

(2) std_dev:Standard Deviation(标准差),衡量数据点偏离平均值的离散程度。值越大,表示数据越分散;值越小,表示数据越集中。正态分布的标准差通常与数据的尺度相关,但本身不直接用于判断正态性(需结合其他检验);

(3) skewness:偏度,衡量数据分布的不对称性;

(4) kurtosis:峰度,衡量数据分布的“峰态”和尾部厚重性;

(5) sw_value/ks_value:检验的统计量值,值越接近1,表示数据越符合正态分布;值越小,表示偏离正态分布越明显。sw_value表示Shapiro-Wilk算法,ks_value表示Kolmogorov-smirnov算法;

(6) sw_pvalue/ks_pvalue:检验的p值,用于统计显著性判断。sw_pvalue表示Shapiro-Wilk算法,ks_pvalue表示Kolmogorov-smirnov算法;

(7) result:基于Shapiro-Wilk/Kolmogorov-smirnov检验的最终结论。

 

二、α多样性分析系列更新

α多样性用于评估单个样本内微生物群落的物种/功能丰富度、均匀度及多样性,是微生物生态学研究的核心内容。

01  α多样性指数统计分析 新增指数汇总表

  • 优化点:原功能支持独立的α多样性指数分析及结果展示(统计表、统计图)。本次更新在结果展示下拉框中新增“All”选项。

  • 效果:选择“All”后,系统将展示所有已分析指数的汇总统计表,方便用户一次性查看和比较所有指数的计算结果。

α多样性指数统计表

α多样性指数统计图

新增的All选项指数汇总结果表

02 稀释曲线(Rarefaction Curve) 横坐标数值更新

  • 原理回顾:稀释曲线用于判断测序深度是否足够覆盖样本中所有物种。曲线趋于平坦表明测序量足够。

  • 优化点:本次更新对稀释曲线图的横坐标数值显示进行了优化。

  • 效果:优化后的横坐标数值显示更合理、更细致,有助于用户更准确地解读曲线形态,判断测序饱和度。

稀释曲线图

03 指数组间差异检验 新增组间差异分析汇总图

  • 原理回顾:通过箱形图展示组内多样性指数的分布(中位数、离散程度等),并利用统计检验(如T-test, Wilcox检验, ANOVA, Kruskal-Wallis检验)评估不同分组间多样性指数是否存在显著差异。

  • 优化点:在原有箱形图的基础上,新增了组间差异分析汇总图

  • 效果:新增的汇总图显著增强了结果展示的直观性

    1. 明确标注了所采用的检验算法(如Kruskal-Wallis检验 & Wilcox检验);

    2. 清晰标记了组间比较的显著性水平(P值)。

组间差异分析汇总图

 

三、差异分析系列更新

01 LEfSe差异分析 新增物种进化分支图

  • 优化点:在LEfSe差异分析的结果展示中,新增了物种进化分支图

  • 效果:该图直观地展示了基于共同衍征推断出的、具有显著差异的生物类群(如物种、属、科等)之间的分支进化关系谱系,有助于用户理解不同类群从共同祖先分化出来的演化关系。

物种进化分析图

 

02 ipath 分析 优化分类水平选择及结果说明

  • 背景:iPath是一款可视化通路图分析工具,用于展示组间共有及特有KO (KEGG Orthology) 在各代谢通路图中的分布(以不同颜色线段标示)。

    优化点1(参数设置):

  • 问题:之前参数中的分类水平包含L1、L2、KO等,但iPath软件仅支持KO水平输入,选择L1/L2会导致任务无法运行。

  • 解决:本次更新限制了分类水平选项,用户只能选择“KO”,避免了因选择错误级别导致的分析失败。

优化点2(结果展示):

  • 问题:结果包中的表格 (All_data_**-**.txt.xls) 未明确说明图中不同颜色线段所代表的含义(特有或共有)。

  • 解决:在结果表格中新增了对应颜色和“共有/特有”的说明列,使结果解读更清晰。

*表格说明:

(1)Conditions:分组条件标识;

(2)Number(#):该条件下特有或共有的KO数量;

(3)Color:图中对应线段的颜色;

(4)All informat:具体的KO编号列表。

 

四、环境因子关联分析系列更新

01 Mantel_Test分析 新增Procrustes分析结果

  • 原理简介:Procrustes分析通过几何变换(平移、旋转、缩放)对齐不同数据集(如物种组成排序结果与环境变量排序结果)的坐标点,评估其空间结构的相似性,常用于验证环境因子对物种分布的解释一致性。

  • 优化点:在Mantel_Test分析结果中,新增了Procrustes分析结果

    效果:

  • 新增结果表:提供环境因子(env_factor)与样本物种组成之间的Procrustes相关性(Procrustes r)及其统计显著性(Procrustes p)。

Procrustes分析判断结果表

*表格说明:

① env_factor:表示环境因子;

② Procrustes r:样本和环境因子之间的相关性;

③ Procrustes p:样本和环境因子之间的统计检验的p值,判断env效应是否统计显著的指标。

 

  • 新增Procrustes分析图:直观展示物种数据(taxa)与环境变量(env)经排序后的对应关系。

Procrustes分析图

 

02 RDA/CCA分析 新增环境因子相关性表

  • 原理:RDA/CCA是一种多元直接梯度分析,用于揭示菌群/功能组成与环境因子之间的关系,找出重要的环境驱动因子。

  • 优化点:在RDA/CCA分析结果中,新增了环境因子相关性表

  • 效果:如下图所示

*表格说明:

(1)  第一列pH、T、Height分别表示对应的环境因子;

(2)  RDA1、RDA2:表示RDA分析生成的主要排序轴,对应的数值表示环境因子箭头在这两个轴上的坐标;

(3)  r2:表示环境因子与样本的相关性,值范围在0到1之间,越接近1表示相关性越强;

(4)  Pr(>r):显著性检验的p值,通过置换检验(Permutation test)评估该环境因子对群落组成的解释是否具有统计学显著性(即是否显著不同于随机效应);

(5)  Permutation:表示进行置换检验时的置换方式,free表示置换方式是“自由的”;

(6)  Number of permutations:表示进行的置换次数,换来估计p值,置换次数足够多才能获得可靠的p值估计。

 

五、Random_Forest分析优化

随机森林(RF)是一种强大的机器学习算法,常用于建立预测模型(如样本分类)。此分析点灵活性高,支持结合差异分析结果筛选特征,并自定义训练/验证集。

01 新增ROC分析图

  • 原理与应用: ROC曲线是评估分类模型(如随机森林)性能的核心工具。它描绘了不同分类阈值下,真阳性率(TPR)与假阳性率(FPR)的关系,曲线下面积(AUC)是衡量模型整体判别能力的指标。

  • 优化点:在Random Forest分析的结果中,新增了ROC曲线图

  • 效果:用户可以通过分析ROC曲线的形状、计算AUC值以及选择合适的阈值,全面评估所构建随机森林模型的分类性能为实际应用提供决策依据。

ROC图

 

科研之路,分秒必争,经费宝贵。我们深知宏基因组分析的复杂与挑战。“优化第二弹”不是终点,而是我们持续精进、与您同行的新起点。让技术为科研赋能,让算力为发现加速!

选择美格基因云分析平台,让您的宏基因组数据在云端高效运转,助力科研突破!

关注我们,第一时间获取最新技术动态、实用分析技巧与限时福利!

 

想要更加了解上述内容

那就快动动手指

注册成为美格云生态的用户吧!

美格云生态网址:

http://cloud.magigene.com/?sessionid=1089101505

注册指南

还没有注册的小伙伴们,欢迎通过以下注册指南加入云生态畅享更多精彩!

1、登录网址-点击“注册账号”按钮,进入注册界面。

2、填写您的基本信息,包括姓名、单位、性别、邮箱等。

3、输入您的手机号并点击“获取验证码”,填写接收到的验证码并设置您的登录密码。

4、点击“注册”按钮,即注册成功。

美格云生态注册页面

 

赶快加入畅享美格云生态

更多惊喜等你来发掘!

 

美格基因

美格科服

联系我们

电话:400-968-5700

官网:www.magigene.com

地址:广东深圳国际创新谷三期7栋B座13层

地址:广州国际生物岛官洲生命科学中心A栋第28层

地址:广州佳德科技园B栋3层

Copyright © 2023 广东美格基因科技有限公司

SAF Coolest v1.3 设置面板DEJSX-ZGZB-AVSQE-XEQ

图片ALT信息: 广东美格基因科技有限公司

无数据提示

Sorry,当前栏目暂无内容

您可以查看其他栏目或返回 首页

V1.3.1 SVG图标库请自行添加图标,用div包起来,并命名使用