二代测序出来的这些年,我们鉴证了测序井喷式的爆发,以及大量基因组研究的学术成果爆炸,其中就包括用测序数据构建各种疾病的早筛、预后标志物。最近这几年,随着海量的套路、文章被各种层级的杂志收录发表,我们会发现标志物文章越来越难发了,或者说很难在优质的杂志上发表了。 前者意味着我们需要投入更多的经费和时间,而后者需要我们学会新的方法。作为医学打工人,小编绝不会选择投钱做多组学(主要是囊中羞涩,实在掏不起钱搞多组学样本检测),那么就靠方法和思路升级吧。 今天我们复现的论文主题是:用基因标志物构建机器学习模型,预测紫杉醇在治疗胃癌患者的生存获益。 迄今为止,还没有预测性生物标志物可以指导选择从紫杉醇中受益的胃癌(GC)患者。本案例基于胃癌辅助多机构组试验 (SAMIT) ,是一项 2×2 析因随机 III 期研究,其中 GC 患者被随机分配至四个分组:Pac-S-1(紫杉醇 +S-1)、Pac-UFT(紫杉醇 +UFT) 、 根治性手术后单独使用 S-1 或单独使用 UFT。 本研究的主要目的是确定一个基因特征,可以预测 GC 患者紫杉醇化疗的生存获益。使用定制的 476 基因 NanoString panel 对 SAMIT GC 样品进行分析。将随机森林机器学习模型用于构建预后模型。使用紫杉醇和雷莫芦单抗 (Pac-Ram) 治疗的转移性 GC 患者的独立队列作为外部验证队列。 在最大的 GC 试验 (SAMIT) 中使用机器学习技术,找到了代表紫杉醇益处的第一个预测生物标志物的基因标志物。 这些发现代表了紫杉醇在胃癌中获益的第一个预测生物标志物,这篇文章能上Gut也主要得益于此。鉴于紫杉烷类药物在辅助和围手术期GC中的使用不断增加,在前瞻性试验中进一步验证后,该生物标志物可以指导识别从紫杉烷类治疗中受益的患者。 接下来,我们利用原作者提供的真实数据(由于原作者的延续性工作还未发表,所以未公开验证集数据,我们将作者提供的训练集数据拆分为训练集和验证集作为本次复现所用的数据),用决策链软件展示如何快速复现这篇Gut的主要结论。 我们从第一个表格开始,逐步完成文章Table和Figure的制作。在医学领域,通常第一个要展示的就是基线表。从数据加载节点开始“拖拉拽”吧~ 接下来拖拽“数据分析描述统计”节点,用连接线将源节点和描述节点连起来,并在右侧配置参数。同时,双击节点可以在节点底部文字框中对该节点任务做关键词备注,例如,备注节点调用了哪个表格,用哪个变量做了分组或分层,用哪个参数做了筛选和过滤等等。 我们如法炮制,根据原文思路,继续拖拉拽。在这里,大家会发现随机森林的节点长得和其他节点不太一样,因为我们在节点中引入了“端口”的概念,在操作决策链时,端口可以更清晰和灵活的在节点之间传输不同类型的数据,以实现自动化目标。 如图中所示,黑色连接线代表了流程主线(传输源数据表),而红色和绿色连接线分别负责传输拆分数据集产生的训练集与验证集数据。请注意,只有具备相同颜色和形状的端口才可以相互连接。在决策链即将发布的正式版中,我们会为绝大部分节点增加带有端口的版本,以实现更加复杂和灵活的自动化统计流。 接下来,我们可以分步执行统计流,按照思路顺序执行“运算到此节点”即可。需要注意的是,所有被黑色连接线串联的节点,可以一次性执行到末端节点。没有被连接线连接的节点,需要分别执行到对应流程末端。 当我们经过几轮参数调整和运算后,已经得到了有意义的结果时。可以点击项目报告按钮,将所有结果全自动生成为一份Word格式的总结报告。 在报告左侧是整个报告的目录,右侧是正文。该界面中的操作快捷键与微软Office的word保持一致,例如Ctrl+滚轮可以缩放报告的大小,Ctrl+Z可以恢复上一步的操作,等等。 当我们浏览一部分结果时,可能对图表的展示形式并不满意,例如下图的列线图,我们需要加入观察点,并调大X轴的字体,同时改变箱子的颜色为深蓝色。 那么接下来只需要选中图片,右键编辑。就可以打开一个自由的绘图对话框。这里您可以自由的编辑由R语言编写的制图模块。比如在右侧的参数框中,调整相应的参数,以及所有一切能看到的东西,随后点击绘图即可看到绘图结果。 通常我们也会遇到表格格式的问题,比如下方的机器学习预测表,我们需要给表头添加一些字段,以便更清晰的展示结果。 选中需要编辑的表格,右键选择编辑,即可进入三线表编辑界面。如图中所示,我们为第二行(原表头)添加了标题,并在OS左侧加入了一个间隙。 当然,如果想查看项目的原始文件和所有节点的分析结果源文件,您可以点击顶部打开工作流目录进行浏览。 使用决策链软件,我们可以清晰的将研究思路、研究路线清晰的部署在一张画布中,并灵活动态的进行调试,还可以将所有结果一键导出为总结报告。相信决策链能够帮助每一个有着科研梦想的朋友! 请用决策链软件-文件-打开,选中解压后文件夹目录中的Gut_Review.json文件,即可体验本文所实现的复现统计流啦。 |