3.候选driver event的发现
作者根据可供参考的driver元件集和其他六个已发布方法的候选driver程序对作者的分析结果进行了基准测试。
其中,使用三个参考driver元件集为:COSMIC癌症基因普查(CGC),PCAWG原始综合driver候选(PCAWG-raw),和PCAWG-consensus driver候选(PCAWG-consensus)。另外,六种已发布的方法中,ExInAtor20,ncdDetect21和LARVA22仅使用突变负荷信息。oncodriveFML23仅使用功能偏差;而MutSig24和ActiveDriverWGS25既可以对突变负荷也能通过功能校正进行建模,但不能通过功能影响评分来建模。
CGC是driver的目录,其突变与癌症有关联,是编码和剪接位点驱动的金标准集(即用于计算精确度和召回率)。
PCAWG-raw是driver元件的集成,该驱动程序元件由12种不同的驱动程序检测方法对作者在此使用的同一数据调用。
PCAWG-concensus是一个保守的集合,它衍生自PCAWG-raw,但通过应用多个严格的过滤器来控制错误发现率。
作者在DriverPower结果中观察到了经过良好校准的p值(图3d),并且编码和非编码driver发现的准确性都很高(图3e)。
图3.泛癌队列以及由三个参考驱动程序集(CGC,PCAWG-concensus或PCAWG-raw)中包含的DriverPower调用的非编码driver候选的数量和分数
对于蛋白质编码区(CDS),作者利用DriverPower发现了217个显著的(q <0.1)候选驱动程序。少数基因(例如TP53)可以在多个队列中作为driver基因。而且作者发现功能信息的合并提高了编码driver发现的准确性(图 4a)。例如,在胰腺导管腺癌(Panc-AdenoCA; N?= 232),增加“功能调整”后的算法能挖掘到三个额外的driver(ACVR1B,RBM10和ZFP36L2)(图4a)。而如果不合并功能信息,则CGC和CGC / PCAWG挖掘到的driver基因的整体精度均会下降。
图4.合并功能信息后挖掘到三个额外的driver 均使用相同26个非黑素瘤/淋巴瘤队列和CGC作为金标准集的情况下,DriverPower与其他六种方法进行比较时,DriverPower(精度= 0.84;召回率= 0.79)的F1分数最高(0.81)(图5b-c)。
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的调和平均,最大值为1,最小值为0。
图5.DriverPower与其他六种方法F1得分比较
4.对DriverPower发现driver性能进行基准测试
接下来,作者对DriverPower在非编码driver event挖掘的准确性进行基准测试。在剪接位点driver的识别上,DriverPower(F1 = 0.91)也优于对比的两种方法:ncdDetect(F1 = 0.65)和oncoDriverFML(F1 = 0.32)(图6)。
图6.预测影响编码基因剪接位点的driver
进一步,为了预测3'-UTR,5'-UTR,启动子和增强子中的非编码driver,DriverPower在非黑素瘤/淋巴瘤肿瘤队列中确定了19个候选,在泛癌队列中确定了24个候选。基准测试结果显示,DriverPower在所评估的六种方法中同样具有最高的F1分数(0.79)(图 7d-e)。
图7.预测3'-UTR,5'-UTR,启动子和增强子中的非编码driver
5.DriverPower也适用于WES
为了展示DriverPower的鲁棒性,作者将DriverPower应用于两个公共全外显子测序(WES)数据集(图8)。这两个WES数据集的处理方式与PCAWG数据不同,并且包含PCAWG研究中未包括的样本。对于肝癌,DriverPower从TCGA-LIHC样本(N=364)中识别出14个编码driver。而在CGC或PCAWG-concensus中,除一个driver丢失外,所有候选driver都存在。
而对于胰腺腺癌,DriverPower从TCGA-PAAD样本(N=180)(与PCAWG研究中没有共享的样本)中识别出六个编码driver,并且全部对应于已知的驱动器基因(100%)。
图8. WES的driver识别
本篇文章报告了DriverPower,这是一个通过合并突变负荷和功能影响信息来准确识别驱动和乘客突变的新框架。该方法利用了WGS技术产生的大型体细胞突变集,借助一千多个基因组特征构建了准确的全局BMR模型,与使用选定区域或侧翼区域构建本地BMR模型的方法形成对比。其优点之一是该方法不偏向于编码区,而是在编码和非编码区都使用相同的模型挖掘癌症driver。该方法的另一个优点是高度模块化。DriverPower可以与其他类型的基因组元素(编码的或非编码的)、用于建模BMR的其他回归算法以及其他功能影响评分方案一起使用。此外,尽管DriverPower是为WGS项目设计的,但它在WES策略中也表现出色。