今天跟大家分享的是2020年发表在Nat.Commun .(IF:12.121)杂志上的一篇文章Combined burden and functional impact tests for cancer driver discovery using DriverPower.在文章中作者描述了一种新的高灵敏度算法DriverPower,用于在全基因组和外显子组测序数据中识别区分癌症的驱动和乘客突变。
Combined burden and functional impact tests for cancer driver discovery using DriverPower
使用DriverPower识别癌症driver基因的综合负荷和功能影响测试
(分享者:科研菌-碎碎冰)
一.研究背景
与癌症发生发展相关的重要基因被称为“驱动基因(driver基因)”,这种基因决定了癌症的走向:当driver基因发生突变后,癌细胞就会活跃起来。driver基因突变占肿瘤中体细胞变异比例少,而且在大多数癌症中,肿瘤内和肿瘤间存在明显的异质性,背景突变率(BMR)都可能存在数个数量级的差异。此外,大规模癌症全基因组测序WGS的出现为人们探索driver基因在非编码区中的作用成为可能。但由于突变对基因组非编码区的影响人们了解甚少,所以也有不小的挑战。大多数最新技术通过突变负荷测试(通过将基因组区域中观察到的突变率与BMR预期的突变率进行比较)或功能影响测试来检测阳性选择信号,从而识别driver基因。由此作者团队开发DriverPower算法——使用突变负荷和功能影响评分来识别编码和非编码癌症driver基因。
二.分析流程
三.结果解读
1.建立BMR模型
作者首先从PCAWG项目获得WGS体细胞变异数据。在所有肿瘤队列中,作者观察到在组织,供体以及基因座水平上的突变率存在很大差异。driver基因突变检测的精确性需要准确估计整个肿瘤基因组中的BMR(背景突变率),此外还需要考虑到肿瘤类型、供体和基因组区域之间的广泛差异(图S1)。DriverPower通过使用与局部BMR共同变化的基因组特征,来建立BMR模型从而解决这个问题。
图S1.队列和供体水平的异质性
背景知识:
目前通过体细胞突变识别癌症driver基因的分析方法主要有两种:①背景突变率(BMR)法和②背景突变比例度量法。背景突变率方法的思想是,评估一个基因在癌症样本中是否含有比预期更多的体细胞突变。基于比率测量的方法是通过考察一个基因中不同种类体细胞突变数的比例来探测癌症driver基因。
作者研究了两种基于基因组特征的BMR建模算法。第一个算法是首先先使用随机lasso,然后是运用二项式广义线性模型(GLM),第二种算法则是基于梯度提升机(GBM,一种非线性且非参数的树集成算法)的算法。为了评估这两种BMR建模算法,通过随机采样基因组坐标,制作了不重叠的1兆碱基对(Mbp)常染色体元件(n = 2521)和训练基因组元件(n = 867,266)。然后使用五重交叉验证(cross validation,CV)来预测每个元件的突变数。