前言
传统肿瘤学临床实践依赖于群体平均受益,通常来自未经选择的患者的随机临床试验,几十年来一直是药物批准的基石。习惯上,治疗决定基于肿瘤起源器官。然而,随着肿瘤基因组学研究的不断深入,已经证明了一个具有挑战性的现实:单个肿瘤,特别是转移性肿瘤,是异常复杂的。由于这种显著的肿瘤异质性,肿瘤的最佳治疗需要针对个体进行定制。
因此,下一代的临床试验设计需要以患者为中心,即基于肿瘤生物标志物匹配患者的治疗药物;而不是以药物为中心,即针对特定临床试验匹配患者。传统的随机、以药物为中心的临床试验很重要,因为它们减弱了混杂因素的影响;然而,它们也很麻烦,成本高昂,需要大量患者证明其临床益处。与未使用生物标志物选择患者的临床试验相比,基于生物标志物的临床试验与改善的响应率、无进展生存率(PFS)和总生存率(OS)相关。
多种新的临床试验设计,包括篮式和伞式试验、平台试验和N/1患者中心研究,开始取代标准的I、II和III期方案,加速了药物的评估和批准。此外,真实世界数据、数字应用程序和人工智能的利用,可能进一步加速这个进程。总的来说,临床试验目前的发展趋势,已经从以肿瘤类型为中心转向基因导向和组织学不可知的试验,以及基于个体生物标志物的创新自适应设计和个性化的组合治疗策略。
传统的临床试验设计
传统的I期癌症临床试验在相对较少的患者中评估研究药物的安全性和活性。第二阶段研究检查疗效(无随机化)和毒性。III期随机对照试验比较了研究和标准治疗的结果。第四阶段试验,也被称为上市后监测试验,在监管部门批准后评估药物的安全性和有效性。研究药物从I期到III期临床试验需要花费极高的成本,从数百万美元到数十亿美元。然而,从开始第一阶段试验到获得FDA上市批准的时间近年来有所减少。2016年,据报道,这一时间跨度约为12年,但根据最近FDA的批准,这一时间可能短至5年。此外,虽然药物传统上是在三期随机对照试验后由FDA批准,但近年来,FDA批准药物的时间变短,包括在具有显著反应率的情况下,仅在I期试验后就批准上市。
肿瘤随机临床试验的成功率约为38%。批准的金标准试验是盲法随机研究,因为它最大限度地减少了偏差。然而,随机试验有其自身的局限性。例如,随机试验中的对照组通常是次优的,有时由有效性很低的可用治疗组成。例如,PD-1/PD-L1抑制剂在非小细胞肺癌(NSCLC)患者中显示出显著的临床益处,但在一些试验中,这是因为与安慰剂相比进行的评估。此外,一些评估晚期NSCLC患者二线治疗药物的临床试验仅使用了具有适度临床效益的化疗药物,例如多西他赛(NCT04427072)。最后,由于患者的基线特征、共病、独特的肿瘤分子谱和微环境的巨大变异性,即使精心计划的试验也无法解释随机组之间的所有差异。因此,在药物开发中人们采用了创新的试验设计,这些设计可能效率更高,并解决以上的问题。
第一代精准临床试验
新设计包括多种类型的研究,主要包括篮式、伞式和平台设计,以及其它的特殊设计。最近的数据表明,新一代的临床试验数量正在迅速增加。
篮子试验
篮子试验是评估针对常见泛癌基因缺陷药物的组织不可知试验。超过30种药物正在篮子试验中进行评估。使用篮子试验的成功例子包括用于错配修复缺陷/高微卫星不稳定性(dMMR/MSI-H)肿瘤的pembrolizumab、用于含有NTRK融合肿瘤的entrectinib和larotrectinib,以及用于高肿瘤突变负荷(TMB-H)的pembrolizumab。
Pembrolizumab是第一个获得FDA批准的肿瘤不可知药物,该批准基于五项单臂试验的结果(KEYNOTE-016,KEYNOTE-164,Keynon-012,KEYNOTE-028,KEYNOTE-158)。15种不同MSI-H/dMMR肿瘤类型的患者接受了Pembrollizumab治疗。客观应答率(ORR)为39.6%,78%的应答者响应持续时间≥6个月。FDA对NTRK抑制剂larotrectinib的批准基于三项单臂临床试验(LOXO-TRK-14001、SCOUT和NAVIGAGE)。在三项试验的55名患者(17种肿瘤类型)中,ORR为75%。
这些试验招募了经过大量治疗的不同肿瘤类型患者,或标准治疗已用尽的患者。此外,参与这些试验的选定患者患有侵袭性癌症,治疗选择有限。在此类患者中,预期后期的抗癌治疗会产生较低的应答率,但在上述试验中靶向治疗的应答率明显高于标准治疗的预期。
跨肿瘤类型的基因组生物标志物的意义在于:对于许多肿瘤类型不会单独研究的患者,可用于选择主动免疫治疗或基因导向治疗的实施。此外,篮子试验的局限性包括定义肿瘤驱动因素改变及其相互作用的分子复杂性,导致对靶向治疗的耐药性以及缺乏比较,一个特别的挑战是不同肿瘤类型中某些分子改变的罕见性。
伞式试验
伞形试验评估了单一组织不同基因组/生物标志物亚组的多种治疗方法。该设计的一个显著优点是同时评估多种不同治疗方案对特定肿瘤类型的疗效,从而解决患者间的异质性。伞式设计要求准确选择驱动因素和匹配的药物。因此,开发具有高有效性和灵敏度的多重分析对于准确识别每个治疗组的患者至关重要。
成功进行的伞式试验包括肺癌患者的Lung-MAP和ALCHEMIST试验,以及乳腺癌患者的I-SPY-2和plasmaMATCH试验。Lung-MAP试验旨在通过使用200种基因分子谱分析将患者与多个试验子研究相匹配来提高入组效率,根据药物性能添加或删除药物。在未接受免疫治疗的晚期非小细胞肺癌患者中,将ipilimumab联合nivolumab与改善的PFS或OS无关。durvalumab和tremelimumab的联合治疗在先前已进行免疫治疗的晚期NSCLC患者中具有最小活性(ORR,7%)。
I-SPY-2的结果导致药物开发加速,从1期研究无缝过渡到3期研究。此外,PlasmaMATCH研究表明,血源循环肿瘤DNA(ctDNA)分析可以有效地选择晚期乳腺癌患者进行突变导向治疗。
伞式试验的局限性包括在罕见疾病中特别困难,因为分子亚群可能非常小,因此患者招募有限,试验可能需要很长时间才能完成。此外,具有多个分子改变的患者可能有资格接受多个臂的治疗。最后,多重生物标志物分析的开发和验证比单一生物标志物更复杂。
平台试验
当在单一方案中评估多个假设时,主方案被视为平台试验,可以以较低的成本产生更快的结果。平台试验的设计可能高度可变,例如某些试验结合了贝叶斯算法,该算法允许适应性决策,如在试验运行时扩展或删除研究臂。其对终点的评估是连续的,随着每个患者的加入,数据被重新分析。
平台试验的缺点包括难以实施复杂的设计以及行政和后勤的复杂性。在大量患者中测试多个假设的选定试验中,研究完成可能需要长期随访评估,有时会增加研究成本,尽管这些研究通常仍允许有效的药物开发。统计分析的复杂性一直是一个重大挑战,特别是在极端异质患者群体的情况下。
2007年开始的IMPACT1试验是第一个跨肿瘤类型的精准肿瘤学基因组驱动的平台试验。IMPACT1证明,在临床试验中,难治性癌症患者可以成功地匹配到合适的靶向治疗,与相同试验中登记的未匹配患者相比,结果有所改善,具有更高的ORR(匹配16.4% vs 非匹配5.4%,p<0.0001),更长的PFS(4.0月对2.8月,p<0.0001),以及更高的10年OS率(6%对1%,p<0.001)。继IMPACT1研究之后,IMPACT2试验于2014年启动。IMPACT2是一项随机临床试验,评估了肿瘤分子谱在晚期癌症患者中选择靶向治疗的应用(NCT02152254)。在IMPACT2试验中,与IMPACT1和其他精确肿瘤平台试验相比,患者被随机分配接受基于肿瘤基因组改变分析选择的治疗。
其它平台试验还包括TAPUR、NCI-MATCH、DART和STAMPEDE等。目前已报告了TAPUR、NCI-MATCH和STAMPEDE试验的选定治疗组的结果,但其它多个治疗组仍在评估中。这些平台试验的最终目标是作为单一方案的一部分,平行有效地评估多个治疗组,从而降低成本,及时获得疗效和毒性数据。
Octupus试验
Octupus试验是一个完整的I/II期试验,评估多种药物与主干药物的组合。例如QUIST-3.055研究,是一项IIb期对先前接受过免疫检查点抑制剂治疗的患者的联合免疫疗法研究,评估N-803与PD-1/PD-L1免疫检查点抑制剂的不同组合的多因素研究。
QUILT-3.055研究的初步结果表明,IL-15受体激动剂N-803与各种检查点抑制剂联合使用,对先前在免疫治疗中进展的不同肿瘤类型患者具有很好的疗效。该研究设计能够同时研究不同的治疗组,从而可能识别出一种以上的有效药物组合。
自适应设计
自适应设计使研究的动态发展成为可能,通过早期丢弃无效的试验臂,增加患者随机分组以获得更有效的治疗,同时根据实时临床结果改进生物标志物选择。因此,与传统的随机试验相比,这些试验需要更少的参与者和更短的随访时间。添加新臂同时去除效果不佳的试验臂是一个显著优势。然而,早期去除治疗组可能存在局限性,包括缺乏关于安全性或其他次要结果的令人信服的数据。后勤复杂性和对及时、高质量、密集的统计监测的需求是适应性试验中经常遇到的挑战。最后,不断需要调整设计可能会使结果难以解释。
近年来,自适应设计越来越多地应用于临床试验。适应性试验的一个例子是I-SPY-2试验,这是一项多中心、II期、随机临床试验。该试验包括多个治疗组,与单独标准治疗相比,同时评估标准新辅助化疗联合创新药物的疗效。未被发现有效的治疗组从研究中退出,而其他显示出临床益处的治疗组正在推进。I-SPY-2是第一批评估在乳腺癌新辅助化疗中添加免疫治疗的试验之一。与单独的标准治疗相比,在治疗三阴性乳腺癌患者时添加Pembrolizumab导致病理完全应答率增加3倍(60%对22%)。这项试验特别重要,因为它为患者在病程早期提供了新的治疗方法。
无缝设计
伸缩式临床试验无缝地从I期过渡到II期和/或III期临床试验,从而将所有阶段合并到单个试验中。这种设计可以缩短药物开发的时间,并显著降低管理成本。无缝策略的其他优势包括:只选择有前景的药物用于后期试验阶段,同时放弃早期失败的药物;评估与其他治疗药物的组合;并在下一个试验阶段关注应答亚群。
除了复杂的设计,在使用无缝设计进行试验时还面临其它挑战。例如,在完成研究所需的较长时间内,情况可能会发生变化,实验药物可能会获得监管批准,而难以解释结果。重要的是,将第一阶段的数据纳入第二阶段和第三阶段,特别是在反应和毒性方面,具有挑战性,因为试验是在第一阶段和第二阶段发生之前设计的。
GBM AGILE是一项多臂、无缝、II/III期平台试验。该试验包括两个阶段;第一阶段是贝叶斯自适应随机筛选阶段,根据与普通对照相比对OS的影响确定有效治疗。该阶段还评估临床指征和生物标志物状态,以确定治疗最有希望的人群。第二阶段使用固定随机化来确认第一阶段的结果。GBM AGILE试验的意义在于识别生物标志物,预测在这种难治疗患者群体中使用的创新药物的益处。重要的是,本试验采用无缝设计,以便及时确认所选治疗的临床益处,并为预后不良的患者提供额外的治疗选择。该研究结果正在等待中。
下一代精准临床试验
N-of-1试验
在精准医学的背景下,N-of-1试验是以患者为中心的试验,评估定制/个体化治疗组合。结果通常与历史或现实世界的结果数据进行比较。当评估匹配程度时,评估的是用于将患者与药物匹配的算法策略,而不是药物方案本身,因为后者因患者而异。N-of-1研究侧重于通过个性化组合解决分子复杂和异质性癌症,优化治疗选择。
I-PREDICT是第一个前瞻性试验,该试验评估了不同难治性肿瘤类型患者的个体化治疗,最近评估了转移性致命癌症患者的治疗。多学科分子肿瘤委员会定制多种药物组合,通过肿瘤基因组分析、ctDNA分析、PD-L1表达、激素状态以及TMB和MSI状态评估,每个患者使用评分系统计算“匹配分数”。较高的“匹配分数”与较高的疾病控制、PFS和OS率相关。正在进行的N-of-1试验正在评估不同肿瘤类型患者的新组合。此外,另一项WINTHER试验是另一项N-of-1试验,是第一项将患者引导到基于基因组学或转录组学的个性化治疗组合的精准医学研究。
家庭试验
为了扩展远程医疗技术,现在出现了一种创新的无站点临床试验设计。一些公司正在对癌症患者和其他疾病患者进行家庭临床试验。这些试验使无法出行和参加传统的现场临床试验的患者能够获得药物。此外,以家庭为基础的试验有助于患者招募,使更具代表性的患者群体能够被纳入,并通过让患者在舒适的家中参与,潜在地提高注册率。患者由广泛的调查人员和家庭保健护士网络护理,他们使用数字技术确保患者的健康,缺点可能包括不良事件监测和治疗反应不及时。
第一个基于家庭的肿瘤学试验之一是评估alectinib在极罕见、局部晚期或转移性ALK阳性实体瘤(Alpha-T,NCT04644315)中的疗效和安全性。这是一项II期、单臂、组织不可知的试验设计。研究人员可通过研究平台请求访问个别患者,患者必须愿意遵守研究程序,包括居家护理和流动护士探视。
小结
分子技术的显著进步在十年前几乎是不可想象的,现在已经可以对肿瘤生物学进行深入的研究和患者治疗的定制,这使得临床试验设计发生了一场革命。
最新的试验设计创新与传统试验设计的根本区别在于,它们以患者为中心,药物适应患者,而不是以药物为中心,患者适应药物试验。新一代精准药物试验设计已经产生了很好的应答率,最高的应答率,达到75%。N-of-1试验也在难治性癌症中产生了45%的应答率,这些试验强调需要解决转移性癌症往往具有复杂的生物学基础,并且每种癌症可能是独特的这一事实。
然而,新的试验设计也仍然存在许多挑战,包括确定哪些分子改变是驱动因素还是次要因素,以及如何协调以精准医学患者为中心的模型与新药监管授权需求,以及如何以可验证的方式有效而准确地利用多种新类型的试验设计。这些问题的解决,将为癌症患者以快速和高效的方式推动该领域向前发展。
参考文献:
1.Clinical trial design in the era ofprecision medicine. Genome Med.2022; 14: 101.
原文标题 : 下一代的临床试验设计