疗效评估标准在恶性淋巴瘤临床研究中的应用

疗效评估标准在恶性淋巴瘤临床研究中的应用

分享一篇关于淋巴瘤临床研究的文章,供参考。

疗效评估标准在恶性淋巴瘤临床研究中的应用

统一规范的疗效评估标准使不同临床研究的结果具有可比性,有助于监管部门对新药的审批。1999年以前,对淋巴瘤的疗效评估标准不统一,研究结果之间缺乏可比性。

1.1 国际工作组(IWG)1999标准

1999年,由Cheson等组成的国际工作组(IWG)提出了一套非霍奇金淋巴瘤(NHL)的疗效评估指南(表1),将疗效分为完全缓解(CR),未确认的完全缓解(CRu),部分缓解(PR),疾病稳定(SD),疾病进展(PD)或复发。

指南发表后很快应用到临床研究中,并被监管部门认可,用于新药的审批。

疗效评估标准在恶性淋巴瘤临床研究中的应用

然而,该指南仍存在一些缺陷,

1. 判断为CRu(治疗后病变淋巴结显著缩小但仍存在)的患者,由于无法确定残存的淋巴结性质,导致无法指导后续治疗;

2. 治疗后仅骨髓可疑受累的患者,无法判定其性质,导致同样的问题;3. 评估者的主观影响大,评估结果的重复性不好。

1.2 Cheson 2007标准

由于IWG 1999标准存在缺陷,且随着上世纪90年代正电子发射断层成像(PET)或PET-CT技术的发展,镓扫描技术的淘汰,Cheson等于2007年对IWG 1999进行了修订(Cheson 2007,表 2),首次引入PET,对[F18]脱氧葡萄糖(FDG)高亲和力淋巴瘤,包括霍奇金淋巴瘤(HL)和弥漫性大B细胞淋巴瘤(DLBCL)。

只要治疗后PET阴性则无论有无淋巴结残留,都视为CR;

同时,增加骨髓的检测手段,如免疫组化和流式细胞仪。

因此,CRu这一概念得以去除。

疗效评估标准在恶性淋巴瘤临床研究中的应用

1.3 Cheson 2014标准

引入PET/PET-CT的Cheson 2007标准提高了淋巴瘤疗效评估的准确性和可重复性,被迅速用于临床研究中。

然而,由于缺乏足够的数据支持,Cheson 2007并未常规推荐PET检查,且PET的评估标准不统一,因此Cheson等在2014年对指南进行再次修订(Cheson 2014,或Lugano标准,表 3)。

推荐使用Deavuille 5分法的PET-CT用于FDG高亲和力淋巴瘤[包括DLBCL,HL,滤泡性淋巴瘤(FL)和套细胞淋巴瘤(MCL)]的疗效评估,同时规定CT评估的进展是基于单个病灶的改变。

疗效评估标准在恶性淋巴瘤临床研究中的应用

2. 疗效评估标准在淋巴瘤临床研究中的应用

回顾2014~2018年报道的淋巴瘤临床研究(表4),由于大多数研究设计于2014年之前,因此Cheson 2007是最常用的评估标准。

疗效评估标准在恶性淋巴瘤临床研究中的应用

根据治疗阶段和目的,疗效评估大致分为两类:

⑴一线治疗:其目标通常是治愈和/或维持长久治疗反应,一线治疗后即进入无治疗随访期或维持治疗阶段,因此在基线时需要评估肿瘤负荷,治疗期间评估治疗反应,治疗结束全面评估,最后进入随访期监测。

⑵复发难治淋巴瘤的治疗:目标是获得治疗反应并尽可能维持,治疗一般会持续到疾病进展或不耐受,因此在确定基线肿瘤负荷后,定期随访。

3. 疗效评估标准在实际应用中的常见问题讨论

3.1 淋巴瘤的临床研究中,如何设计随访期监测?

尽管PET-CT可用于FDG高亲和力淋巴瘤的疗效评价,但并不推荐作为随访期监测。

第一原因是PET假阳性:炎症和肿瘤坏死会导致PET出现假阳性,在一项DLBCL的研究中,97例患者接受4个疗程的R-CHOP方案(利妥昔单抗联合环磷酰胺,阿霉素,长春新碱,强的松)后行PET-CT,38例(39%)PET-CT阳性患者行相应部位活检,仅5例(13%)患者经活检确认,假阳性率高达87%。

这可能与淋巴瘤化疗后的炎症反应有关。

由于化疗后的炎症反应可持续2周,联合放疗可达2~3个月或更久,因此PET扫描应在完成化疗至少3周后进行,6-8周更佳,联合放疗需要推迟到8~12周。在排除放化疗影响后,PET的假阳性率依然很高。

Zinzani等报道了421例获得CR的淋巴瘤患者(HL=160例,DLBCL=183,FL=78),在入组后的6,12,18,24个月及随后每年1次,使用PET作为常规监测手段,共检出118例发生疾病进展的患者,对其中36例PET不确定阳性(定义为不能准确解释的FDG摄取增高)的病灶进行活检,假阳性率为33%。

PET假阳性会增加患者不必要的焦虑,PET相关辐射暴露却不能带来相应的临床获益,而常规检查却通常可以早期发现疾病进展。

Thompson等报道680例DLBCL患者,接受蒽环类为基础的免疫化疗后552例(81%)获得CR,其中112例(20%)治疗后复发。64%的复发在预定随访日之前诊断,而复发的线索通常来自疾病相关症状(60%),体检异常或LDH增高(50%)。

出现上述任意一个异常的患者占90%,而单纯通过影像学发现的疾病进展仅占1.6%(9/552)。

El-Galaly等报道1221例初次CR的DLBCL患者随访数据,696例瑞典患者仅通过3~4个月一次的症状评估,体检和血液检查监测疾病进展,525例丹麦患者除了上述常规检查外还接受6个月一次的CT评估。

两组患者疾病基础状态无差异,而治疗结果(如PFS和OS)也没有任何差异,额外的CT评估没有带来临床获益。

因此,Cheson 2014不鼓励对治疗结束PET-CT阴性患者进行常规影像学监测(包括CT和PET-CT),如HL和DLBCL;影像学监测应审慎地用于一些不可治愈的,特别是有治疗后残留,且发生在腹腔,胸腔或腹膜后的淋巴瘤。

尽管Cheson 2014不推荐影像学常规监测,但临床研究中常使用CT作为监测手段。CT可以发现触摸不到的病灶,精确测量病灶大小,结果可靠且重复性好,有助于临床研究中对疗效(CR/PR/SD/PD)细致区分的要求,使得独立审评委员会(IRC)判断疗效成为可能。

在淋巴瘤临床研究监测过程中,异常的CT发现有三种可能:

⑴明确的疾病进展。结合患者临床症状和实验室检查,例如根据Cheson 2014,出现单个病灶异常(LDi>1.5cm的新病灶)可诊断PD。

⑵无法确定是否疾病进展,可考虑活检或PET-CT辅助诊断或排除PD。

⑶无法确定是否进展,可考虑定义为不确定的反应(Indeterminate Response,IR)。接受免疫治疗(包括来那度胺)的肿瘤患者,大约15%会发生由于免疫细胞聚集肿瘤微环境而出现的“假进展”,有时导致临床误判PD而过早停止治疗。

引起这些“假进展”的免疫细胞还可以刺激肿瘤局部的免疫或炎症反应,导致PET-CT也出现阳性,加剧了误判的可能性。

因此2016年Cheson等提出“不确定的反应”这一新的定义,出现下述任何一种情况,可考虑为IR:

①临床无恶化依据,开始治疗后12周内出现肿瘤负荷的增大(SPD增大≥50%);

②治疗中出现新病灶或原有病灶增大≥50%,肿瘤评估不满足PD(治疗中SPD<50%);

③一个或多个病灶的FDG摄取增高,但肿瘤大小和数量并没有增加。判断为IR的患者可以继续接受治疗,直到确定进展(活检,病灶持续增大,或疾病恶化),或疾病缓解。

3.2 一线治疗结束时的评估,如果PET和CT不一致,应如何解释?

FDG高亲和性淋巴瘤如HL和DLBCL,一线治疗结束后联合CT和PET评估治疗反应,结果不一致有两种可能:

⑴ PET阴性(PS为1-2分)而CT显示有残留病灶:由于PET相比CT和MRI等常规显像技术的优势在于能识别治疗后常见的残余病灶是坏死,纤维化还是肿瘤,因此治疗结束时的评估一般应依赖于PET结果,当PET阴性则无论CT结果均诊断为CR。

治疗结束的评估是对整个疾病的综合评价,CT作为随后的监测随访,只要CT检测的残留病灶不发生明显变化,则应维持CR的诊断。但需要注意的是,PET检测的敏感性为92.2%~100%,极少数(0.8%~7.8%)HL/DLBCL对PET不敏感(假阴性)。

⑵ PET阳性(PS为4~5分)而CT显示靶病灶LDi<1.5cm:增高的糖酵解(炎症,感染,坏死),肉芽肿疾病(肉芽瘤病),胸腺增生,棕色脂肪,集落刺激因子的使用(骨髓摄取值增高),甚至利妥昔单抗都可能导致PET假阳性,因此评估时应尽可能排除这些影响,同时参考CT的结果。

根据Cheson 2014,仅凭CT检测的靶病灶LDi<1.5cm不能诊断为CR,除非所有病灶全部消失,或CT残余病灶经PET-CT或活检证实非肿瘤,否则最多只能评价为PR。

对于PET检测PS为3分的患者,需要综合考虑评估时间,疾病特点,治疗,以及临床研究方案的具体规定加以判断。

3.3 如何选择评估者,IRC或者INV?

PFS和ORR是淋巴瘤临床研究中最常用的首要终点,准确的疗效评估常常与多种因素有关,比如测量病灶大小的准确度,审阅者主观的判断,治疗结果,患者的症状体征,影像的质量,以及对方案中选定疗效评估的理解。

任何差异都可能导致不同审阅者,甚至同一审阅者的评估结果不一致,造成研究结果的不准确。

为减少偏倚,提高评估结果的可重复性,FDA和其他监管部门推荐临床研究中使用盲态的IRC进行疗效评估,IRC可以邀请2位审阅者和1位审裁员(裁决2位审阅者不一致的意见),以及1位临床专家作出最终决定。

IRC减少了研究者评估的主观偏倚,提高了结果的可重复性,出现不一致的结果时IRC的准确性也更高。

一项通过定性研究,分析(IRC vs. INV)出现评估差异的52例NHL患者,IRC正确性高于INV(73% vs. 25%, P<0.0001)。

INV评估出现错误判断的主要原因包括:仅分析了一部分数据(31%),对方案和评估标准理解错误(56%)以及参考其他临床数据做出错误判断(41%)。

IRC与INV结果的差异可能对临床研究造成重大影响。有报道两者差异可达到30%,造成这一差异的原因各异,

比如:

⑴ 双方选定的靶病灶和非靶病灶不同,导致测量结果的不一致;

⑵研究者用以判断的依据没有正确填写(如,未填写活检结果)或无法提供(如,无法获取的外院影像学检查),导致IRC错过关键材料;

⑶ INV存在的主观偏倚。

由于INV可以获得患者更全面及时的临床信息,因此相比IRC可能判断更多的PFS,而INV评估结果(如PD)将导致患者改变治疗方案,停止原方案的影像学随访,最终由于缺乏后续疗效评估数据导致IRC的数据被删失。

IRC与INV评估各有优缺点,国际多中心研究中常常同时使用,但首要终点的评估只能二选一,比如GOYA和,MAVORIC,AHL2011和GALLIUM使用INV评估的PFS,而ROBUST和ECHELON-1则采用IRC评估的PFS。

为减少错误评估,合理降低评估差异对临床研究造成的损害, Cheson等推荐在临床研究中,可以成立一致性评估小组(ConsensusCommittee)逐个审阅不一致的患者数据,以减少评估错误。

4. 总结

统一规范的淋巴瘤疗效评估标准在新药研发中扮演了重要的角色。

自1999年起, Cheson等提出统一的淋巴瘤评估标准,并被广泛应用于临床研究中,为淋巴瘤的新药研发提供了重要的参考依据。

随着影像学技术的发展,新治疗方法的出现,以及不断积累的实证经验,逐步完善淋巴瘤疗效评估标准。

然而,由于淋巴瘤是一系列疾病的集合体,评估标准在实际使用中常常会遇到一些问题,这需要在研究设计时便能综合考虑疾病特点和治疗方案,对可能出现的问题有所准备。

保持与监管部门的及时沟通,确保淋巴瘤新药研究的科学性,为新药研发保驾护航。

疗效评估标准在恶性淋巴瘤临床研究中的应用


分享到:


相關文章: