新冠肺炎應急狀態下臨床試驗的設計-統計師的思考

本文的主要內容包括:

1. 臨床研究的時效性

2. 研究終點的選擇

3. 臨床研究設計方法

1)是否可以考慮採用單臂設計

2)是否可以使用不同地區的臨床數據進行非隨機對照

3)樣本量如何確定

4)是否可以以及有必要進行期中分析

5)是否適用於創新性的新型設計方法

4. 最後的分享:採用Remdesiver仿製藥進行社區干預試驗的設計。

正文部分的精彩內容來自於蔣同學。與此同時,在審稿的過程中,我們有一些有趣的討論。此外,這兩天我也看了一些關於埃博拉(Ebola)臨床試驗設計的文獻,和蔣同學的很多討論點也有相對應的地方,所以想借此與大家分享。在不影響蔣同學正文內容和徵得蔣同學同意的前提下,我會通過對話框的形式分享這部分內容。

新冠肺炎应急状态下临床试验的设计-统计师的思考

首先,需要聲明的幾點是:①以下思考和討論僅基於我們個人目前為止對疾病和疫情的認識,隨著事件的發展和認識的加深,我們後面也會有新的理解和思考;且受個人能力和水平限制,對於以下可能存在的問題,歡迎各位一起參與討論。②以下內容所涉及的臨床試驗僅基於以註冊為目的的臨床研究,由研究者發起的臨床研究不在以下討論的範疇。③以下僅為技術層面的討論。

臨床研究的時效性

之所以把這個問題放在第一個,是因為它在突發公共衛生事件下顯得尤為重要,也是下面我們無論選擇臨床終點還是研究設計方法都需要去重點考慮的點。雖然在平時由於商業考慮,申辦方也會非常注意臨床研究的時效性,但是畢竟那還不是“要命”的事。而在這一突發公共衛生事件下,它卻是在和病毒和疫情賽跑。

除了從流行病學角度防控疾病的三大手段(控制傳染源、切斷傳播途徑和保護易感者),疫苗和藥物是我們寄希望於戰勝疫情的兩大武器。但是疫苗研發會有一定的滯後性,從認識這一病毒到研發出疫苗,再到疫苗的臨床研究,即使我們的科學家爭分奪秒,夜以繼日,也需要一個過程和時間。

從歷史上來看,2003年的非典疫苗不少在完成1期臨床試驗後由於疫情的結束而終止;2009年的甲流疫苗雖然成功在國內上市,但也只是趕上了甲流爆發的小尾巴;去年美國默沙東公司埃博拉疫苗的上市也是在西非埃博拉疫情結束之後。因此,在與疫情的賽跑中,疫苗的臨床研究可能只會在後半程中才加入,通過疫苗預防來控制疫情的時效性不足。但是疫苗的研發仍然也非常重要,因此我們不知道這次疫情什麼時間結束,更不知道它是否如非典最終“拋棄”我們。

當然,在短時間內研發出一個專門治療2019-nCoV的特效藥物也同樣是很難的,最快速的是在已上市藥物中篩選出有效治療2019-nCoV的藥物(如克力芝等抗艾滋藥物),或從正在研發的其它適應症藥物中找到可能有效的藥物(如瑞德西韋),這也是現在正在如火如荼正在做的事情。

但無論採用何種方式,在與病毒和疫情的賽跑中,時間都變得尤為重要;特別是對於後一種方式而言,在疫情過程中通過科學有效的臨床研究數據獲得藥物的儘快批准上市,以儘快應對戰勝疫情,是我們此時臨床研究的主要目的;如果一項臨床研究時間較長,可能在疫情結束或快要結束時方才結束臨床研究,它也許從產品的臨床研發的角度是有意義的,但是從突發公共衛生事件應對疫情的角度意義反而就沒那麼大了。因此,

時效性是我們在設計此類臨床試驗中需要考慮的重要因素

正如蔣同學所談到的,突然公共衛生事件下,臨床試驗的時效性是極重要的問題。根據參考文獻1,在埃博拉流行中(2013-2015),埃博拉病例超過26,000例,但埃博拉病毒感染(EVD)患者的臨床開發進展甚微。

即使在 2014 年 8 月世衛組織宣佈該流行病為"國際關注的公共衛生緊急情況"之後,研究和研究資助社區在西非動員和實施臨床試驗方面都相對緩慢。下圖一體現了埃博拉臨床研究的滯後性。因為這種滯後性,很多試驗在入組患者上出現了問題,結合其它原因,並未完成試驗。相對於產生於臨床資源貧乏的環境中的埃博拉時間,面對新冠肺炎,我國應急戰略的制定以及臨床試驗的迅速開始到目前為止是成功的。

新冠肺炎应急状态下临床试验的设计-统计师的思考

y 軸顯示WHO對利比里亞、塞拉利昂和幾內亞每週埃博拉病確診例數的估計值,次生 y 軸顯示累積的臨床試驗數目

參考文獻:Ebola Clinical Trials: Five Lessons Learned and A Way Forward. N.M Thielman et.al. Clin Trials. 2016 February ; 13(1): 83–86. doi:10.1177/1740774515619897.

研究終點的選擇

這一問題雖然不是一個統計學問題,但是對我們整個臨床試驗設計至關重要。臨床終點的選擇取決於臨床醫學的建議,在這裡我主要是想談一下替代終點的考慮,以及研究終點與受試者的臨床獲益。首先,我們先看一下新型冠狀病毒感染的肺炎診療方案(試行第五版)中的疾病臨床分型

  • 輕 型:臨床症狀輕微,影像學未見肺炎表現。

  • 普通型:發熱、呼吸道等症狀,影像學可見肺炎表現的。

  • 重 型:符合下列任何一條:①呼吸窘迫,RR≥30次/分;②靜息狀態下,指氧飽和度≤93%;③動脈血氧分壓(PaO2)/ 吸氧濃度(FiO2)≤300mmHg。

  • 危重型:符合下列任何一條:①出現呼吸衰竭,且需要機械通氣;②出現休克;③合併其他器官功能衰竭需ICU 監護治療。

對於不同臨床分型的病人,對治療效果會有不同的預期。對於重型和危重型病人,降低病人的死亡率是最主要的目的;對於普通型病人,主要希望通過有效的治療減少轉化為重症肺炎的比例,進而降低疾病的死亡率,提高疾病的治癒率,縮短住院天數;而對於輕型病人,由於症狀較輕,病人本身的治癒率會相對較高,那麼通過更有效的治療藥物縮短病人的住院天數就可能是我們的主要目標。

但是,以重型和危重型病人為例,如果在平時,通過28天觀察病人的死亡情況是非常容易接受的事情,很難接受再選擇更早期的有效性終點來替代死亡率終點;但在突發公共衛生事件的緊急狀況下,與疫情的賽跑會迫使我們考慮選擇一個更早期的有效性終點作為死亡率的替代終點,以加快臨床試驗的進程。

例如瑞德西韋所採用TTCR(Time to Clinical Recovery, 臨床恢復時間)可以視為一個替代終點,它是通過對病人的體溫、呼吸頻率、氧飽和度等臨床症狀的改善來評價藥物的療效,而對於藥物抗病毒結果以及重型病人的存活狀態未在主要終點中納入;其它指標,如血氧指數、重型病人的機械通氣等也會被考慮是否可以作為替代終點以早期評價藥物的療效,但這一選擇則依賴於臨床醫學的意見和決定。

當然,在緊急狀態下采用替代終點來加快臨床試驗的進程,以使藥物可以儘早惠及於疫情中的病人,是我們可以接受的,但是對於“金標準”終點,如死亡率降低,也是從科學性上我們希望最終看到的。

瑞德西韋的兩項臨床試驗中採用的主要終點均為生存終點(time-to-event endpoint), 分別為:

  • 輕中症:到臨床恢復時間(TTCR),定義為從開始治療(Remdesivir或安慰劑)到發熱、呼吸頻率、血氧飽和度轉為正常和咳嗽緩解,持續至少72小時。觀察窗為28天,即到隨訪28天未出現臨床恢復的患者會被刪失。

  • 重症:到臨床改善的時間(TTCI),定義是從開始研究治療到入院狀態從臨床狀態的六類序數等級(從1(出院)到6(死亡))下降至少兩級所經歷的時間(天)。觀察窗亦為28天。
    六類序數表:

    6.死亡;5.重症監護病房,需要ECMO和/或IMV;4.重症監護病房/住院治療,需要NIV / HFNC治療;3.住院,需要補充氧氣(但不需要NIV / HFNC);2.住院治療,不需要補充氧氣;1.出院。

關於這兩個終點,有幾個問題一直困擾我,下午和蔣同學的討論有所啟發。雖然是停留在討論階段,也藉此把我們的討論分享給大家,希望拋磚引玉。

(1)“為什麼使用生存終點形式(類似於至緩解時間)而不是二項終點形式(類似於客觀緩解率),比如我們也可以以28天內達到臨床恢復/臨床改善患者的比率為終點。難道在新冠肺炎中,時間是一個很重要的因素嗎?”

蔣同學:“TTCR/TTCI其實也是新的終點,是替代終點(如果我們認為出院率,死亡率是“金標準”終點)。TTCR/TTCI作為終點存在不確定性,但相對於同樣框架下的二項終點,樣本量會小。”

(2)“對於中症患者,我們除了關心儘快讓他們恢復,不也應同時關心重症轉化率是否降低嗎?為什麼不考慮重症轉發率作為另一主要終點?”

蔣同學:“這個我們有考慮過,樣本量還是一個考慮方面。目前,新冠肺炎中症至重症的轉化率在20%左右,如果一個藥物特別好,把重症轉化率降低到了10%,我們算下來依然需要四五百人。當然,從我個人角度,我也覺得重症轉化率是一個非常重要的指標。”

(3)“對於重症患者, TTCI有一個問題,那就是如果患者死亡或者是其它等級爬升的惡化是會被刪失的。這合理嗎?如果一個藥物在重症患者中能降低以上定義的臨床改善的時間,卻對死亡率和危重率沒有任何降低,怎麼能被認為有效呢?”

蔣同學:“的確,目前死亡率是次要療效終點(在重症的試驗中)。但我相信,如果一個藥物在重症患者中不能降低死亡率和危重率,甚至死亡率更差(這不太可能,因為畢竟是add-on設計),也很難獲得臨床認可或者獲批。”

題外話,這兩天我也通過ClinicalTrials.gov看了下埃博拉治療性藥物的臨床試驗設計。主要藥物(Zmapp; Convalescent Plasma)的臨床試驗亦採用隨機設計,考慮到埃博拉的高死亡率(重症為70%,總體為30-40%),這兩項試驗的主要終點均為死亡率。新冠肺炎目前死亡率為2%, 終點考慮上更多的參考了FDA關於流感藥物開發的建議。

臨床研究設計方法

隨機對照試驗是我們進行臨床試驗設計最先會考慮的設計方法,特別是對於非腫瘤的確證性臨床試驗而言。但是在疫情不斷髮展的情況下,我們是否有其它更好的選擇,或者在哪些方面進行改進呢?我把最近遇到的一些問題彙總如下,供大家一起討論:

問題1:是否可以考慮採用單臂設計?

我最初對單臂設計的思路是持反對意見的。同腫瘤試驗相比,呼吸類疾病並沒有那麼agreesive, 基本沒有在確證性臨床研究中採用單臂設計來證明藥物有效性的。但是在疫情發展的緊急狀況下,特別是對於重型和危重病人而言,即使採用add-on治療(即在標準治療基礎上加上研究藥物治療),如果前期能夠看到藥物的療效,對一名瀕臨死亡的病人仍然進行隨機給藥,可能在倫理學存在很大的風險,因此在重型和危重型病人中採用單臂設計在當前狀況下未嘗不是一個選擇

但進行單臂設計,其中一個問題是歷史對照的選擇。這是我們在其它腫瘤試驗中從未遇到過的問題,因為沒有文獻,沒有任何可靠的歷史數據,只有每天官方公佈的發病和死亡數據;而且隨著一版又一版治療指南的發佈,治療方法的不斷探索,

治療療效在疫情發展過程中也是不斷的提高,因此,即使在方案設計中選擇的歷史對照,在試驗進行時就已經落伍了

基於這些考慮,我們在進行單臂試驗的同時,可以同時收集一部分歷史數據和同期外部的臨床數據,輔以對單臂試驗結果進行對照比較。當然,隨機對照設計在可行的情況下還是最佳的選擇。

問題2:是否可以使用不同地區的臨床數據進行非隨機對照?

從現在公開的數據來看,武漢地區、湖北其他地區和湖北以外其他省份的死亡率存在比較大的差異,地區因素可能是試驗中一個比較大的混雜。如果A地區使用試驗組,B地區使用對照組的非隨機對照試驗,地區混雜很可能會掩蓋或者誇大試驗藥物的療效。單臂試驗的外部對照最好也可以使用同一地區治療水平相當的醫院,或者同一醫院的不同病區,儘量減小混雜因素的影響。

問題3:

樣本量如何確定?

這類試驗樣本量估計可能會遇到前所未有的問題,沒有任何歷史數據,臨床對疾病的認識尚未明確,同樣對藥物的療效預期也尚不確定,但是突發公共衛生事件卻不允許有進行探索性臨床研究的時間。此外,診療手段的快速變化使疾病的治療效果不斷變化,即使已知的歷史對照數據,對即將開展臨床試驗的參考價值也需要考慮。因此,我們在這裡更難準確估算試驗的樣本量,更大程度上是通過對藥物療效的探索性評價來期望獲得藥物在特殊情況下的“有條件”上市批准。

另一方面,在突發公共衛生事件的緊急情況下,是否可以通過“降低把握度”或“增大1類錯誤率”的方法減小試驗需要的樣本量,以儘快完成臨床試驗呢?首先,通過降低把握度來減小樣本量是由申辦方來承擔的風險,不會對試驗結論的科學性到來太多問題,在緊急狀況下降低把握度從統計學上並非不能接受的問題,但從仍保證試驗一定的把握度考慮,它還是不能降太低。

而第二種方法“增大1類錯誤率”,則需要考慮問題是:在緊急狀況下是否可以接受獲得陽性結果的藥物,或者說批准上市的藥物存在高於單側2.5%的假陽性錯誤率?當然,在疫情緊急的情況下,藥物安全的前提下,可能大多數人都可以接受一個藥物假陽性的概率高於2.5%,因為畢竟目前為止,尚沒有發現任何針對這一疾病的特效藥物。但是,可以接受1類錯誤率增大到多少程度?單側5%?單側7.5%?這可能就不是從我們角度可以討論清楚的問題了。

問題4:是否可以、有必要進行期中分析?

期中分析從理論層面是可以進行的,在缺乏前期療效探索數據的情況下,如果可以通過期中分析儘早發現無效的藥物,並提前終止試驗,是非常好的選擇。但是從操作層面來講,在疫情爆發過程中,各個醫療機構有大量的病人,試驗應可以在很短的時間內完成入組,因此,當納入期中分析的受試者完成入組和主要療效終點隨訪(假設採用首次用藥後14天或28天的主要療效終點,如TTCR,未發生目標改善的數據會刪失在28天),整個試驗非常有可能已經完成了所有受試者入組,通過期中分析節約樣本量並沒有實際可操作性;此外,實施期中分析所有耗費的時間也是需要考慮的一個因素。時間是計劃期中分析時必須考慮的。但從另一個角度來看,即使在緊急狀態下,對於尚未上市的藥物,通過IDMC對藥物的安全性進行實時監測仍然是需要的,甚至是更有必要的。

問題5:是否可以進行其它的適應性或新型設計方法

在臨床研究中,如果發現試驗藥物的有效性,我們都會希望它在試驗中可以救治更多的病人,此時response adaptive randomization(基於療效的適應性隨機)是統計師首先想到的方法,但同時我們也需要考慮它的可操作性。

首先,adaptive randomization所基於的主要終點的分析時間點?如果如上文,希望採用首次用藥後14天或28天的主要終點進行療效分析和後續的adaptive randomization,而試驗此時已經完成了所有入組,那麼這裡的所涉及的response adaptive randomization是沒有實際意義的。也就是,response adaptive randomization必須基於更早期療效終點。

其次,我們是否有足夠的時間設計和實施response adaptive randomization以滿足緊急狀態下試驗啟動的時間計劃?例如,若採用RPW (Randomized Play-the-Winner)方法進行adaptive randomization,我們會需要進行一系列simulation對RPW不同參數的選擇提供依據,是否有足夠的時間來做這件事和進行決策?

另一方面,從實施層面,我們會希望採用IRT系統對受試者進行實時的response adaptive,那麼我們是否有及時可利用的系統?這一系統是否能夠完全滿足我們的需求?系統配置、UAT測試以及上線是否滿足試驗啟動的時間表? 這些都是從操作層面需要考慮的問題。

最後,response adaptive randomization方法對統計分析亦帶來的挑戰,它是否能夠給出無偏的統計推斷,這一直是response adaptive randomization方法學研究中經常被討論的問題,也是限制其應用的原因之一。

其它一些方法,諸如貝葉斯(Bayes)方法,是我們面對希望通過小樣本量獲得結論時經常會想到的統計方法。但是,這些方法如何立即用於實際臨床研究,是否需要進一步的文獻研究,是否需要進一步的統計模擬探索,緊急狀態下是否允許我們有這些時間去做這些事情?臨床研究者是否可以很快的理解這些設計方法?這些是實際操作過程中需要考慮的因素,更是對臨床研究參與者,尤其是統計師,知識儲備和經驗的挑戰。

在上文提到的參考文獻"Ebola Clinical Trials: Five Lessons Learned and A Way Forward“中談到了在高死亡率、動態性疫情下,從倫理上和效率上考慮,應該考慮採用平臺式設計(platform trail design)。當然,新冠肺炎的死亡率並沒有埃博拉那麼高,因此正如蔣同學已經談到的,目前的兩項瑞德西韋隨機臨床試驗在倫理上是可接受的

此外,正如蔣同學已經談到的,平臺設計可能會因為操作(包括IRT,數據管理,IDMC等)和數據分析的複雜性而犧牲臨床試驗的時效性;另一方面,平臺試驗也要求非常集中的公共衛生研究資源調配和協調,而在目前我們的公衛和監管專家們已經日以繼夜工作依然資源緊缺的情形下,缺乏可操作性。

最後的分享

總的來講,突發公共衛生事件緊急狀態下試驗設計的挑戰主要來源於兩個方面:時間的緊迫和對新發疾病的未知。在寫這篇文章的兩天中,夏結來教授給出了一個國產瑞德西韋進行社區干預性試驗的設計,在此與大家分享。

採用Remdesiver仿製藥進行社區干預試驗

鑑於新冠病毒的疫苗研究尚待時日,建議採用抗病毒藥物做社區預防,尤其在武漢及周邊高危社區或在方艙隔離區域展開臨床研究。以發病率為主要療效指標。

  1. 密切接觸者發病率預計在千分之二

  2. 干預組劑量:入組後3天採用治療劑量,以後半量維持到入組後第14天。中途發病者收治後恢復到治療劑量。

  3. 對照組:安慰劑

  4. 隨訪一個月


基於密切接觸者發病率為0.002,假定預防干預的保護率為70%,α=0.05,檢驗效能80%,按照干預組和安慰劑組1:1分配受試者,計需觀察到16例新冠感染事件。預計每組入組6000例,合計12000例受試者。

在收到夏教授的信息時,建議可使用stepped wedge design方法(不熟悉這一設計的朋友請見下方知識點),每名受試者都可以接受到試驗藥治療,會更加倫理,不過操作上會稍有複雜。另外,諸位暫不要糾結是否有瑞德西韋仿製藥的問題,可能很快就有的

新冠肺炎应急状态下临床试验的设计-统计师的思考

>

知識點:

Stepped wedge design是一種進行群隨機(cluster randomized)對照的交叉設計方法。設計示意圖見下。它只允許進行單向交叉。所有的群組在研究開始時均在對照組接受基線測量,而在接下來不同的時間點,各群組開始啟動試驗組治療。在各時間點可以有不同的群組由對照組轉向試驗組研究,但是某一個群組開始啟動試驗組治療的時間點需要進行隨機化。Stepped wedge design在社區干預類試驗和衛生政策類研究中比較常見,最早的案例是1980年底在岡比亞進行的肝炎干預性研究。

新冠肺炎应急状态下临床试验的设计-统计师的思考

在最後的最後,我們希望這場疫情早日結束,新冠病毒如非典一樣永遠“拋棄”我們不再復返。我經常開玩笑地和一些朋友說,統計學的發展都是源於人們的“慾望”。人們想在試驗過程中看看結果,統計學家搞出來了成組序貫設計和期中分析的理論方法;人們又想在試驗中間基於信息做一些調整,adaptive design的概念和理論體系應運而生;再到現在的籃子,傘和平臺試驗……這次事件的發生後,又會有什麼新的、更好的統計設計和方法提出呢?現在還不得而知,但是終歸會有一些的吧!那樣未來的下一次戰“疫”,統計師們會更從容一些,雖然每一個人都希望這一次戰“疫”就是最後一次。

蔣志偉,統計師一名,畢業於第四軍醫大學,師從夏結來教授。先後在濟南軍區總醫院(現960醫院)和默沙東從事統計工作,現是北京康特瑞科公司負責人。

生物統計興趣點:group sequential design & interim analysis; adaptive design method; propensity score; Bayesian methods on surrogate endpoint; Multi-Regional Clincial Trial (MRCT) design

最近在做的有意思的事:push to apply innovative designs from onco tonon-onco trials

新冠肺炎应急状态下临床试验的设计-统计师的思考

關注醫咖會,及時獲取最新研究動態


分享到:


相關文章: