肺結節CT圖像輔助檢測產品臨床試驗設計考慮要素舉例
一、肺結節CT圖像輔助檢測產品臨床試驗試驗設計基本類型
肺結節CT影像輔助檢測產品采用MRMC設計、交叉自身對照設計或平行對照設計。平行對照設計的具體過程及方法參考《醫療器械臨床試驗設計指導原則》相關內容。
若采用MRMC的設計,試驗過程具體為,將參與試驗的臨床醫師隨機劃分為A、B兩組。A組:醫師第一階段在使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測;經一定的洗脫期后,第二階段在不使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測。B組:醫師第一階段在不使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測;經一定的洗脫期后,第二階段在使用AI輔助的條件下完成所有數據樣本CT影像的肺結節檢測。該試驗中醫師使用AI輔助的作為試驗組,不使用AI輔助的作為對照組,對比試驗組與對照組肺結節檢測的診斷準確度指標,閱片過程中每名醫師需分別在使用AI和不使用AI的條件下都完成所有入組影像數據樣本的閱片。
二、評價指標
此類產品臨床試驗通常選擇檢出的靈敏度(以病灶為單位)和特異度(以患者為單位)等組成的復合指標,亦可在此基礎上添加受試者工作特征(receiver operating Characteristic, ROC)曲線或其衍生曲線組成復合指標,如因變量自由的受試者工作特征(free-response receiver operating Characteristic, FROC)曲線、定位受試者工作特征(location-specific receiver operating characteristic, LROC)曲線等。使用ROC曲線或其衍生曲線時,可考慮在試驗組醫師閱片階段,由閱片醫師標記對目標疾病判定的檢驗效能(可考慮百分數評分),從而構建ROC曲線,并需考慮在培訓階段明確醫師百分數評分的標準和方法。
次要指標可包括AI輔助醫師檢出目標疾病的陽性預測值/陰性預測值,似然比,Kappa系數,軟件獨立檢出目標疾病的靈敏度(以病灶為單位),軟件獨立檢出目標疾病的靈敏度和特異度(以患者為單位),閱片時間,醫生診斷信心評價,軟件功能易用性和穩定性(可采用主觀感受評價,如李克特量表等)。若同時觀察量化分析等非輔助決策臨床功能的性能表現,亦可設立相應次要評價指標。
三、樣本量估算及統計學分析
以MRMC設計為例,說明樣本量估算考慮要素,若主要評價指標為AUC、結節水平靈敏度、患者水平特異度。試驗中,檢驗的檢驗效能取80%。對于主要評價指標,優效性與非劣效統計分析將在單側0.025的檢驗水準下進行。下述內容僅為示意舉例,可根據產品具體情況合理調整相關參數:
1.基于AUC的樣本量計算,預試驗或文獻資料確認效應值取0.05,研究醫師設定為12名,AUC優效界值取0,則總樣本量不得低于87例,陰性、陽性患者比為1:1。
2.基于結節水平靈敏度,效應值取0.069,研究醫師設定為12名,優效界值取0,需陽性樣本至少116個結節,假定平均每個陽性患者存在2個結節,則至少需要58例陽性數據樣本。
3.基于患者水平的特異度,效應值取-0.055,非劣效值取0.1(參考Riverain ClearRead CT 的特異度95%區間下限),在當受試醫師為12名時,非劣效驗證(非劣效界值取0.1)需要陰性樣本達到至少157例。
綜合以上各指標樣本量估算值,本試驗樣本量最低為215例,陽性數據樣本58例,陰性數據樣本157例。考慮到樣本存在剔除和脫落的可能,當預期脫落率為5%,剔除率為5%時,陽性樣本需要達到至少62例,陰性樣本需要達到至少166例,共計228例。