2022年3月9日,美國食品藥品監督管理局CMDE發布《人工智能醫療器械注冊審查指導原則》。本指導原則適用于人工智能醫療器械的注冊和申報,包括第二、三類人工智能獨立軟件和含有人工智能軟件組件的醫療器械(包括體外診斷器械)。適用于自研軟件的注冊和申報,現成軟件組件參照執行,不適用于外部軟件環境。也可作為人工智能醫療器械系統驗證的參考。如果質量管理軟件采用人工智能技術實現其功能或用途,也可以參照本導則的適用要求。
從上面可以看出,這個指導原則只是針對軟件部分,對于硬件部分,要按照常規的醫療器械產品進行研究、生產和質量控制。
1.人工智能醫療設備的定義
人工智能醫療器械是指基于“醫療器械數據”,利用人工智能技術實現其預定用途(即醫療用途)的醫療器械。
醫療器械數據是指醫療器械產生的用于醫療用途的客觀數據,如醫學影像設備產生的醫學影像數據(如x光、CT、MRI、超聲、內窺鏡、光學等圖像),醫療電子設備產生的生理參數數據(如心電、腦電、血壓、無創血糖、心音等波形數據),體外診斷設備產生的體外診斷數據(如病理圖像、顯微圖像、有創血糖等)。在特殊情況下,一般設備(非監管對象)產生的醫療用客觀數據也屬于醫療器械數據,如用于皮膚病診斷的數碼相機拍攝的皮膚照片、用于心臟病預警的健康電子產品采集的心電數據等?;卺t療器械數據,包括醫療器械數據的生成和使用,包括單獨使用醫療器械數據或聯合使用非醫療器械數據(如患者投訴信息、檢驗報告結論、電子病歷、醫學文獻等。).
可見,基于非醫療器械數據的醫療人工智能產品,或者利用人工智能技術實現非醫療用途和非醫療器械功能的醫療器械,都不是人工智能醫療器械。因此,醫療相關的人工智能產品是否按照醫療器械進行管理,應根據相應的分類和定義指導原則進行判斷,必要時申請醫療器械分類和定義。
2.人工智能醫療設備的風險管理
《指導原則》中涉及的人工智能醫療器械只是軟件部分,所以下面只討論軟件部分的風險管理。人工智能醫療器械軟件的風險等級也可以用軟件安全等級來表示。軟件安全級別越高,其生命周期的質量控制要求越嚴格,注冊和申請材料越詳細。同時,由于新型的潛在未知風險比成熟型多,需要結合成熟度綜合考慮。人工智能醫療器械軟件安全等級的判定依據:基于產品的預期用途、使用場景和核心功能進行綜合判定,其中預期用途主要考慮使用類型、重要性、緊急程度等因素;使用場景主要考慮使用場景、疾病特點、適用人群、目標用戶等因素;核心函數主要考慮函數類型、核心算法、輸入輸出、接口等因素。也可以根據風險管理確定的風險等級來判斷。軟件安全級別和風險級別的分類可以不同,但兩者之間存在對應關系。因此,可以根據風險等級來判斷軟件的安全級別,但要在采取風險控制措施之前進行判斷。
人工智能醫療器械的主要風險:
從算法的角度來說,包括過擬合和欠擬合,其中過擬合是指算法對訓練數據進行過學習,將非普遍規律作為重要特征,而欠擬合是指算法由于對訓練數據學習不足而遺漏重要特征,會降低算法的泛化能力。
從使用角度來看,輔助決策主要包括假陰性和假陽性,其中假陰性為漏診,可能導致后續診療活動的延誤,尤其應考慮快速發展疾病的診療活動延誤的風險,而假陽性為誤診,可能導致不必要的后續診療活動;非輔助決策根據算法設計的目標能否達到,可以分為假陰性和假陽性。
此外,人工智能醫療器械的進口還需要考慮中外差異的風險,如民族差異、流行病學特征、臨床診療規范等差異。
3.人工智能軟件開發過程與常規軟件的主要區別
需求分析
除了與常規軟件相同的需求,即面向用戶和面向風險,結合產品的預期用途、使用場景和核心功能,法規、標準、用戶、產品、數據、功能、性能、接口、用戶界面、網絡安全、告警和提示等方面的要求。數據收集的要求、算法性能、使用限制等。也應該被考慮在內。
(2)數據庫建設
數據采集基于合規性要求,主要考慮數據采集、數據整理、數據標注、數據集構建等活動的質量控制要求,以保證數據質量和算法訓練效果。
數據采集應考慮采集設備、采集過程、數據脫敏等質量控制要求,建立數據采集操作規范。歷史數據也可用于數據收集,應結合樣本量、收集難度等影響因素合理選擇數據收集方法。如果適用,數據收集應得到倫理委員會的批準。
數據整理以原始數據庫為基礎,考慮數據清洗和數據預處理的質量控制要求。數據清洗要明確清洗規則、方法和結果,數據預處理要明確處理方法(如濾波、增強、重采樣、大小切割、均勻化等。)和結果。用于數據整理的軟件工具(含腳本,下同)應明確名稱、型號規格、完整版本、生產廠家和運行環境,并確認軟件。數據標注作為監督學習數據質量控制的關鍵環節,需要建立數據標注操作規范,明確標注資源管理、標注過程質量控制、標注質量評估等要求。
基于標記數據庫建立訓練集(用于算法訓練)、調優集1(用于算法超參數調優,如果有)和測試集(用于算法性能評估),定義訓練集、調優集和測試集的劃分方法、劃分依據和數據分布比例。原則上訓練集要保證樣本分布均衡,測試集和調優集要保證樣本分布符合真實情況。訓練集、調整集和測試集的樣本應該沒有交集,并通過重復檢查進行驗證。
(3)算法設計
1)算法選擇
算法選擇提供名稱、類型(如監督學習、非監督學習、基于模型、基于數據、白盒、黑盒)、結構(如層數、參數尺度)、輸入輸出數據類型、流程圖、算法編程框架、運行環境等基本信息。并定義了算法選擇的依據,包括選擇的理由和基本原則。
2)算法訓練
算法的訓練和調優要以訓練集和調優集為基礎,考慮評價指標、訓練模式、訓練目標、調優模式、訓練數據量-評價指標曲線等要求。
3)算法性能評估
算法性能評估作為軟件驗證的重要組成部分,需要基于測試集對算法設計結果進行評估,綜合考慮假陰性和假陽性、可重復性和再現性、健壯性/魯棒性、實時性等適用的評估需求。以驗證算法性能滿足算法設計目標,并作為軟件驗證和軟件確認的基礎。算法性能評估也可以基于第三方數據庫進行(見后文)。
(4)驗證和確認
軟件驗證和確認的過程與常規的非人工智能軟件相同。軟件驗證的測試可以由預期用戶基于用戶需求或基于評估數據庫在真實或模擬的使用場景中執行。
4.人工智能醫療器械臨床評價要求
人工智能醫療器械的臨床評價應以核心功能或算法為基礎,結合預期用途和成熟度。非輔助決策功能應基于核心功能與同類醫療器械進行比較,新功能、算法和用途原則上應進行臨床評估。輔助決策功能是基于核心算法對同一品種的醫療器械進行比較。同品種入選醫療器械的臨床證據原則上應以臨床試驗(包括回顧性研究)為基礎,新功能、算法和用途原則上應以臨床試驗為基礎。
同時,對算法性能進行了對比分析。若各種測試場景(包括臨床評估)的算法性能差異較大,則詳細說明原因,并根據分析結果定義產品使用限制和必要的警示信息。
最后,基于算法訓練、算法性能評估和臨床評估的結果,對算法性能進行綜合評估。針對訓練樣本量和測試樣本量過小,測試結果明顯低于算法設計目標,算法性能變異過大的情況,需要對產品的適用范圍、使用場景和核心功能進行限定。5.人工智能醫療器械相關技術研究
1)移動計算和云計算
人工智能醫療器械使用移動計算、云計算等技術的,應當遵循相關指導原則。
人為因素和可用性
2)建議加強人工智能醫療器械的人因設計,以提高可用性,將用戶誤操作的風險降低到可接受的水平,尤其是軟件用戶界面。
3)壓力測試
注冊申請人需要根據產品的實際情況進行壓力測試,以全面深入地評估算法的性能,必要時可以引入對抗樣本進行對抗壓力測試。未進行相應測試或者測試結果不佳的,應當限制產品的適用范圍、使用場景和核心功能,并在說明書中載明產品使用限制和必要的警示信息。
4)對抗測試
建議注冊申請人進行對抗測試,全面深入地評估算法性能。如果沒有進行相應的檢測或者檢測結果不好,需要明確產品使用限制和必要的警示信息。
5)算法研究報告
人工智能算法或算法組合首次和再次發布時,應提交算法研究報告,包括算法基本信息、算法風險管理、算法需求規范、數據質量控制、算法訓練、算法驗證和確認、算法溯源分析、結論等。
6.人工智能醫療器械注冊信息要求
1)算法研究數據(報告)
對于軟件安全等級為中或重度的產品,新類型將提交軟件研究材料中每個人工智能算法或算法組合的算法研究報告。成熟型:在軟件研究資料中指定算法的基本信息即可,無需提供算法的研究資料。對于軟件安全級別稍低的產品,在軟件研究資料中注明算法的基本信息即可,無需提供算法的研究資料。
2)用戶培訓計劃
對于軟件安全等級為重度的產品,預計將由患者或基層醫療機構使用,原則上應提供單獨的用戶培訓計劃,包括用戶培訓計劃、材料、方法、師資等。
3)產品技術要求
產品技術要求可以不包含基于評價數據庫測試的性能指標,也可以包含。如果包含索引,則評價數據庫的基本信息(如名稱、型號規格、完整版本、責任方、主要文件登記號等。)應在附錄中明確定義。
基于其他類型第三方數據庫測試的性能指標原則上不需要在產品技術要求中體現。
4)說明
與其他軟件產品相比,人工智能醫療器械的說明書需要增加以下內容:
1)對于決策型產品,說明書需要明確算法性能評估概要(測試集基本信息、評估指標和結果)、臨床評估概要(臨床數據基本信息、評估指標和結果)、決策指標定義(或提供決策指標定義所依據的臨床指南、專家共識等參考資料)等信息。
2)如果采用基于數據的人工智能算法,說明手冊需要補充算法訓練總結信息(訓練集基本信息、訓練指標和結果)。
3)產品采用人工智能黑盒算法的,需根據算法影響因素的分析報告,在說明書中明確產品使用限制和必要的警示信息。
Copyright ? 2017 深圳市瑞恩尼醫療器械管理咨詢有限公司 地址: 深圳市光明區光明街道東周社區璟霆大廈1407室 電話:0755-27391220 粵ICP備17083738號