原文:Walradt T, Glissen Brown JR, Alagappan M, Lerner HP, Berzin TM, Regulatory considerations for artificial intelligence technologies in GI endoscopy, Gastrointestinal Endoscopy (2020), doi: https://doi.org/10.1016/j.gie.2020.05.040
发表时间:2020年6月2日
译者说明:本文是由来自哈佛医学院(胃肠病学/肝病学)高级内镜中心多名研究人员和FDA(美国食品药品监督管理局)前官员共同撰写,对美国现行的有关AI技术(人工智能)用于胃肠道内镜检查相关医疗器械软件产品的监管规定做了详细的整理和分析,并对下一步监管方向做出了预判。因此本文一定程度代表了这一技术领域和相关产品发展的最新进展和监管的最新动态。
引言
AI (人工智能)技术正越来越多地用于临床医学的各种挑战,并且其发展前景被寄予厚望1。AI的一个子集是机器学习,即,一种计算机无需明确指令,就能使用数据执行任务的技术。在过去5年里,业界开发了许多应用于临床医学的、基于AI的诊断技术并获准上市,如糖尿病视网膜病变的鉴定和皮肤恶性肿瘤的诊断2,3。
值得一提的是,在改善胃肠道内镜检查的临床性能方面,AI技术被证明颇具前景。在过去十年中,许多研究团队使用内镜的静止图像和视频数据4-7,开发出新型的计算机辅助息肉检测(CADe)和计算机辅助息肉诊断(CADx)系统。在过去3年中,几项测试CADx和CADe系统的前瞻性临床试验已经证明了这些技术在现实世界中的可行性。2018年,Mori等人进行了一项单中心、开放标签、前瞻性研究,测试了采用深度学习技术的CADx系统Endobrain诊断微小直肠乙状结肠息肉的准确性方面的性能8。EndoBrain CADx技术后来获得了日本监管机构药品和医疗器械管理局(PMDA)的上市批准9。不久,Wang等人10发表了测试CADe在结肠镜检查中作用的首个随机临床试验,证实ADR显著增加(29.1%vs 20.3%,p < 0.001),该显著增加主要得益于微小腺瘤的检出增加。最近Wang等11又发表了一项双盲随机临床试验,再次证明了相类似的结果。值得注意的是,目前的CADe文献在很大程度上显示出微小腺瘤检测的改善,但其临床获益仍有争议12。下一步还需要扩大测试规模,就CADe是否能够增强右半结肠段高风险无蒂病变的检出进行测试,这一测试重要性在于,尽管该病变不太常见,但具有更高的临床相关性。
人们将CADx和CADe技术广泛用于胃肠道内镜检查,评估这些技术的其他随机试验也正在进行当中,就如何能做出高质量的研究,业界已经有着清晰的实施路径和方法13,14。随着这些技术实现商业化应用,我们还应重视对其实际使用效果的追踪研究,包括内镜检查效率和总体成本。尽管这类产品系统可能需要我们付出大量的预付成本,但如果在性能方面能保持足够的有效性,还是可以期待其为诊断和治疗带来许多进步。例如,利用此类技术,或可促进“当场切除并弃置”医学范式的实施;美国胃肠内镜学会(ASGE)此前提出,如果一项技术显示出超过腺瘤组织学阴性预测值≥90%的诊断阈值,则在此技术诊断下的小息肉可以当场切除并且无需再做活检。
随着AI在胃肠道内镜检查应用领域当中性能的不断改善和发展,与之相对应的监管路径也需要同步做出调整和改进,以应对未来AI技术越来越多地用于患者临床护理这一特殊机会和挑战。为了更好地进行应对,下面我们会详细介绍目前对AI技术的法规监管框架及可预见的监管改进。而且,我们下面会把关注重点放在CADx和CADe的监管进化轨迹上,毕竟,在胃肠道内镜检查领域,这两种AI应用已经获得了很多已发表的临床数据,可信赖程度最高。
AI技术的上市审批监管框架
美国食品药品监督管理局(FDA)建议从两个角度评估基于AI开发的软件。第一个角度聚焦于风险的判断。将算法根据风险高低进行分类的方法是基于国际医疗器械监管机构论坛(IMDRF)建立的框架,详见后文进一步介绍。第二个角度聚焦于软件产品是否为“锁定”的算法,还是具备自主学习和自动进化的能力。所谓“锁定”的算法,即产品的性能固定不变。
风险分类
IMDRF是各国监管部门协调合作的组织,对“软件型医疗器械”(SaMD)提出了4个风险等级,每种风险等级要满足不同要求,以评估技术的科学性和临床有效性16,17。风险等级范围为I至IV,根据SaMD所提供信息的重要性(例如,治疗或诊断、驱动临床管理、提示临床管理)及其治疗的疾病状态(例如,危重、严重、非严重)进行风险等级划分(表1)17。
表1 SaMD分类,范围为I.I至IV。i根据医疗健康状态和IMDRF提议的所提供信息的重要性进行定义。来源:改编自IMDRF的软件医疗器械(SaMD)工作组的文件17,37
在胃肠病学中,用于检测和诊断结肠息肉的CADe和CADx技术尚未确定风险等级。如何区分这两种技术,FDA认为两者的关键判别是,这个技术是“驱动”了临床管理,还是“提示”临床管理结果。术语“提示临床管理结果(inform clinical management)”是指软件“在治疗、诊断、预防或缓解疾病或病症的活动中提示可采纳的选项”。17 “驱动临床管理”一词,则是指软件有可能“通过分析相关信息,辅助做出诊断,帮助预测疾病风险/健康状况,或对做出明确诊断有所助益”。17 我们现在暂时认为大多数CADe和CADx技术将被视为“驱动临床管理”类型的技术,因此可能被分配到IMDRF 的I类或II类风险级别。风险级别III可能适用于某些用于分辨增生和癌症的CADx技术。例如,对增生的Barrett食管是做内镜消融,还是内镜或手术切除,指导做出此类决策的技术可能划为III类。
软件升级能力
软件技术和产品其应变性各不相同。其中,具有实时从数据中学习能力的AI技术代表了一种极端的情况。快速和自主学习的这一特征意味着此类技术的临床性能,例如CADe息肉检测的准确性,可以在临床使用过程中不断演变和改善。与之相对应的是“锁定”算法,这种产品则无论使用多久,只要输入相同的内容,其输出结果是始终不变的。还有一种更常见的情况是处于中间状态的,那就是,即使该技术本身不具备自主学习的能力,大多数软件也会不断改进,产生迭代版本。按照现行FDA指南,自主学习和迭代版本的这些改进都将触发审查,因为它们可能影响软件的性能、输入或预期用途18。尽管现在已经有几项在胃肠病学领域研究CADe/CADx的前瞻性试验,但这些技术目前都还没在美国获得许可8,10,11,19。国际范围内,有一款CADx平台已在日本获得批准,一款CADe平台已在欧盟获得批准9,20。然而,这两款平台都使用的是“锁定”算法。我们预计,美国胃肠病学领域可用于CADe或CADx的首批算法也将是“锁定”算法,但有可能进行有计划的迭代版本更新,以改善性能。我们的预判是,结合了持续学习能力的AI工具可能在未来5年内被开发出来,用于胃肠病学的临床使用。
美国药监局有关法规现状及进展
现行监管法规
FDA目前对SaMD的审批流程源自其对一般医疗器械的审批流程。通过与前面所述的软件风险分类相似的方式,FDA为医疗器械设定三个风险等级:I类(最低风险)、II类(中等风险)和III类(最高风险)21。根据其分类,FDA对医疗器械实施一般或特殊控制。所谓一般控制的管理规定,适用于所有医疗器械,包括产品的注册和品牌。特殊控制则是根据器械特异性产生的监管要求,包括性能标准和上市后监督。I类器械(如检查手套)仅受一般控制,其中95%免于更多监管。II类器械,如无创血压监测仪,受一般控制和特殊控制。III类器械,如人工心脏瓣膜,这种用于维持或支持生命或植入人体的器械,需要提供足够的安全性和有效性证据才能获得批准上市,FDA对此类产品的监管要求最高。
在对器械做风险等级划分之后,FDA审批流程的下一步是审查企业的上市前递交文件。上市前递交文件的有关要求,根据器械的风险和创新程度而变化。大多数II类器械的上市获批路径是获取“上市前通知”,也称为510(k)。为了获得510(k),器械申请方须证明其器械“实质等同于”现有已经过FDA批准的器械。如果不存在实质等同器械,则II类器械的申请方须走“申请重新分类(De Novo classification)”的路径,将需要提交更多材料,以确凿详实的数据证明器械的安全性和有效性23。目前许多已通过FDA批准的基于AI技术的SaMD,都是要么通过510(k)途径,要么通过De Novo途径获批的23。例如,OsteoDetect,一种基于AI的软件,分析x线片以帮助临床医生诊断桡骨远端骨折,走的是De Novo路径24。其后,一款基于AI的、辅助检测乳腺癌的软件,ProFound AI,就通过将OsteoDetect作为实质等同器械获得了510(k)25。
医疗器械制造商在产品获批后,通常后续会对器械做改进和更新。为了指导企业什么情况下对器械所做的改进需要FDA额外审查,FDA在2017年发布了一份题为“决定何时提交现有器械变更的510(k)”的指南文件,该文件建议对于510(k)初次审查和获批的器械,软件修改如有下面情况发生的,需提交新的上市前申请:a)引入新的风险或现有风险发生变化,从而有导致重大伤害的可能性,b)变更风险控制措施以防止重大伤害,或c)显著变更临床功能或性能参数的26。
在当前的FDA监管框架下,我们认为CADe和CADx工具将被归类为II类器械,因为它们虽具有中等风险和复杂的设计,但不可植入、不用于维持生命。与OsteoDetect和ProFound AI相类似,我们预计第一代CADe和CADx工具将通过De Novo的途径申报上市,随后的几代产品可能只需要510(k)。已上市的CADe和CADx产品如果要增加新的临床功能,所做改良和迭代可能需要再进行510(k)申报。
法规瞭望
上述现行FDA监管体系,适用于采用“锁定”算法的软件技术。快速迭代的AI算法,或结合连续学习能力的AI算法,对监管部门来说意味着更复杂的挑战,因为目前的监管过程不太适用于这些产品的自然演变特性。
为了应对这些挑战,FDA提出了一个针对AI技术的新监管体系。在其“数字健康创新行动计划”(Digital Health Innovation Action Plan)中,FDA专门设计了软件预认证(Pre-Cert)试点项目,为SaMD设计了精简的监管模式,主要适用于依赖持续学习和自适应的AI技术产品27。这种新的监管方法和监管思路主要是评估软件开发方,而不仅仅审查软件本身。FDA将首先筛选出符合要求的公司,譬如,这些公司必须展现出稳健的质量文化和卓越的组织能力、并能长期监测产品投入市场后的使用情况。FDA认为,这些经过了预先认证的公司,在其软件产品的整个开发过程中能够更为可靠地满足安全性和有效性标准,因此后续的SaMD升级迭代,可以通过简化审查方式进行监管27。
Pre-Cert监管模式是先对软件公司进行评估28。FDA根据预认证流程,将公司分入2个级别。1级预认证适用于在5个关键领域(产品质量、患者安全、临床责任、网络安全责任和积极文化)表现卓越,但尚无SaMD上市记录的组织。2级预认证适用于在五个关键领域表现卓越,并已有SaMD28上市记录的组织。公司分级后,FDA再评价其生产的SaMD该分配至IMDRF的哪个风险类别。
在FDA的数字健康创新行动计划设计中,SaMD适用何种审查路径,将统筹考虑公司的预认证级别、IMDRF风险类别和器械首次上市产品/变更的情况分类(表2)。FDA还对已上市器械的变更,进一步分为“微小变更”和“重大变更”。所有这些数据点将有助于确定软件/算法修改是否可以在不审查的情况下进行,或者是通过“简化”审查进行。简化的审查过程将侧重于了解产品、软件功能、预期用途、分析性能、临床性能和安全措施28。虽然仍包含当前上市前申请审批的要素(例如:510(k)、De Novo重分类),但有了公司的预认证,FDA审查过程涉及的要素会针对产品进行提炼。
表2 SaMD技术所需的审查等级由风险类别和审查阶段确定。来源:美国FDA发布的“开发软件预先认证程序(Developing a Software Precertification Program)”。28 SR,代表“简化审查”。
预认证项目最终是由收集到的有关健康、用户体验和产品性能的真实世界数据所组成的。FDA将使用这些数据来监测产品持续的安全性和有效性、支持宣称的性能改进、为首次认证提供证据,并为FDA28提供反馈。在胃肠道内镜领域,后面提到的这个设想并不容易做到。要知道,放射学有着集中质量监测的悠久传统,并且一直以来都有存储/共享成像信息的行业标准,例如,20世纪80年代由美国放射学会和国家电气制造商协会制定的DICOM标准29。,而这样的前提条件在胃肠病学领域却不具备。因此在胃肠病学领域,业界也需要往这个方向努力,要达到这样的成果,可能还需要由专业协会领导,以便在未来胃肠镜检查领域可以开发出数据科学基础设施,才能进一步达到足以支持AI算法所需的持续安全性和有效性监测的目标。
2019年,FDA已经与9家公司一起开始测试Pre-Cert项目30。该监管框架代表了FDA在解决非“锁定”AI技术相关的潜在监管负担方面迈出的重要一步,尤其是对于胃肠病学领域的CADe和CADx工具。该做法应该能使FDA在产品的整个生命周期内,对新SaMD和已上市SaMD的改进提供更灵活的监管。
其他国家的审批流程
全球各国的相关监管部门也认识到需要一套新的监管系统来应对基于AI的SaMD的独特特征。包括中国、欧盟、日本、澳大利亚、阿拉伯联合酋长国和加拿大在内的国家都启动了制定针对SaMD31-36的政策的努力。虽然每个国家和管理机构都有专门的程序来批准和管理软件技术,但其中许多具有相同的核心原则:指定风险、审查临床证据以证明安全性和有效性,以及不断发展的实践以纳入新型快速发展的软件技术。FDA在该领域的努力似乎是国际社会中最成熟的,因此我们衷心希望上述讨论的框架可为其他监管部门提供范式和参考。
当今世界正涌现出越来越多基于AI的器械产品,支持胃肠道内镜检查临床实践。为了使这些技术安全有效地整合到临床实践中,监管机构必须能够使用稳健和实用的新方法评价和监测这些技术。尤其是FDA正在为开发有效的监管途径迈出坚实的脚步,以实现这些目标。由于结肠息肉CADe和CADx领域可见的技术进步和临床试验进展,我们预计不久的将来,临床医学中AI的使用,将由胃肠病学领域主导。