肺栓塞放射学报告的深度学习:计算机正在阅读我的报告吗
提到深度学习这个词,反应往往从恐惧到热烈的热情。深度学习,也称为人工智能,真的是放射科医师末日的预兆吗,仅仅是最新的计算机极客时尚,还是它实际上可能在放射学和医疗保健中发挥积极作用? 在本期Radiology中,Chen 等报告了使用深度学习卷积神经网络 (CNN) 自然语言处理模型从胸部计算机断层扫描报告中提取肺栓塞 (PE) 结果(即确定是否存在 PE)。从结果和影响的角度来看,他们研究的一个重要方面是他们使用自由文本报告(即不是基于模板),这增加了问题的复杂性。人们可能会质疑使用自由文本报告是否会影响结果的可重复性,但作者也提到了这一点。他们在内部(同一机构)和外部(另一机构)数据集中测试了这两种工具,尽管外部数据集中的性能略有下降(几乎总是发生),但该方案仍然表现良好。即使具有这种复杂程度,与最先进的工具 PeFinder 相比,Chen 等人使用的方法在用于分类的内部数据集中的 F 1分数(0.938 vs 0.867)明显高于 PeFinder报告为 PE 阳性或 PE 阴性,尽管在敏感性、特异性或准确性方面没有显着差异。内部数据集中急性 PE 与慢性 PE 的分类也没有差异。对于外部数据集,PE 阳性或 PE 阴性的任何指标的性能都没有差异,并且 PeFinder 在急性或慢性分类方面表现更好(F 1评分、敏感性、准确性)。这些发现提出了一些有趣的观察和问题。
首先,如何才能在一个指标上获得显着性而不在其他指标上获得显着性?大多数放射科医生都熟悉敏感性、特异性和准确性。然而,除非熟悉模式识别、深度学习和相关领域,否则F 1分数可能更像是一个未知指标。F 1(也称为 F 分数或 F 度量)用于通过使用精度和召回率的加权平均值(或调和平均值)来评估测试(或本例中的 CNN)的性能。它适用于人或机器做出的选择或决定是二元的(例如,PE 存在与不存在或急性与慢性)。在这种情况下,精度是正确阳性结果的数量(CNN 正确识别 PE 阳性报告)除以所有阳性报告的数量,或者用放射科医生更熟悉的语言,真阳性结果除以真阳性结果加上假阳性结果(阳性预测值)。召回率是阳性结果的数量除以应该被称为阳性的阳性结果的数量,或真阳性结果除以真阳性结果加上假阴性结果(即敏感性)。换句话说,就像使用接收器操作特征分析时一样,指标的组合和加权通常可能比单个指标揭示的更多,从而给出不同的结果。这并不是说这是这些类型评估的最佳绩效衡量标准。
与任何统计方法一样,从来没有一个完美的度量标准,并且已经指出了与 F 1分数相关的限制(例如,偏差),并提出了各种其他替代方案。不管一种评估指标或技术与另一种相比的优点如何,这提出了一个问题,即我们是否应该考虑采用标准指标来评估不同的深度学习方案,以便更容易和客观地比较结果。与计算机辅助检测发展的早期一样,是否应开发标准且经过适当管理的数据集并公开提供的辅助问题也出现了。这两个问题的答案都是肯定的,尽管在逻辑上很难完成。
关于这些类型的应用程序中使用的数据集,在考虑结果的临床意义时,应始终考虑某些问题。在 Chen 等人的研究 中,无论是有意还是仅仅因为可用报告的性质,他们都解决了任务的复杂性,这是我一直考虑的关键点之一。显然,使用自由文本报告比使用标准化语言的基于模板的报告更困难——对计算机和人类来说都是如此!为了帮助解决这种复杂性,需要额外的问题和答案:(a)有多少放射科医生为这些报告的生成做出了贡献(因为报告风格和语言使用差异很大)?(二)贡献者都是心胸放射科医师吗?(c)报告持续了多长时间(例如,那些有 PE 发现的报告平均比那些没有报告的报告更长)?(d)报告中的发现数量是多少(复杂程度)?
通过基于图像的深度学习研究,这些细节可能变得更加相关,并且必须提出其他问题:(a)正在考虑的发现有多微妙(例如,它们在临床解释过程中是否被遗漏)?(b) “正常”案例有多难(例如,该工具是否有机会产生假阳性结果)?(c)临床实践中是否真的需要这样的工具(例如,该任务在临床上是否与敏感性和/或特异性较差相关)?( d )选择该任务是因为一组具有给定异常的图像碰巧很容易获得(就像使用乳房 X 光图像的研究经常出现的情况一样)?在决定深度学习调查的结果是否可能对临床实践产生影响时,应始终考虑这些类型的问题。
Chen 等人提出的另一个许多作者未能解决的问题是他们的工具为何以及何时失败。他们使用了一种有趣的可视化技术(损失函数相对于每个词向量输入变量的偏导数的 L1 范数作为每个词的重要性得分)来帮助确定哪些词导致了 CNN 结果(他们文章中的图 3 )。这种类型的分析(尤其是作为可视化)不仅有助于进一步优化这些类型的方案,而且(在文本和图像应用程序中)也可以告知潜在用户的输出,以更好地理解和了解一个方案的优缺点。给定方案,因此它可以最有效地用于临床决策情况。
最后,还有接下来会发生什么的问题。陈等 表明他们开发的工具类型可用于各种应用,包括但不限于诊断监测、队列建设、质量评估、计算机视觉数据标签和临床决策支持系统。所有这些都可能对未来有益;但是,还需要进行一些进一步的研究。如上所述,进一步优化以降低错误率(尽管不太可能达到零)是必不可少的,正如作者所指出的,其中一部分涉及将工具应用于更独立的数据集;这在某种程度上是基础。在我看来,下一阶段是实用性。我们如何才能使这些工具易于获得并以“友好”的形式为非专家提供?在分析得到验证并且用户友好的程序可供公众使用之前,接收器操作特征分析(及其许多变体)并未被非专家广泛使用。在这个领域也需要发生同样的事情。
此外,如果要在临床上使用这些工具,我们需要通过评估它们将在何处、何时以及如何最有效地使用它们来将它们集成到工作流程中,而不会给放射科医生已经复杂的决策环境增加额外的负担。最后,未来的工作需要解决与集成和有效和高效实施相关的另外两个基本问题。第一个问题是工具(以及评估方法,如接收器操作特性分析)需要超越二元决策,如果它们要真正帮助放射科医师做出需要做出的复杂决策,而这些决策通常不是二进制。第二个问题可能更复杂。迄今为止开发的大多数(如果不是全部)深度学习技术都是 unitaskers。它们涉及单一类型的图像或模式和单一疾病实体。在某些情况下,这可能是完全合适和有用的,但从长远来看,我们不能有过多不同的独立方案来提供放射科医生需要以某种方式筛选才能理解的大量“意见”。未来的研究将需要开发方法来整合和优先考虑这些不同的产出;它们必须以有意义的方式呈现给放射科医生,不会导致信息过载,并且实际上可以改善决策过程。但从长远来看,我们不可能有过多不同的独立方案来提供放射科医生需要以某种方式筛选才能理解的大量“意见”。未来的研究将需要开发方法来整合和优先考虑这些不同的产出;它们必须以有意义的方式呈现给放射科医生,不会导致信息过载,并且实际上可以改善决策过程。但从长远来看,我们不可能有过多不同的独立方案来提供放射科医生需要以某种方式筛选才能理解的大量“意见”。未来的研究将需要开发方法来整合和优先考虑这些不同的产出;它们必须以有意义的方式呈现给放射科医生,不会导致信息过载,并且实际上可以改善决策过程。
尽管这项研究没有解决自由文本与基于模板的报告的优点问题,但我想到了一些有趣的含义。根据北美放射学会的报告倡议 ,报告模板的好处包括改善与其他护理提供者的沟通、满足认证标准和质量措施、获得按绩效付费的奖励、为结果研究提供更好的数据分析、通过提供更一致和数据丰富的报告,增加放射学服务对患者和转诊医生的价值。可以像 Chen 等人使用自由文本报告完成其中的任何一项?正如作者所指出的,未来的目标是比较该工具在自由文本和基于模板的报告上的性能。性能已经很高,因此模板报告的任何改进都可能是渐进式的——尽管显然该工具最佳运行的介质是一个重要的考虑因素。
显然,这些类型的深度学习工具对于搜索数据库、分类成像结果和协助基于人群的研究很有用,但它们也可能对临床实践产生影响。假设,人们可以想象这样一种场景,这种深度学习工具可以基本上实时运行,从自由文本报告中提取关键信息,并编写一个版本,以定制个别转诊临床医生的需求和/或偏好,如以及患者,从而满足北美放射学会指出的报告模板的许多好处。显然,该工具的当前版本并没有这样做,但它似乎是可行的。随着进一步的发展,这种类型的工具还可以与电子健康记录集成,这样一旦 CNN 检测到关键发现(在这种情况下为 PE),就会向推荐人和其他相关提供者设置自动警报,从而改善治疗的效率和效果。为此,未来的深度学习发展将受益于图像感知和人为因素专家的工作,以更紧密地满足放射科医生的需求。
页:
[1]