高危乳腺病变:预测病理升级和减少不必要手术切除的机...
高危乳腺病变:预测病理升级和减少不必要手术切除的机器学习模型目的开发一种机器学习模型,该模型允许将需要手术切除的图像引导穿刺活检诊断出的高危乳腺病变 (HRL) 与手术中升级为癌症风险低的 HRL 区分开来,从而可以进行监测。材料和方法确定了 2006 年 6 月至 2015 年 4 月连续接受手术或至少 2 年影像学随访的经活检证实的 HRL 患者。开发了一个随机森林机器学习模型来识别低风险升级为癌症的 HRL。模型中使用了年龄和 HRL 组织学结果等传统特征,活检病理报告中的文本特征也是如此。
结果鉴定出 1006 个 HRL,癌症升级率为 11.4%(1006 个中的 115 个)。使用 671 个 HRL 开发了机器学习随机森林模型,并使用一组独立的 335 个 HRL 进行了测试。最重要的传统特征包括年龄和 HRL 组织学结果(例如,非典型导管增生)。病理报告的一个重要文本特征是“严重不典型”。如果不是对所有 HRL 进行手术切除,而是对那些被归类为升级风险低的模型进行监测并切除其余部分,那么 97.4%(38 例中的 37 例)将在手术中诊断出来,而 30 例。
结论**** Hidden Message *****
介绍通过乳房 X 线摄影筛查早期发现乳腺癌可降低乳腺癌死亡率,并为被诊断患有乳腺癌的女性提供更多选择,以进行不那么激进的治疗 。尽管早期发现乳腺癌的好处已广为人知,但人们仍然担心与非乳腺癌患者的影像学发现引发的不必要的活检和手术相关的潜在危害 。高达 14% 的基于可疑乳房 X 线照片的影像引导活检会产生高危乳腺病变 (HRL) 。大多数 HRL 是良性的,但通常建议进行手术切除,因为手术切除时升级为导管原位癌或浸润性恶性肿瘤的可能性较低但目前存在 。由此产生的现状是过度治疗与恶性肿瘤无关的 HRL 进行不必要的手术。多项研究的作者 研究了患者和影像学特征,以便根据风险更好地对 HRL 患者进行分层。考虑的特征包括患者变量,例如年龄和乳腺癌的个人病史;HRL 组织学结果,例如非典型导管增生 (ADH);影像学变量,例如乳房 X 光检查中的病变类型;以及用于取样的图像引导和活检设备(即立体定向与超声引导和小型与大型针头活检设备)。尽管做出了这些努力,但仍没有明确的特征可以可靠地将需要手术切除的病变与可以安全监测的病变区分开来,这导致了治疗的广泛变化。。在我们的机构中,超过 95% 的患者接受了影像引导核心针活检诊断为 HRL 的手术切除;因此,我们的大多数患者都知道手术结果。机器学习是指可以设计为基于新的复杂特征进行评估和预测的算法。包含所有患者数据的机器学习模型提供了一种方法,可以根据风险对诊断为核针活检的 HRL 患者进行分层,从而减少不必要的手术干预。借助已知手术结果的带注释的训练集,该模型可以发现所提供数据中的关系,并识别准确预测癌症升级风险的特征组合。一旦开发了模型,就可以将其应用于对手术结果未知的新病例进行分类。据我们所知,临床环境中的机器学习模型可以支持患者及其提供者就 HRL 的监测与手术切除做出明智的决策,并可以减少不必要的 HRL 手术切除。本研究的目的是开发一种机器学习模型,该模型允许将需要手术切除的图像引导穿刺活检诊断出的 HRL 与手术中升级为癌症风险低的 HRL 区分开来,从而可以对其进行监测。
材料和方法
研究人群这项研究得到了机构审查委员会的批准,免除了获得知情同意的必要性,并且符合《健康保险流通与责任法案》。研究队列包括在 2006 年 6 月 1 日至 2015 年 4 月 30 日期间在一家三级学术医疗中心接受图像引导的芯针活检的连续女性,其病理结果为 HRL。HRL 包括 ADH、非典型小叶增生、双相肿瘤、扁平上皮非典型性、小叶原位癌、非特异性非典型性、乳头状瘤和放射状瘢痕。所有患者都有导致 HRL 诊断的乳房 X 线检查异常。在学习期间,乳房 X 线照片是通过使用全场数字乳房 X 线摄影术(2006-2012)或数字乳房断层合成(2011-2015)(Hologic,Bedford,Mass)获得的。接受后续手术切除或至少 2 年影像学随访的患者被纳入研究队列。排除 HRL 诊断时同侧或对侧乳房已知恶性肿瘤的患者。1071 名患者有乳房 X 线摄影病变,导致影像引导活检并产生 1095 个 HRL。43 例患者的 43 例 HRL 因缺乏手术病理结果和影像学随访不到 2 年而被排除,42 例患者的 46 例 HRL 因在 HRL 诊断时已知为恶性肿瘤而被排除(图 1 ))。因此,总共排除了 89 个 HRL(1095 个中的 89 个,8.1%)。研究队列包括 986 名患者的 1006 个 HRL,平均年龄为 53 岁(范围为 24-87 岁)。共有 20 名患者在研究期间的不同时间点(即两次不同的活检)有两次 HRL 诊断。963 例 (95.7%) HRL 可获得手术病理结果,未接受手术切除的 43 例 (4.3%) 病灶至少进行了 2 年的影像学随访。图 1:流程图显示了患者选择。
用于机器学习模型的训练和测试集中 HRL 的组织学类型和升级率如表 1所示. 在 1006 例核心针活检中,303 例 (30.1%) 产生了不止一个 HRL(如伴随的 ADH 和扁平上皮异型),所有这些都被纳入机器学习模型。然而,对于产生多个 HRL 的核心活检,具有最高风险的 HRL 类型根据以下层次结构用于数据呈现:ADH 大于小叶原位癌,其大于非典型小叶增生,大于放射状瘢痕,大于乳头状瘤,大于扁平上皮非典型性,大于非特异性非典型性,大于双相肿瘤。最常见的 HRL 是 ADH,占所有 HRL 的 37.1%(1006 个中的 373 个),其次是扁平上皮异型性(18.1%,1006 个中的 182 个)。ADH 升级为恶性肿瘤的比率最高(19.3%,373 例中的 72 例),其次是小叶原位癌(17.4%,69 例中的 12 例)。
表 1 HRLs的组织学类型和升级率
注:除非另有说明,数据为患者比例,括号内为百分比。DCIS = 导管原位癌,NA = 不适用。
数据收集和统计分析临床信息、乳房 X 光检查报告、图像引导的芯针活检报告和手术病理报告均从我们机构的乳房 X 光检查信息系统(Magview, Burtonsville, Md)中提取。建立了一个结构化数据库,其中包含每个患者的数据,包括年龄、身高、体重、种族、乳腺癌个人史、乳腺癌家族史、首次怀孕年龄、首次月经年龄和绝经年龄等信息。表 2)。提取的其他信息包括乳房 X 光检查结果(钙化、肿块、不对称和结构变形)、乳房密度、活检方式、核心活检病理结果和手术病理结果。从乳房 X 光检查、核心活检和手术病理报告中提取的所有信息均由受过奖学金培训的乳房成像放射科医师(MB,具有 2 年的乳房成像经验)手动验证。
表 2传统结构特征和特征类列表
如果手术病理结果是导管原位癌或浸润性癌,则认为病变为恶性,因此代表升级。除导管原位癌或浸润性癌外,任何手术病理结果均归类为良性。相对较少的患者 ( n = 43) 未接受手术切除,但经过至少 2 年的影像学随访而未发现疑似恶性肿瘤的乳房 X 线检查结果也被归类为良性。使用电子表格软件程序 (Excel 2013; Microsoft, Redmond, Wash) 分析所有数据。Z检验(用于比例)用于比较用于机器学习模型的训练和测试集,并比较手术切除与 HRL 监测的不同策略。针对每种策略检测到的癌症比例和良性病变手术比例计算了 95% 的置信区间。P值小于 0.05 被认为表明存在统计学上的显着差异。
机器学习模型本研究使用的机器学习模型,随机森林分类器,以其强大的性能和强大的泛化能力而闻名。随机森林模型从训练数据集中重复选择特征的随机子集,并构建决策树集合,允许使用构造算法对训练集的样本进行正确分类。每个决策树都是逐个节点构建的,每个添加的节点都会提高该树在该特征子集中的分类精度。为了开发随机森林机器学习模型,1006 个 HRL 的数据集被分为两个随机选择的集合,一个包含三分之二患者队列的训练集和一个包含三分之一患者队列的独立测试集。所以,模型输入特征包括传统的结构特征,例如年龄和 HRL 组织学结果以及核心活检病理报告的全文。传统结构特征如表2所示。通过将每个单词(unigram)或两个相邻单词的组合(bigram,例如“suspicious calcifications”)视为特征来提取文本特征。我们专注于按照互信息标准排名的 100 个最重要的一元和二元,并使用最大深度为 12 的 200 个随机决策树的集合来执行我们的分类。对于独立测试集中的每个 HRL,模型输出是反映在手术中升级为恶性肿瘤的可能性的分数。对于大于 5% 的分数,该模型预测手术切除。对于其余的病例,可以考虑监测而不是手术切除。
结果在用于机器学习模型的训练和测试集中,HRL 的频率和升级率没有统计学上的显着差异(表 1)。值得注意的是,30.1%(1006 次中的 303 次)的核心活检产生了不止一个 HRL(例如伴随的 ADH 和扁平上皮异型)。190 名(28.3%)患者在 671 名患者的训练集中有超过 1 个 HRL,113 名(33.7%)在 335 名患者的测试集中有超过 1 个 HRL(P= .08)。对于本研究中的 1006 个 HRL,模型中包含了大约 20 000 个基于传统结构特征的数据元素。表 3列出了随机森林机器学习模型中被认为最重要的传统结构特征,包括年龄和 HRL 组织学结果等特征。根据模型认为最重要的病理报告文本特征也列在表 3中,包括“严重”和“严重不典型”等特征。
表 3机器学习模型中的结构特征和病理文本特征
表 4显示了根据 HRL 组织学结果与其他三种策略分层的 335 个 HRL 的独立测试集的模型结果:(a)我们机构的当前实践,(b)切除所有 HRL,和 (c)切除 ADH、小叶原位癌和非典型小叶增生,这些被认为是高危病变,同时监测所有其他 HRL。表 5对这些策略进行了统计比较。如果我们的机器学习模型用于识别具有监测潜力而不是手术切除的 HRL,那么 97.4%(38 例中的 37 例)将在手术中诊断出来,69.4%(297 例中的 206 例)手术会诊断为良性病变(即,30.6% 良性病变手术将被避免)。与我们机构目前的做法相比,检出癌症的比例没有统计学上的显着差异,但良性病变的手术会更少(69.4% vs 94.9% ],P< .001) 使用机器学习模型。同样,与手术切除所有 HRL 的策略相比,检测到的癌症比例没有统计学上的显着差异,但良性病变的手术次数较少(69.4% vs 100.0% , P < .001) 使用机器学习模型。与仅手术切除 ADH、小叶原位癌和非典型小叶增生的策略相比,诊断出的癌症比例更高(97.4% vs 78.9% ,P= .01),但使用机器学习模型会进行更多的良性病变手术(69.4% vs 53.2% , P < .001)。
表 4与其他策略比较的 335 个 HRL 独立测试集的机器学习模型结果
注:数据为患者比例,括号内为百分比。ALH = 非典型小叶增生,LCIS = 小叶原位癌。
*根据机器学习模型升级。
表 5机器学习模型与其他策略的统计比较。
注:数据为患者比例,括号内为百分比,括号内为 95% 置信区间。ALH = 非典型小叶增生,LCIS = 小叶原位癌。
* P值用于与根据机器学习模型对升级风险低的 HRL 的监测进行比较。
一个被我们的模型错误分类的癌症升级病例发生在一名 34 岁的女性中,在核心活检中患有乳头状瘤,在手术中升级为患有导管原位癌的乳头状瘤。值得注意的是,该患者有 Cowden 综合征病史,该病史未作为模型算法的输入提供。图 2显示了独立测试集的模型评分和实际手术病理结果(恶性或良性)的散点图。图 3 展示了模型对独立测试集实现的准确度作为模型得分输出的函数。图 2:散点图显示机器学习模型的分数输出与独立测试集中的随机数作图。红色圆圈代表手术中升级为恶性肿瘤的 HRL,蓝色十字代表手术中未升级为恶性肿瘤的 HRL。垂直虚线表示 5% 阈值,低于该阈值时只有一个 HRL 在手术中升级为恶性肿瘤。
图 3:图表显示了独立测试集的机器学习模型实现的准确度作为模型输出分数的函数,对于独立测试集中的恶性肿瘤患者(红线)和非恶性肿瘤患者(蓝线)。垂直虚线表示 5% 阈值。
讨论对于 HRL 患者的适当治疗缺乏共识 。在许多情况下,手术切除 HRL 可能是不必要的,但对影像学和其他特征的研究有限,这些特征可以可靠地区分需要手术切除的病变与可能进行随访的病变。高度可靠的预后工具将改善临床决策并降低过度治疗的发病率和成本。在我们的研究中,我们将机器学习算法应用于这种具有挑战性的特定临床场景。通过使用我们开发的模型而不是通过手术切除所有 HRL,97.4%(38 个中的 37 个)的恶性肿瘤将在手术中被诊断出来,并且将进行较少的良性病变手术。该模型也代表了对仅切除某些 HRL 组织学亚型(如 ADH、小叶原位癌和非典型小叶增生)的传统策略的改进。如果仅切除这些亚型,并对所有其他 HRL 进行监测,那么与基于我们的机器学习模型的 HRL 切除相比,在我们的独立测试集中遗漏的癌症比例要高得多。我们的模型可以告知患者和提供者关于 HRL 的监测与手术切除的共同决策,因此可以支持更有针对性、个性化的患者护理方法。
在我们 1000 多个 HRL 的队列中,升级为恶性肿瘤的率为 11.4%(1006 例中的 115 例)。尽管报告的 HRL 升级率存在很大差异,但总体而言,我们的结果与已发表文献中的发现保持一致。例如,最常见的 HRL 之一是 ADH,它是末端导管小叶单位的上皮增生病变。在我们的研究中,ADH 的升级率为 19.3%(373 人中的 72 人),与乳腺癌监测联盟报告的相似(685 人中的 123 人,18.0%)(31)。由于升级率相对较高,手术切除被认为是ADH患者的标准治疗。然而,仅基于组织学亚型对患者的治疗导致了可变的,有时甚至是积极的治疗。例如,文献中扁平上皮异型升级为恶性肿瘤的风险从 3.2%(95 例中的 3 例)到 14.8%(230 例中的 34 例)不等 ,一些临床医生建议进行监测,而另一些则建议手术切除。
人们越来越关注将机器学习应用于放射学以改善临床实践。在乳腺成像方面,最近一项研究的作者应用机器学习模型来区分乳房中不同类型的钙化。据我们所知,之前发表的研究没有包括将机器学习算法应用于我们在本文中讨论的特定具有挑战性的临床场景:区分需要手术切除的 HRL 和有可能进行随访的 HRL。我们的模型除了核心活检病理报告文本外还包括大约 20 000 个数据元素,它包含了许多风险因素,而不仅仅是组织学结果,因此可能代表了一种更可靠的风险分层方法,可用于指导临床做决定。使用我们的模型错误分类的一例癌症升级发生在一名有考登综合征病史的 34 岁女性中,她在核心针活检中被诊断为乳头状瘤,随后被升级为患有导管癌的乳头状瘤手术现场。如果我们的模型旨在帮助识别罕见遗传综合征(如 Cowden 综合征)的重要性,那么该模型产生的分数可能会高到足以将 34 岁患者的 HRL 从低风险组中剔除. 我们的模型结合了核心活检病理报告文本的特征。
尽管机器学习模型确定为低风险的 HRL 在手术切除时仍有升级为恶性肿瘤的风险,但我们的模型提供了一种方法,可以支持在监测与手术切除方面做出明智的决策。这种监测模式而不是更积极的干预在共享知情决策时代变得越来越重要,并且优先考虑在乳房 X 光检查中确定为“可能是良性”的病变 。这种通过监测“可能是良性”的乳房 X 线摄影病变来进行治疗的不那么激进的方法已被放射科医生、转诊提供者和患者所接受。目前,患有“可能良性”病变的患者预计患恶性肿瘤的风险低于 2%,并接受随访而不是进行针芯活检。然而,如果可以避免手术切除,则患者及其提供者可能会接受稍高的恶性肿瘤风险。如果病变在随访中进展,那么可以在一小部分患者中进行手术切除。
我们的研究有几个局限性。这项研究是在一家拥有专门的乳腺影像放射科医师和专门的乳腺外科医生的学术机构进行的,因此结果可能无法推广到所有机构。尽管手术切除是我们机构所有 HRL 患者的标准治疗,但我们研究队列中大约 4% 使用了影像学随访(而不是手术结果)。我们研究队列中的 20 名患者在研究期间的不同时间点(即两次不同的活检)诊断出两个 HRL。为了分析的目的,这些案例被认为是独立的而不是相关的。此外,30。1%(1006 个中的 303 个)核心活检产生了不止一个 HRL,机器学习模型包含了所有核心活检病理结果。出于数据呈现的目的,使用了该特定案例的最高风险 HRL。例如,如果核心活检发现 ADH 和扁平上皮异型性,则 ADH 被认为是最高风险的 HRL,并且该病例被指示为 ADH。总之,机器学习可以作为一种风险预测方法来识别具有活检证实的 HRL 的患者,这些患者有可能进行随访而不是手术切除。未来的工作包括将乳房 X 光图像和组织病理学幻灯片纳入机器学习模型。使用我们基于传统结构特征和活检病理报告文本附加特征的模型有可能将 HRL 女性的不必要手术减少近三分之一,并支持关于监测与手术切除 HRL 的共同决策。
知识进步
[*]■ 我们的机器学习模型旨在帮助区分需要手术切除的高危乳腺病变 (HRL) 和可监测的乳腺病变,它基于已确定的风险因素,例如患者年龄和 HRL 组织学结果(包括超过 20 000 个数据元素)和活检病理报告文本的附加功能。
[*]■ 不是对所有 HRL 进行手术切除,而是对我们模型中分类为低风险升级为癌症的 HRL 进行监测并切除剩余部分,则 97.4%(38 例中的 37 例)将在手术中诊断出来,30.6 %(297 例中的 91 例)良性病变手术可以避免。
对患者护理的影响
[*]■ 我们的机器学习模型集成了多种复杂特征,以识别在诊断出 HRL 后升级为癌症风险较低的女性。
[*]■ 机器学习可以为患者和提供者关于监测与手术切除 HRL 的共同决策提供信息,因此可以支持更有针对性、个性化的患者护理方法。
页:
[1]