平均风险女性的卵巢癌检测:美国出现经典与非经典的附件病变
抽象的
背景存在几种用于评估附件病变的美国风险分层模式。对于中等风险女性的孤立性附件病变,这些多子类别系统可能比所需的多面性更多。
目的探讨基于美国的经典与非经典外观分类方案是否可用于帮助对卵巢癌平均风险的女性进行适当分类,而不影响诊断性能。
材料和方法这项回顾性多中心研究包括在 2011 年 1 月至 2014 年 6 月期间在盆腔超声发现的孤立性卵巢病变,并在 2019 年 9 月至 2020 年 9 月期间进行了审查。在没有腹水或腹膜植入物的情况下,病变被认为是孤立的。根据超声表现将病变分为经典或非经典。经典病变包括单纯性囊肿、出血性囊肿、子宫内膜异位症和皮样瘤。否则,病变被认为是非经典的。记录基于组织病理学结果或临床或影像学随访的结果。计算诊断性能和恶性肿瘤的频率。使用 χ2 比较年龄组之间的恶性肿瘤发生率2检验,泊松回归用于探讨影像学特征与恶性肿瘤的关系。
结果共纳入 878 名女性(平均年龄 42 岁 ± 14 [SD])的 970 个孤立病灶。经典病灶的恶性率低于 1%。在 970 个病灶中,53 个(6%)是恶性的。有血流时非典型病变的恶性率为 32%(103 例中的 33 例),无血流时为 8%(194 例中的 16 例)(P < .001)。对于 60 岁以上的女性,存在血流时的恶性率为 50%(20 个病灶中的 10 个),无血流时为 13%(38 个病灶中的 5 个)(P= .004)。经典与非经典模式的敏感性、特异性、阳性预测值和阴性预测值分别为 93%(53 个病灶中的 49 个)、73%(917 个病灶中的 669 个)、17%(297 个病灶中的 49 个)和99%(673 个病灶中的 669 个)分别用于检测恶性肿瘤。
结论使用经典或非经典出现的附件病变的美国分类模式导致卵巢癌恶性肿瘤诊断的高度敏感性和特异性。癌症风险最高的是 60 岁以上女性中存在血流的孤立的非典型病变。
概括在卵巢癌处于平均风险的女性中,将孤立的附件病变评估为在美国出现的经典与非经典,具有较高的敏感性和特异性,类似于已发表的用于检测恶性肿瘤的风险分层系统。
主要结果■ 在一项对 878 名女性的 970 个孤立附件病变进行的回顾性多中心研究中,基于经典与非经典的基于美国的分类方案对检测恶性肿瘤。 ■ 具有卵巢癌平均风险的女性在具有典型超声特征的单纯性囊肿、出血性囊肿、子宫内膜异位症或皮样病变的病变中恶性频率较低(<1%)。 ■ 具有血流的实体成分的病变有 32% (33 of 103) 的恶性频率,在 60 岁以上的女性中甚至更高,为 50% (10 of 20)。
介绍超声是评估所有年龄组女性附件异常的首选成像方式,准确的病变特征对于适当的患者护理至关重要。在接受盆腔超声检查的女性中,最常检测到的附件病变是良性单纯性囊肿、出血性囊肿、子宫内膜异位瘤和成熟囊性畸胎瘤,它们具有典型的超声表现,并且恶性风险非常低。当附件病变不属于典型的病变类别之一时,评估癌症风险可能具有挑战性,特别是在没有转移性疾病的情况下,例如腹膜植入物或恶性腹水。在这些孤立的非典型病变中——包括多房囊肿、含有实性成分的囊肿和以实性为主的病变——放射科医师必须确定特定的病变特征,这些特征会促使外科会诊而不是额外的影像学评估 。 美国有多种用于评估附件病变的算法风险分层系统,包括国际卵巢肿瘤分析简单规则;妇科影像报告和数据系统,或 GI-RADS;放射科医师协会超声指南;和美国放射学会卵巢附件报告和数据系统,或 O-RADS,美国风险评分。这些分类模式在多项研究中表现良好。然而,鉴于这些系统的多个子类别和多方面的方法,在繁忙的临床实践中,放射科医生可能难以熟练掌握这些系统,特别是在接受检查的人群中患病率较低的疾病过程中。所有这些提议的系统都有一个共同的主题,其中包括将所有典型的良性病变归类为癌症风险非常低。当病变外观不典型时,这些分类系统还结合多普勒血流并区分分隔、结节、乳头状投射、和实体病灶,将病灶分层为高风险类别。为了简化这些多方面的分类系统,所有具有典型外观的单纯囊肿、出血性囊肿、子宫内膜异位瘤或成熟囊性畸胎瘤的病变都可以归为一类,而具有多个分隔和实性成分的病变可以归为另一类。 本研究的目的是探讨基于美国的经典与非经典外观分类方案是否可用于在不影响诊断性能的情况下对卵巢癌平均风险的女性进行分类。次要目的是评估年龄或任何特定的美国影像学特征对卵巢癌的预测价值。
材料和方法所有参与中心的机构审查委员会批准了这项符合健康保险流通和责任法案的多中心回顾性研究。由于回顾性设计,放弃了知情同意。
耐心各自的现场调查员审查了向六个学术放射科之一提出的连续女性的医疗记录和影像学检查结果。每位研究人员筛选了在各自机构进行的盆腔超声检查,记录了 17 岁以上接受过经腹和经阴道多普勒超声检查的患者的孤立附件病变。在美国没有腹水或腹膜植入物的情况下,病变被认为是孤立的。排除卵泡、黄体囊肿和直径小于 1 cm 的囊性病变。成像在 2011 年 1 月至 2014 年 6 月之间进行,图像在 2019 年 9 月至 2020 年 9 月之间进行了审查。
美国协议每个机构的超声医师通过灰度和彩色多普勒评估获得了经腹和经阴道超声骨盆图像,并使用 Logiq 9 或 E9 (GE Healthcare) 或 iU22 (Philips Healthcare) 机器获取了电影剪辑。美国图像被发送并存储在每个机构的图片存档和通信系统中。
数据采集对于所有附件病变,研究人员记录了患者年龄、绝经状态和病理诊断或影像学随访或专门的临床评估,包括盆腔检查。图片存档和通信系统用于评估患者可能进行的初始超声检查和任何后续影像学检查(US、CT 或 MRI)。有充分随访的患者,定义为病理诊断、随访影像学中病灶消退或缩小 10%、CT 或 MRI 为经典病灶(如 CT 可见脂肪以确认成熟的囊性畸胎瘤)、稳定成像超过2年,或在初次盆腔超声检查后 2 年以上记录的正常盆腔检查被纳入最终分析。排除标准包括没有附件异常或生理学发现的检查、重复纳入(研究期间的两次检查)、存在腹膜植入物或腹水,以及随访信息不足。
图像分析八名研究人员参与了图像分析,他们都是经过培训的腹部放射科医师(AG、PJ、KEM、KPL、HMZ、AK、NA 和 ES),具有 1-20 年的住院医师经验。在最终研究样本中的病变分类之前,所有 8 名研究者独立审查了一组 13 例已知病理诊断的病例,记录了病变的类型(单纯性囊肿、出血性囊肿、子宫内膜异位症、皮样囊肿、单房囊肿或多房囊肿)、数量和分隔的类型、固体成分的数量以及是否存在血流。单纯性囊肿、出血性囊肿、子宫内膜异位症、皮样囊肿、单房囊肿19 )。在独立审查之后,13 例病例在小组会议上与所有调查人员公开讨论,以确保以一致和可重复的方式解释病变,并协调调查人员之间的术语。 然后给每个研究者 20 次可重复性测试成像研究;四家机构分别为可重复性测试集贡献了五项研究。调查人员对最终诊断不知情。每个案例都包含去识别的灰度和彩色多普勒 US 图像。每位研究者独立审查病例并记录所有特征,以便评估观察者间的变异性。再现性测试人群中的患者不包括在最终研究样本中。 最后,调查人员评估了最终研究样本的检查结果。在图片存档和通信系统上进行图像审查,Syngo Dynamics (Siemens Healthineers)、McKesson (McKesson Radiology)、Sectra (Sectra) 或 Centricity (GE Healthcare)。每位研究人员都在各自的研究中心审查了每位研究患者可用的所有图像和电影剪辑,并将附件病变分类为经典病变(简单囊肿、出血性囊肿、子宫内膜异位瘤或成熟囊性畸胎瘤)或非经典病变。非经典病变不符合预先确定的经典病变标准(图1、2) 。还记录了以下患者和病变特征:年龄、绝经状态、最大直径、侧面、实体成分的存在、分隔数量、结节或乳头状突起的数量和最大直径,以及实体内是否存在多普勒血流零件。 图 1:典型病变的代表性经阴道超声图像;彩色多普勒血流与彩条表示流动方向。(A) 右侧附件的横向彩色多普勒图像描绘了一个没有内部元素或多普勒血流的无回声囊肿,与简单囊肿相符。(B)左侧附件的横向彩色多普勒图像描绘了一个具有回缩凝块且无多普勒血流的囊性病变,与出血性囊肿相符。(C)左侧附件矢状位灰度图像显示囊性病变,具有均匀的低水平回声或毛玻璃样外观,与子宫内膜异位症相符。 (D)右侧附件的横向彩色多普勒图像描绘了一个具有回声成分的病变,显示声学阴影和无多普勒血流,与卵巢皮样相兼容。
图 2:非经典病变的代表性经阴道超声图像;彩色多普勒血流与彩条表示流动方向。 (A)右侧附件的横向彩色多普勒图像显示多房囊性病变,分隔光滑(箭头),无多普勒血流,与无血流的非典型病变相符。(B)右侧附件的横向彩色多普勒图像描绘了具有实性成分和内部多普勒血流的多房囊性病变,与具有血流的非典型病变相符。
统计分析对于所有个体和病变特征,记录平均值和 SD 用于连续测量,并计算恶性肿瘤的频率。对于分类测量,报告了具有 95% CI 的比例。计算经典病灶、无血流非经典病灶和有血流的非经典病灶的恶性频率;使用Fisher精确检验比较组间频率。年龄细分为40岁以下、40-60岁、60岁以上,以及绝经前和绝经后;记录每个年龄亚组的恶性肿瘤频率。 使用 Fleiss multirater κ 计算使用测试人群的读者间一致性,使用单边 t检验计算P值,与理论平均值 0 进行比较。对于所得 κ 值,0-0.2 定义为轻微一致性,0.21- 0.4 表示完全一致,0.41-0.6 表示中等一致,0.61-0.8 表示基本一致,0.81-1 表示几乎完全一致。 年龄组间恶性肿瘤发生率的比较采用χ 2检验。还使用 χ 2检验 比较了各个年龄组之间的成对差异,通过使用 Benjamini-Hochberg 方法校正错误发现率,对多重比较的结果P值进行校正。 进行单变量泊松回归,以随访时的恶性肿瘤作为结果,以天为单位的随访时间作为偏移量,结果报告为具有 95% CI 的发生率比 (IRR)。使用用单变量泊松回归评估的预测变量子集另外进行了多变量泊松回归。月经状况和年龄被包括在多变量分析中,因为这些通常是卵巢病变女性的许多临床评估方案的一部分。通过计算每个预测变量的方差膨胀因子来评估多变量分析中的共线性。 计算多个二元预测因子的敏感性、特异性、阳性预测值 (PPV) 和阴性预测值 (NPV),以随访时的恶性肿瘤作为结果。使用 McNemar 检验比较预测变量之间的敏感性和特异性。 使用 SPSS Statistics 版本 26 (IBM) 和 Matlab R2019b (MathWorks) 进行统计分析。对于所有比较,P < .05 被认为表明存在统计学上的显着差异。
结果
患者人口学特征最初筛查了 14 302 次盆腔超声检查;13 062 项检查因无附件异常、生理发现或重复纳入而被排除。35 名女性因存在腹膜植入物或腹水而被排除,327 名女性因随访不足而被排除。最终研究样本如图 3 所示。最终分析共纳入 878 名女性,970 个病灶(表 1)。平均年龄为 42 岁 ± 14 (SD);75% 的女性(878 人中的 657 人)处于绝经前状态。38% 的患者(878 名中的 335 名)基于病理诊断被纳入,56%(878 名中的 489 名)被纳入基于随访的 US、CT 或 MRI 显示稳定性或分辨率或特征典型的良性病变。6% 的患者(878 名中的 55 名)是根据临床随访和记录的正常盆腔检查纳入的。恶性病变的总频率为 6%(970 例中的 53 例)。恶性病变包括浆液性交界性肿瘤(53 个中的 17 个 [32%])、高级别浆液性癌(53 个中的 20 个 [38%])、 图 3:患者收集和纳入最终研究样本的流程图。
表 1:研究样本的人口统计学和病变特征
关于超声影像学特征,单纯性和出血性囊肿(673 例中的 562 例 [84%])是最常见的经典病变类型,而多房囊肿(297 例中的 172 例 [58%])是最常见的非经典病变。43名女性,53处恶性卵巢病变;49 个病灶被归类为非典型病灶(17 个多房囊性病灶,19 个具有实性成分或壁不规则的单房囊肿,13 个以实性为主的病灶),4 个病灶被归类为典型病灶(3 个单纯性囊肿和 1 个子宫内膜异位症)。
读者协议在测试病变样本中,对于评估病变类型(κ = 0.81;95% CI:0.81, 0.81)、是否存在固体成分(κ = 0.90;95% CI:0.90, 0.91)和血管分布的存在 (κ = 0.90; 95% CI: 0.89, 0.90)。在评估分隔的存在(κ = 0.70;95% CI:0.70, 0.70)、分隔数量(κ = 0.68;95% CI:0.68, 0.68)、固体成分的数量和轮廓(κ = 0.71;95% CI:0.71, 0.72)和颜色评分评估(κ = 0.74;95% CI:0.74, 0.74)。分隔类型有中等的读者间一致性(κ = 0.56;95% CI:0.56, 0.57)。
不同诊断类别和年龄的恶性肿瘤发生率比较根据诊断类别(经典与非经典)和年龄的恶性肿瘤发生率见表 2和图 4。与经典病变相比,非经典病变(17%;95% CI:13、21 [297 个病变中的 49 个])的恶性频率更高(0.6%;95% CI:0.2、1.5 [673 个病变中的四个])(P < .001)。考虑到血流时,有血流的非典型病灶的恶性肿瘤发生率 (32%; 95% CI: 23, 42 [33 of 103]) 高于无血流的非典型病灶 (8%; 95% CI: 5, 13 [16 of 194]) ( P< .001)。当年龄被包括在血流非典型病变的评估中时,60 岁以上的女性患恶性肿瘤的频率高于 60 岁或以下的女性,为 50% (95% CI: 28, 73 [10 of 20]) (28%; 95% CI: 18, 39 [23 of 83]),但我们没有发现两个年龄组之间存在统计学差异的证据 ( P = .07)。
表 2:根据诊断类别和年龄,每个病变的恶性肿瘤发生率
图 4:条形图显示了按诊断类别、血流存在和年龄划分的恶性肿瘤频率。* = 经典病变与非经典病变:P < .001。# = 无血流的非经典病变与有血流的非经典病变: P < .001。
在年龄组比较分析中,老年女性的恶性肿瘤发病率较高(表 3)。当按患者年龄组细分病变并比较恶性肿瘤的发生率时,60 岁以上的女性仅基于年龄就有较高的恶性肿瘤发生率(P < .001):年龄小于 40 岁,4%(95 % CI:3、7 [419 个病灶中的 18 个]);40-60 岁,4%(95% CI:3、7 [453 个病灶中的 20 个])和 60 岁以上,15%(95% CI:9、24 [98 个病灶中的 15 个])。然而,我们没有发现 40 岁以下和 40-60 岁组之间恶性肿瘤发生率存在差异的证据(P = .93)。当病变细分为绝经前女性(4%;95% CI:3、6 [28 of 690])和绝经后女性(9%;95% CI:6、13 [25 of 280])时,病变在绝经后组的女性患恶性肿瘤的频率更高(P = .003)。
表 3:不同患者年龄的孤立病灶恶性肿瘤发生率
回归分析在以恶性肿瘤为结果的单变量泊松回归分析中,许多患者和病变特征是恶性肿瘤的重要预测因子。具有最高 IRR 的预测因子包括存在血流(IRR,37.5;95% CI:21.2,66.3;P < .001),存在固体成分(IRR,46.1;95% CI:21.6,98.4;P < .001)、实体病灶亚型 (IRR, 117; 95% CI: 33.3, 410; P < .001) 和病灶最大直径 (IRR, 1.3; 95% CI: 1.3, 1.4; P< .001)。除了月经状况(IRR,1.4;95% CI:0.8、2.5;P = .25)和年龄超过 60 岁(IRR,1.0;95% CI:1.0、1.0)之外,这些预测因子被选用于多变量分析; P = .32)。在多变量泊松回归中,存在固体成分 (IRR, 16.9; 95% CI: 7.1, 40; P < .001) 或血流 (IRR, 5.1; 95% CI: 2.4, 10.6; P < .001 ) 与恶性肿瘤的最高频率相关(表 4)。
表 4:孤立病灶的多变量泊松回归分析结果
敏感性、特异性、PPV 和 NPV使用非典型病灶与典型病灶的简单二元模型诊断恶性肿瘤时,敏感性为 93%(95% CI:82, 98 [53 个病灶中的 49 个]),特异性为 73%(95 % CI:70、76 [917 个病灶中的 669 个]),PPV 为 17%(95% CI:13、21 [297 个病灶中的 49 个]),NPV 为 99%(95% CI:99、100 [669 个病灶]) 673 个病灶])。
讨论盆腔超声是评估附件病变的一线成像方式,存在多种算法风险分层系统来帮助评估附件病变。这些现有系统有多个子类别,但基于一个共同前提:典型的良性病变患癌症的风险非常低,而非经典病变的患癌症风险更高。这种针对孤立性附件病变的经典与非经典方法可能有助于放射科医生在繁忙的临床实践中更快地评估病变并推荐治疗方案。
使用经典与非经典病变分类方案对 970 个病变进行的分析表明,单纯性囊肿、出血性囊肿、皮样瘤和子宫内膜异位症的恶性肿瘤发生率低于 1%。相比之下,非经典卵巢病变的恶性频率更高,在无血流的非经典病变中达到 8%,在有血流的非经典病变中达到 32%。随着年龄的增加,在 60 岁以上的女性中,伴有血流的非典型病变发生恶性肿瘤的频率为 50%。
这些增加的变量得到了多变量分析结果的支持,表明固体成分和血流对恶性肿瘤的预测价值最高。仅根据年龄,60 岁以上的女性患恶性肿瘤的风险更高(≤40 岁,4%;95% CI:3、7 [419 个病灶中的 18 个];40-60 岁,4%;95% CI:3、7 [453 个病灶中的 20 个];>60 岁,15%;95% CI:9、24 [98 个病灶中的 15 个];P< .001)。然而,由于该组中 60 岁以上的女性人数较少,因此在多变量分析中年龄没有达到显着性。这种经典与非经典分类方案的敏感性、特异性、PPV 和 NPV 分别为 93%、71%、17% 和 99%。
我们研究中报告的敏感性、特异性、PPV 和 NPV 与文献中其他现有方法的公布范围相似。其他风险分类系统的公布范围是 90%–96% 的敏感性、74%–96% 的特异性、14.9%–84.6% 的 PPV和93.9 % –98.8 %的NPV。这些研究中用于诊断恶性肿瘤的 PPV 范围很广,从 14.9% 到 84.6%。PPV 的这种变异性直接取决于人群癌症患病率,不同研究之间的患病率差异很大。报告较高 PPV 的研究是对已知附件病变已被转诊进行手术评估的患者群体的分析;在这些研究中,手术干预率为 70%–100%,癌症患病率为 28% 或更高,PPV 高达 83%。在将美国风险分层系统应用于常规盆腔超声患者的更一般样本的研究中,由于其人群中癌症的患病率较低,因此报告了较低的 PPV 值 。同样,在我们的研究中,评估了手术干预率较低(<40%)和癌症患病率(6%)的普通人群中的女性,我们报告了较低的 PPV。我们的研究与其他大型队列研究的另一个不同之处在于,在其他研究中,一位在附件病变成像方面经验丰富的医生进行了美国检查,并为来自欧洲和中东的患者群体提供了实时解释。在我们的研究中,超声技师最初获取了图像,研究放射科医生稍后解释了这些发现,这更类似于美国的许多放射学实践。我们目前的研究也是评估美国女性风险分层系统的仅有的大型研究之一。
我们的研究有局限性。首先,这是一项回顾性研究。回顾性研究的固有特征是对所有患者的选择偏倚和缺乏随访。其次,成像协议、机器设置、供应商以及图片存档和通信系统在几个参与机构中都没有标准化,并且口译放射科医生的经验水平不同。我们也没有在病变分析中包括流量参数;这可能增加了恶性病变的特异性,但会给分析增加一层复杂性。然而,这些限制可能反映了现实生活中的放射学实践;进行这些检查的方式各不相同,放射科医生在实践中拥有不同程度的经验。最后,我们研究中的大多数女性处于绝经前状态,恶性病变的总发病率低至 6%,这限制了我们将结果外推至其他人群,包括老年人群和卵巢癌风险较高的女性。 总之,对盆腔超声中出现经典与非经典的孤立性附件病变的模式识别方法对诊断卵巢癌平均风险女性的恶性肿瘤具有较高的敏感性和特异性。与其他已发表的算法风险分层系统相比,我们的结果对恶性肿瘤具有相似的高灵敏度、特异性、阳性预测值 (PPV) 和阴性预测值,当考虑病变血流和患者年龄时,检测癌症的 PPV 更高. 当遇到典型的良性病变时,患者可以放心病变是良性的,从而避免进一步的广泛检查。当病变外观不典型且没有任何血流时,可以考虑进一步进行 MRI 成像或重复 US。对于有血流的非典型病变的女性,尤其是老年女性,转诊至妇科肿瘤外科医生将有助于确保快速治疗可能的卵巢癌。
|