下肢淋巴闪烁显像定性评价评分系统的可靠性

admin · 发表于 2022-4-7 15:35:05

淋巴闪烁显像是一种用于诊断和表征上肢和下肢水肿严重程度的成像技术。在淋巴闪烁显像中，评分系统可以提高区分诊断的能力，但使用任何评分系统都需要足够的可靠性。我们的目的是确定用于视觉解释下肢淋巴闪烁图的拟议评分系统的观察者间和观察者内的可靠性。

方法：

从我们的数据库中随机选择 81 人的淋巴显像图进行回顾性评估。两名核医学医师根据提议的下肢淋巴闪烁图视觉解释评分系统的 8 项标准对这些扫描进行评分。每次扫描评分两次，间隔 3 个月。总分是所有标准得分的总和，潜在范围为 0（正常淋巴引流）至 58（严重淋巴受损）。评分系统的内部和观察者间可靠性使用 Wilcoxon 符号秩检验、一致性百分比、加权 κ 和具有 95% 置信区间的组内相关系数来确定。此外，对于 7 个类别，确定了观察者之间和观察者内部的总分差异。

结果：

我们发现观察者之间存在一些微不足道的差异。百分比一致性很高或非常高，观察者之间为 82.7%–99.4%，观察者内部为 84.6%–99.4%。对于评分系统的每个标准， κ 相关性显示出中等到非常好的观察者间或观察者内可靠性。所有标准的总分具有良好的观察者间和观察者内可靠性。关于观察者间比较，66% 和 64% 的总分差异在 ±1 分（-1，+1）范围内，关于观察者内部比较，68% 和 72% 的总分差异在 ±1 范围内1 个刻度点。

结论：

所提出的评分系统是视觉定性评估下肢淋巴水肿患者淋巴转运问题的可靠工具。

淋巴闪烁显像是最常用于评估淋巴系统的影像学检查，可提供客观证据来诊断和描述上肢和下肢水肿的严重程度，以及区分淋巴水肿和非淋巴水肿。定量和定性淋巴闪烁显像可以相互补充，但在临床环境中，更频繁地使用对形态学特征的定性评估。

在定性分析中，淋巴闪烁显像可用于获得许多特征的详细描述。识别下肢功能障碍的最重要标准是局部淋巴结延迟、不对称或不可见，或淋巴通过皮肤淋巴管（即真皮回流）或进入深部淋巴系统（例如，可见腘淋巴结）。这些异常可能有其他发现，例如淋巴管、侧支淋巴管和血管结构中断的不对称可视化。

当定性淋巴闪烁显像的结果处于临界值时，评分系统会增加诊断差异。然而，任何评分系统或诊断测试在普遍用于感兴趣的人群之前，都应该被证明是可靠和可重复的，通过观察者间和观察者内的相关性来衡量。

我们开发了一个评分系统，其中包括 8 个标准，用于对下肢淋巴闪烁图进行视觉解释。本研究的目的是确定这个提议的评分系统的观察者间和观察者内的可靠性。

材料和方法

这项在哈丁格医院核医学科进行的回顾性研究是根据赫尔辛基宣言进行的，并于 2014 年 12 月 10 日获得伦理委员会的批准（批准 2014/1964-31/1）。

学习规划

所有在 2013 年 1 月至 2013 年 10 月期间接受下肢淋巴显像检查的患者均纳入本研究。在每只脚的第一和第二脚趾之间皮下注射 20 MBq 的99 m Tc-纳米胶体（Nanocoll；GE Healthcare，Amersham Health）后进行淋巴闪烁显像。对肿胀的腿和健康的腿都进行了成像，以便对两侧进行比较。进行了全身γ相机成像（e.cam；西门子）。以99m的 140-keV 光峰为中心的 20% 窗口记录图像Tc，使用 10 cm/min 的扫描速度。淋巴闪烁显像评估包括在静息状态下（注射后 5、20、35 和 50 分钟）和运动期间（注射后 60 和 180 分钟）的 4 次下肢图像，分别显示被动和主动淋巴流动.

这些图像由两名核医学医师根据提议的评分系统的标准进行审查，一名有阅读淋巴闪烁图的经验，另一名没有阅读淋巴闪烁图的经验，间隔 3 个月进行 2 次评分。为了降低偏倚风险，图像被匿名化，并且没有向观察者提供有关患者的临床信息。

提议的评分系统包括 8 个标准（C 1 –C 8）：淋巴管显示（C 1）；淋巴管模式 (C 2 ); 腹股沟淋巴结摄取 (C 3 ); 盆腔淋巴结摄取 (C 4 ); 腰部淋巴结摄取 (C 5 ); 血管外腿部淋巴结的摄取，包括足部、膝部、小腿和大腿 (C 6 )；焦点积累 (C 7 ); 和真皮回流 (C 8 ) (表 1）。对每个标准使用不连续量表是基于现有知识和我们医院 30 年的经验。在文献中，这些评估下肢淋巴水肿的标准已被报道为一系列淋巴闪烁图的发现。例如，尽管 C 6的临床意义不确定，但不能以与 C 7或 C 8相同的方式进行评分。仅存在局部示踪剂积聚 (C 7 ) 或真皮回流 (C 8 ) 就足以诊断淋巴水肿，因此应用加权值，最高值应用于淋巴水肿的特征性征兆。

C 1 –C 3在注射后最多 60 分钟的图像上进行判断，C 4 –C 8在 180 分钟的图像上进行判断。C 1 –C 3为三点反应量表，C 4 –C 8为两点反应量表。总分是C 1 -C 8的总和。潜在总分在 0-58 范围内，范围从正常淋巴引流 (0) 到最严重的淋巴损伤 (58)。

统计数据

每个标准都被认为是一个序数变量，但总分被认为是区间数据。序数数据不应使用参数测量进行分析，但可以对这个评分系统中所有标准的总和进行参数分析。在两个评分时间和两个观察者计算每个标准的总体平均值和 SD。使用 Wilcoxon 符号秩匹配对检验，评估每个评分时间的观察者间评分。Wilcoxon 检验的效应大小由r = |Z|/√n计算，其中r是效应大小，|Z| 是 Wilcoxon 检验统计量的正态逼近的绝对值，n是研究中的受试者数量。小于 0.30 的效应量被认为很小。学生t检验用于比较观察者之间和观察者内部的总分。

为了评估所有标准的观察者内和观察者间可靠性，使用百分比一致性和加权 κ。对于 κ 值，计算 95% 置信区间 (CI)。小于 0.4 的 κ 被解释为差的一致性；κ 为 0.4-0.6，为中等一致性；κ 为 0.6-0.8，一致性好；并且 κ 大于 0.8，非常符合。为了研究总分的观察者内和观察者间可靠性，确定了具有 95% CI 的组内相关系数 (ICC)（2 路混合模型以及单测量意见和绝对一致性类型）。ICC 小于 0.4 被解释为弱；ICC 为 0.4–0.74，为中度；ICC 为 0.75–0.9，为强，ICC 大于 0.9，为非常强。对于观察者内和观察者间比较，对 7 个标准中每一个的总分 (DTS) 差异进行了分类（DTS = 0、|1|、|2|、|3|、|4|、|5| 和 >| 5|)。SPSS 版本 22.0 (IBM) 用于所有分析。选择 P值小于 0.05 作为显着性水平。

结果

对于这项回顾性评估，我们数据库中的 81 名患者（66 名女性和 15 名男性；平均年龄 ± SD，57.5 ± 13.1 岁）可获得淋巴闪烁图。这些患者中的 54 名没有闪烁显像结果表明双腿的淋巴水肿或淋巴系统阻塞。22 名患者的闪烁扫描结果与右腿或左腿的淋巴水肿相对应，而对侧腿状态正常。只有 5 名患者的双腿有一些疾病的闪烁照相发现。

每位观察者在 2 次评分时的评分如表 2所示。数据不是正态分布的。Wilcoxon 检验显示，对于任何标准，任一观察者的评分时间之间均无显着差异。观察者之间的显着差异仅在 C 2和 C 7中发现：在 C 2 评分时间2和 C 7在评分时间 1 时，但 Wilcoxon 检验关于这些标准的影响大小很小或非常小（在这两种情况下, r≤ 0.25），表明观察者之间在这些标准方面没有实质性差异。进一步分析表明，所有标准的得分差异的中位数为零。总体而言，使用 Wilcoxon 检验或学生t检验的任一观察者的评分时间之间的总分没有显着差异（在这两个检验中，P > 0.05）。两个评分时间观察者之间的总分也没有显着差异（P > 0.05）

总分的平均值 (MTS) 分为代表正常结果 (MTS = 0)、非常轻微改变的结果 (0 < MTS ≤ 5)、轻度或中度改变的结果 (5 < MTS ≤ 20) 或极大改变的结果（MTS > 20），并计算这 4 组中的观察百分比（图 1）。如图1 所示，平均而言，72% 的淋巴扫描图的总分小于或等于 5，这反映了大多数患者在非常早期阶段没有疾病或疾病。

观察者间可靠性（表 3）从高到非常高（82.7%–99.4% 一致）。根据 Altman ( 5 ) 的解释，评分系统在 6 个标准（C 1、C 3、C 4、C 5、C 6和 C 8 ）上表现出良好或非常好的观察者间相关性，在 2 个标准上表现出中等相关性（ C 2和 C 7 ）在评分时间 1。在评分时间 2 时，评分系统在 4 个标准（C 3、C 4、C 5和 C 6）上显示出良好或非常好的观察者间相关性) 和其他标准（C 1、C 2、C 7和 C 8）的中等相关性。根据 Fleiss ( 6 ) 的解释，所有标准的总分显示出中等或强的观察者间信度。得分时间 1 的 ICC 为 0.884 (95% CI, 0.845–0.913)，得分时间 2 的 ICC 为 0.709 (95% CI, 0.604–0.786)。

观察者内部可靠性分析（表 4）显示观察者内部一致性高或非常高（84.6%–99.4%）。使用 Altman 和 Fleiss ( 5 , 6 ) 的解释，评分系统具有 3 个非常好的 κ 相关性（C 3、C 4和 C 5）和 5 个良好的 κ 相关性（C 1、C 2、C 5、 C 6和 C 7）用于评分时间 1 和 4 个非常好的 κ 相关性（C 4、C 5、C 6和 C 8）和 4 个中等 κ 相关性（C 1、C 2、C3和 C 7 ) 用于评分时间 2。根据 Fleiss ( 6 ) 的标准，所有标准的总分也显示出很强的观察者内部可靠性。观察者 1 的 ICC 为 0.805（95% CI，0.734-0.857），观察者 2 的 ICC 为 0.906（95% CI，0.874-0.930）。

表 4

观察者之间和观察者内部的 DTS如图2-5所示。

图 2。

评分时间 1 观察者之间的 DTS 直方图。数据是 DTS 的绝对值。

图 3。

评分时间 2 时观察者之间的 DTS 直方图。数据是 DTS 的绝对值。

图 4。

观察者 1 得分时间之间的 DTS 直方图。数据是 DTS 的绝对值。

图 5。

观察者 2 得分时间之间的 DTS 直方图。数据是 DTS 的绝对值。

在观察者间比较中，66% 和 64% 的 DTS 在 ±1 标度点内（即 DTS = 0 或 |1|）。这意味着在评分时间 1 和 2 时，两位观察者的总分分别在 66% 和 64% 的所有下肢中相同或几乎相同（图 2和3）。DTS大于|5|的下肢比例在第 1 次评分时为 12%，在第 2 次评分时为 14%。观察者之间的分类 DTS 没有显着的百分比差异。

在观察者内部比较中，68% 和 72% 的 DTS 在±1 个刻度点内。这意味着每个观察者在评分时间 1 和 2 的总分分别在 68% 和 72% 的所有下肢中相同或几乎相同（图 4和5）。DTS大于|5|的下肢比例观察者 1 为 9%，观察者 2 为 10%。在观察者中未观察到分类 DTS 的显着百分比差异。

结论

尽管最近强调了淋巴闪烁显像在检测淋巴水肿方面的优势，但仍需要一种标准化和可靠的方法来评估和报告成像结果。我们之前已经表明，需要一个简单的工具在日常实践中使用。我们已将淋巴水肿的几个重要标准编入一个新的评分系统，用于对淋巴闪烁图进行视觉解释，但在将该评分系统应用于临床实践之前，其可靠性和可重复性需要测试。这种测试是当前研究的目的。

所有的标准评估都会受到随机误差的影响。因此，当重复评估时，个别科目的部分或什至大部分分数会发生变化。不同时间点或不同评分者之间的平均分数和 SD 也可能不同（表 2），但具有足够可靠性的测量工具应该会导致重复测量之间的分数差异较小。

我们的分析表明，在评分系统的任何标准中，观察者间的差异均无统计学意义，并且仅在 2 个标准（C 2和 C 7）中发现了观察者间的差异。

每个评分时间观察者之间每个标准的平均差异，或每个观察者评分时间之间的平均差异，小于其各自的 SD，反映了我们数据中的偏差。Wilcoxon 检验的结果不合适，因为所有标准的得分差异的中位数为零。另一方面，传统的显着性检验无法评估效应的大小或重要性。例如，在大样本中，即使是很小的影响也可能具有统计学意义。因此，在这种情况下，报告效应量的测量值很重要。我们可以发现观察者之间的某些标准存在显着差异（即 C 2和 C 7)，但这些差异的影响大小很小或非常小 ( r ≤ 0.25)。这些影响大小的测量反映了这些分数之间没有实质性差异。总体而言，在观察者之间或观察者内部没有发现显着的 DTS。

对于某些标准，我们发现了适度的 κ 相关性，这可以通过分数分布的偏斜来解释，特别是在高一致性百分比的情况下。此外，我们发现观察者 2 关于 C 7和 C 8的评分时间之间的一致性百分比非常高（即，C 7为 95.1%，C 8为 97.5% ；表 4），但 κ 系数相当低C 7 (κ = 0.410)，相比之下，C 8 (κ = 0.839) 非常好或非常好。这两个标准都是二分法（即，采用 2 点响应量表：0 或 10；表 1)，因此 κ 系数之间的差异不能用可能性差异来解释。在我们的样本中，从观察者 2 获得 10 分的 C 7腿数（7 获得 10 分，155 获得 0 分）与从同一观察者获得 10 分的 C 8腿数相比（ 16 人得 10 分，148 人得 0 分）。一致性百分比和 κ 系数之间的这种巨大差异揭示了使用 κ 作为可靠性度量的缺点。观察样本中发现的流行度影响 κ 系数的方式类似于临床考虑的疾病流行度影响预测值的方式。由于我们的样本中某个分数的低流行率和我们数据中不成比例的零值数量，单独的 κ 统计量在数据分析中可能具有较少的解释价值。

高或非常高的一致性百分比、中等或强 ICC 以及我们的评分系统发现的观察者间和观察者内可靠性的中等至非常好的 κ 值的组合表明该系统是可重复的。我们发现观察者之间 64% 或 66% 的 DTS 在 ±1 标度点（-1，+1）内，并且观察者内 68% 或 72% 的 DTS 在 ±1 标度点之内。所有 7 类 DTS 的百分比在每个评分时间的观察者之间和每个观察者的评分时间之间几乎相同。大于 |5| 的 DTS 在观察者之间比在观察者内部更常见。总体而言，该评分系统表现出比观察者间可靠性略好的观察者内可靠性。

在核医学医师审查的所有扫描中，淋巴闪烁图只占很小的一部分。因此，在阅读此类扫描方面没有足够经验的核医学医师将显示出较低的观察者内部相关性，这可以解释我们研究中观察到的观察者间和观察者内部可靠性的差异。

2014 年的一项研究报告了上肢淋巴闪烁显像的可靠性差异很大。在该研究中，淋巴闪烁显像的定量元素具有弱到中等的重现性，但定性元素具有极好的重现性。在另一项研究中，报告了在上肢定性淋巴闪烁显像中评估皮肤回流的中等观察者间和观察者内可靠性。另一方面，一些研究表明，解释不同类型扫描的可靠性差异很大。在其中一项研究中，有人指出，困难的案件会产生更大比例的分歧。患者疾病的严重程度和范围也可能影响一致性程度。核医学医师更容易诊断淋巴水肿晚期出现的异常情况。在我们的研究中，由于未选择扫描且许多患者未处于疾病晚期，因此扫描中病理结果的发生率较低——可能对观察者间的一致性产生负面影响。影像学技术差、缺乏知识或经验、临床误判是影响影像判读可靠性的三大因素。

讨论

我们的数据表明，所提出的对下肢淋巴水肿患者进行闪烁扫描评估的评分系统易于应用，在经验丰富的手中具有良好的重现性，可推荐用于进一步验证。

		自动登录	找回密码
密码			立即注册

下肢淋巴闪烁显像定性评价评分系统的可靠性

本帖子中包含更多资源