髓内骨肉瘤的显微图像。
约翰斯·霍普金斯大学一个研究团队建立并训练了一种用于计算骨肉瘤(一种骨癌)患者的肿瘤坏死[1]百分比(PN)(即肿瘤“死亡”和不再活跃的百分比)的机器学习模型。与肌肉骨骼病理学家的计算结果相比,该模型的正确率为85%。在剔除一个异常值后,准确率上升到99%。
化疗后PN计算有助于提高患者预后存活率。例如,PN值为99%表示99%的肿瘤已经死亡,这表明化疗是有效的,并且患者的生存几率有所提高。病理学家通过观察、解释和标注全切片图像(WSI)[2]来计算PN,全切片图像是标本(此处为骨组织)的薄切片,安装在载玻片上进行显微分析。
“计算PN是一个劳动密集型过程,需要肌肉骨骼病理学家提供大量标注数据。”该研究的共同第一作者、约翰·霍普金斯医学院矫形外科住院医师Christa LiBrizzi医学博士说,“此外,它在观察者之间的可靠性也很低,这意味着两位病理学家在试图根据相同的WSI计算PN时,往往会得出不同的结论。基于这些因素,我们认为尝试用其他方法计算PN是一项值得付出的努力。”
研究团队试图开发一种“弱监督”[3]机器学习模型,这种模型只需用最少的标注数据进行训练。以这种方式训练模型意味着,使用该模型计算患者PN的肌肉骨骼病理学家只需向其提供部分标准的WSI,从而减轻病理学家的劳动负担。
首先,研究团队从约翰·霍普金斯大学美国三级癌症中心的病理档案中收集了包括WSI在内的数据。所有数据均来自2011年至2021年期间在该中心接受化疗和手术的髓内骨肉瘤(即起源于骨骼中心的骨肉瘤)患者。然后,该团队请一名肌肉骨骼病理学家对收集到的每份WSI上的三种组织进行了部分标注:活动肿瘤、死亡肿瘤和非肿瘤组织。利用这些信息,该团队开始训练该模型。
“我们决定通过教它识别图像模式来训练模型。”该研究的共同第一作者、约翰·霍普金斯大学生物医学工程系博士生Zhenzhen Wang说,“我们将WSI切分成数千个小块,然后根据病理学家的标注将这些块分成若干组。最后,我们将这些分组的块输入模型进行训练。我们认为这将为模型提供一个更可靠的参考框架,而不是简单地将一个大型WSI输入模型,从而冒着‘只见树木,不见森林’的风险。”
经过训练后,模型和肌肉骨骼病理学家对两名骨肉瘤患者的六份WSI进行了解读。结果显示,模型与病理学家的PN计算和组织标注之间存在85%的正相关。该模型并不总是能正确标注软骨组织,这导致某个WSI上出现了大量软骨组织的异常值。去除异常值后,相关性提高到99%。
“如果这个模型能够得到验证和投入使用,它将有助于加快对患者化疗效果的评估,从而令患者更快地得到预后估计。”LiBrizzi说,“这将降低医疗成本,并减轻肌肉骨骼病理学家的劳动强度。”
在今后的研究中,研究团队的目标是在模型训练中加入软骨组织。并使WSI多样化,以包括髓内骨肉瘤以外的其他类型骨肉瘤。
该研究报告于10月5日在线发表在《骨科研究杂志》上。(Journal of Orthopaedic Research)上。霍普金斯大学的其他作者包括生物医学工程助理教授Jeremias Sulam、病理学教授Aaron W. James和骨科肿瘤学助理教授Adam S. Levin。纪念斯隆·凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)矫形外科主任 Carol D. Morris也参与了这项研究。
注:
[1] necrosis,坏死,是一类非程序性细胞死亡,其发生在急性损伤或感染后或细胞凋亡受到抑制时,并以细胞肿胀和溶解为特征。坏死细胞将细胞内内容物释放到周围环境中,从而激活炎症反应以募集吞噬细胞清除死细胞。但是,不受控制的坏死会导致严重的组织损伤,例如坏疽。坏死可能由于来自细胞外的强烈刺激而发生,例如缺氧、冷冻或燃烧、某些病原体、物理化学应激(例如H2O2)、缺血再灌注和钙过载。更多介绍可参考《细胞死亡概述》和《值得收藏:一篇文章了解有关细胞死亡各种形式》。
[2] whole-slide images,WSI,全视野数字切片、全量影像、病理图像,是一种数字化的图像技术,用于获取和浏览高分辨率的组织切片图像。它是将组织切片整体数字化,以替代传统的显微镜检查。全视野数字切片可以包含患者的相关影像,其中包括但不限于:组织切片图像、血液学图像、影像学图像。全视野数字切片可以用于病理学家对组织切片进行远程诊断和远程咨询,提高病理诊断的准确性和效率。更多介绍可参考《医学全量影像(Whole Slide Imaging,WSI)》。
[3] weakly supervised,Weakly Supervised Learning,弱监督学习,是机器学习中一类不完全、不确切、不精确的监督学习方法。在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。尽管当前监督学习技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的成本太高,很多任务很难获得如全部真值标签这样的强监督信息。而无监督学习由于学习过程太过困难,它的发展缓慢。弱监督学习可以分为三种典型的类型,不完全监督(Incomplete supervision),不确切监督(Inexact supervision),不精确监督(Inaccurate supervision)。更多介绍可参考《浅谈弱监督学习(Weakly Supervised Learning)》。
BMEN202311180001
来源:约翰霍普金斯大学生物医学工程学院
标题: Machine learning model calculates chemotherapy success in patients with osteosarcoma