深度学习在医疗影像领域涉及可解释性相关的工作有哪些?
目前深度学习在医疗影像领域的应用大多拼性能,但是从医生角度出发,更希望知道医疗AI的可解释性如何,所以相关工作都有哪些呢。
之前有一个相关问题,我这里更关注医疗影像领域。要研究深度学习的可解释性(Interpretability),应从哪几个方面着手?
目前的工作跟这个相关,说一下自己的了解。
解释医学影像以Attention及CAM(class-activation-map[1])等可视化方法为主。
下面按时间顺序放几篇paper:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning [2]
最早看到的一篇医学影像+CNN+可解释性的文章,吴恩达组的工作。主要用了CAM,当时看起来还是很炫酷的。
Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification [3]
基于病灶多发生与局部区域、关注整体可能被噪声影响,以及由于配准不好导致的不规则边界会影像网络性能这两个假设,设计了attention-guided CNN。主要关注疾病相关的局部区域,并融合全局信息。
Interpretable classification of Alzheimer's disease pathologies with a convolutional neural network pipeline [4]
识别全视野数字切片(WSI)中AD相关的淀粉样斑块和淀粉样血管病特征。利用了Guided grad-CAM[5]及Feature occlusion等技术。
Pathologist-level interpretable whole-slide cancer diagnosis with deep learning [6]
这个工作很有意思。不仅给出图像heat-map,还生成对应于视觉特征的病理诊断报告。
A Survey on Explainable Artificial Intelligence (XAI): towards Medical XAI [7]
最后是一篇最近的survey,介绍了可解释性的种类、可解释性研究中的一些概念、如何评估及选择需要的可解释性方法,最后是医疗领域的可解释性研究。
我们也在关注这个产业。先科普,再回答。
1.影像设备的图像重建
通过AI算法的图像重建技术,由低剂量CT、PET图像重建得到相当于高剂量CT的高质量图像,是目前深度学习技术在图像重建领域的重要进展,尤其其速度明显优于传统的全迭代重建方法,因此显示了很好的临床应用前景。
2.X线胸片阅读
通过AI对X线胸片提前进行辅助阅读分析,帮助医师完成多种疾病的医学影像筛查,或是对医师阅片顺序进行智能排序,从而提高医师的阅片效率和诊断精度。
3.眼底检测
AI通过学习眼底图像,实现对一些严重眼科疾病如青光眼、糖尿病性视网膜病变和老年黄斑变性的有效诊断,推动眼底疾病诊断的普及和眼科疾病的治疗。
4.脑区分割
通过AI技术对脑区MR图像进行分割,可以得到比以往算法更精准的脑区分割效果。利用AI技术对大脑中的一百多个脑区结构进行精准分割放到时间轴上进行分析,让医师清楚地看到脑灰质、白质和各种脑核的结构随时间的变化情况。
5.脑疾病诊断
医学影像是诊断脑出血的首要方法,早发现、早诊断、早治疗可以极大程度挽救患者生命,提高生存率。
6.器官分割/靶区勾画
在放射治疗计划系统(treatment planning system,TPS)中,病变器官的正确定位与准确勾画是TPS系统运作的基础及关键技术之一,其分割的准确程度直接影响后续放射治疗计划设计的准确度和放疗的效果。同时,器官勾画也是计算机辅助诊断、医学图像三维可视化、图形引导手术、虚拟内窥镜等众多医学图像应用的首要前提和关键步骤。在勾画准确率上,全自动的智能勾画结果和专家勾画的一致性可达97%以上。
7.骨伤鉴定
通过AI算法直观观测骨质受损情况,智能检测多种类型骨折迹象,自动标注疑似骨折处,多角度多层面清晰直观显示骨折,可助力医师快速、精准诊断,减少漏诊风险。
8.乳腺疾病诊断
AI技术能精准分割乳房与致密腺体组织,并精准量化乳腺密度,客观评估乳腺癌风险,精准检测、定位肿块与微钙化灶,提升病灶检出率。
9.超声辅助诊断
超声影像检查以其无创性、实时性、安全性等优点而受到广泛应用。对于超声影像,融合AI技术可以实现对乳腺病灶和甲状腺结节良恶性的辅助诊断。同时,超声设备进入云计算后实现了技术处理资源的无限拓展,有效的提高了系统处理速度并优化系统资源配置,实现各种终端的互联互通。目前三甲医院医师的平均诊断准确率为60%~70%,基层医院更低一些,AI辅助诊断系统现准确率可以达到85%以上。
10.病理切片分析
使用AI进行病理切片分析,可以发现人眼不易察觉的细节,通过学习病理切片细胞层面的特征,可不断完善病理医师和数字病理诊断的知识体系。还可以整合免疫组织化学、分子检测数据和临床信息,得出整合相关信息的最后病理诊断报告,为患者提供预后信息和精准的药物治疗指导。
11.骨龄分析
影像医师尤其儿科影像医师缺口大,个体工作负荷重,从机械、繁重的骨龄影像读片中解放出来的愿望强烈。儿童医院骨龄检测需求非常巨大,如果仅靠医生,需要1到2小时才能算出一张骨龄片;如果借助计算机软件进行部分辅助,耗时也需要15分钟到30分钟每张。人工智能技术的引入,可以用秒级的速度,通过机器完成TW3法中的所有步骤,自动找到X光片中的骨骺,进行评级,然后代入公式,用数值比出骨龄。
如果是临床端,那么可以关注这17个临床应用方向:
1.肺结节等胸部AI
AI产品基本是根据临床对肺结节及骨折产品的实际需求的轻重缓急,以及自身的技术水平,搭建不同的神经网络模型,对影像进行分类、分割及检测,实现预期的功能;另外,在长时间的探索过程中,发现AI产品从实验室阶段走向临床落地,必须解决好产品的鲁棒性、易用性及安全性问题。
肺癌早期筛查早期治疗的普及,使影像科压力倍增,对肺结节AI产品的需求旺盛。现阶段市场上肺结节产品,基本上实现的是肺结节的检出功能,为临床提供结节鉴别诊断的量化信息,诸如大小、体积、位置,部分AI产品甚至可以精确定位到肺段,少数AI产品具备结节的良恶性的提示,以及图文报告。
2.DR影像智能报告AI
直接数字平板X线成像系统DR(Digital Radiography)具有成像速度快、辐射量小、空间分辨率高、噪声低等优点,加上设备成本低,在普通体检、疾病初判、入院查体等场景中广泛应用。在综合型三甲医院,门诊、体检量大,DR正常病例报告书写占据了影像科医生的大部分的精力,迫切需要智能诊断加结构化初诊报告来提升诊断效率;在基层医疗机构,随着基础建设的持续加大投入,乡镇卫生院基本都配备了DR设备,但缺乏具备诊断能力的影像科医生,造成有人拍片而无人写报告的问题突出。部分地区通过建设远程医疗平台,由医联体内县医院或更上级医院进行远程诊断,增加了上级医院的工作量,增加了误诊漏诊的风险。
现阶段DR智能报告产品,主要针对DR的拍摄和诊断业务流程,提供影像预处理、影像质量分级、DR疾病风险程度初判分类、病灶识别检出、异常征象检出、自动化报告生成等功能。
3.骨关节疾病AI
DR是骨科疾病的常规检查,方便、实用、经济,通过DR实现骨关节疾病的早期发现,获得早期干预机会是医师的重要临床诉求。
借助深度学习技术,可实现对DR图像更为精准的特征点检测、定位,进行髋关节部位的测量与可视化,通过分割及测量结果对骨关节炎进行分类,获得更优表现的精度和程度预测。一次影像诊断中可获得更为全面的医疗信息,如通过卷积神经与软件工具,进行病变检测、程度判别、角度与径线数据测量及灵活调整工具应用等,来进一步改善医师DR诊断量大、临床测量费时费力,难以支撑临床判断等痛点。
4.心血管疾病AI
随着临床科学技术的不断发展,CT和MRI技术在心血管疾病诊断中也发挥出了越来越重要的价值。冠心病影像学技术在心肌灌注、心功能、冠状动脉斑块性质、冠状动脉狭窄以及心肌活动评估方面的诊断价值不断提升。
AI技术可以实现心血管医学影像的自动读片和影像重建功能,并为影像科以及临床科室提供丰富的、有效的辅助诊疗信息,提高医护人员工作效率,提升一线全科医师的诊断治疗水平。AI算法在优质且大量的训练数据以及高性能计算环境下,利用机器学习的方法对影像的特征进行分类,并能够实现算法参数的自我优化,并随数据量的增加不断提高识别精确度。目前AI可智能识别影像中的心脏结构,并进行自动血管分割,实现影像三维重建,为疾病的诊断和治疗提供帮助;国际上近2年更多的在采用多中心研究数据进行机器学习,通过AI来增加传统危险分层中的预后信息,综合评估患者术前术后风险,提高心血管事件风险预测能力,提升AI在卫生经济学方面的应用价值。
5.神经系统影像AI
随着算法的不断更新迭代和临床需求不断增多,一些与中枢神经系统相关的产品出现了,这能够为影像科以及临床科室提供更准确有效的信息。
目前AI可以快速地对中枢神经影像进行分区,在分区的同时进行感兴趣区域的分析。通过细化分区结果,对全脑的功能进行评估,结合临床症状、体征和实验室检查,对疾病进行综合评估。这已经逐渐成为医师日常工作中不可缺少的工具,同时基于AI所得到的的分析结果会发掘出新的数据价值和研究方向。
6.超声AI
医学图像与AI的结合成为行业发展的热点,AI在超声领域的应用也受到行业的高度重视。随着AI技术的突破,超声产品的研发与应用将提升影像诊断的精准性,节约医疗资源及社会成本,缓解当前超声诊断技术的良莠不齐以及基层优秀医师缺乏等问题,支持国家分级诊疗战略。
通过辅助诊断系统帮助基层医师解决实时诊断的问题,可能是缓解基层医疗专家短缺的一种方法。近几年,人们对健康的关注,促使体检行业飞速发展。相较于CT、MRI等放射检查,健康人群或者亚健康人群将无创、无辐射的超声检查作为初步筛查的首选,这必将促使超声设备市场的蓬勃发展及超声诊断次数的不断增加,医师的工作压力也随之增加,辅助诊断系统的出现将缓解这一状况。
7.乳腺影像AI
数字化乳腺X 线检查具有良好的对比度及分辨力,能够分辨组织间细微结构密度的差别,且操作简单,价格相对低廉,易被接受,诊断准确率较高,是国际上公认的乳腺癌早期机会性筛查及早期发现的有效措施。
乳腺钼靶阅片的辅助工具中,CAD软件诞生最早,在国内不少医院也有使用,但传统CAD功能单一、性能不足,在病灶检出上假阳性过高,性能上很快到达瓶颈。相对而言,AI辅助诊断系统功能更强大、性能稳定且能不断迭代提升。
8.介入
放疗计划软件应用上,美国拥有成熟产品与医师协作机制。中国目前以国外软件为主流应用,企业集中,产品价格高昂,难以获得普及性应用,且在临床上TPS系统的剂量计算精度受物理师与医师对病区剂量的认识与判断的影响,易产生系统误差、摆位误差,人为误差等多重差异,难以获得精度保障,往往降低了实际疗效。
当前已可以通过创新卷积神经网络提取特征的能力,叠加数据训练与先进算法及传统医学逻辑算法,研发自适应放射治疗系统,提升器官的多元特征点的捕捉能力,获得更加精确化、个体化的放疗计划。
9.骨龄判读AI
目前已有数家企业进军骨龄AI领域并发布相关产品,但产品高度成熟、真正落地并且能够实现快速迭代的企业较少。骨龄AI的难点主要集中在骨龄判读标准及训练数据集的选择,以及计算机视觉技术、NLP技术、深度学习算法等AI技术综合实力。临床医师不仅希望能够借助AI产品实现骨龄的快速精准判读,同时也希望能够基于骨龄进行生长发育评估,更为精准的反应个体生长发育水平,辅助疾病诊断,进行疗效评估,为临床提供更加丰富的辅助功能,解决临床工作中骨龄判读不够精确、耗时较长、生长发育评估报告撰写繁琐等实际问题。
10.小儿疾病AI
脑电图自动识别技术尽管基于时域分析形成了棘、尖波自动识别和报警软件,但传统电子信号处理技术不能完全解决对伪差的识别和剔除问题,假阳性率较高,同时有些特殊的异常电活动不具有典型放电的特征,针对精微部分传统软件难以识别,往往造成假阴性结果,无法在临床获得真实应用。通过深度学习技术和信号处理方法相融合的方式来提取脑电数据的特征,可以以秒为单位来定位异常波所在时段,提升了对异常波放电的捕捉能力,进行异常放电的位置的精准定位,精确计算异常放电的时长,并得出对应的放电指数,解决了传统软件识别表现差、定位困难等不足,AI可成为提升癫痫检出率的有力手段,如2018年2月FDA已审批通过了基于皮电反应进行癫痫预测的手环设备Embrace。
11.脑部影像AI
AI应用于出血性脑卒中可在第一时间发现病灶,大幅缩短阅片时间。对于缺血性脑血管病急性期CT平扫的诊断一直是影像和临床医生面临的一大难点,对于病灶的定位以及半暗带的体积预测也是临床的一大难点。基于头颅CTA的脑血管检测,逐渐成为AI在脑影像的一个发展方向。AI不仅仅可以在脑血管病的诊疗方面得到发展,在颅内肿瘤等疾病的诊疗方面也可以展开相应的研究和衍生出相应的产品,为影像科以及临床神经科提供一定的帮助。
12.盆腔影像AI
目前结直肠AI产品,主要利用图像识别、深度学习等AI技术,与消化内镜结合,辅助临床医师实时发现结直肠息肉,并实时鉴别息肉性质,以每秒分析10张图像的速度,为临床医师提供非腺瘤息肉、腺瘤息肉、腺癌等状态的实时提醒,辅助临床医师更准确、更高效地诊断结直肠肿瘤。AI应用在前列腺中,可以从影像上全自动分割前列腺,检测病灶位置,并同时进行感兴趣区域的分析;产品应用则多集中在针对前列腺病理图片的诊断,大部分产品都可以达到较好的整体诊断准确率。宫颈癌AI产品也主要集中在病理切片的分析,针对子宫颈抹片的智能分析系统,能对宫颈癌及癌变前进行诊断,评估和预测恶性程度及疾病的发展趋向。
13.眼底图AI
基于眼科医师极度紧缺、培养周期长,以及随着国民经济发展水平和人民生活水平的持续提高,全社会对于健康医疗服务总供给提出了新的要求,健康医疗服务面临新的机遇和挑战,急需AI为国民眼健康和慢病眼底并发症的筛查和预防带来新的动力。
各科室对于AI的应用中,秉承着开放的态度,眼科已经处于领先地位。在过去几年,眼科领域的研究成果不断登上顶级学术期刊,并且率先通过FDA的审核,在产品形态上出现了单一病种识别、多病种识别、全眼底覆盖等AI产品,获得了眼科医师和从业者的普遍认可,并且已经展开大范围应用。
14.病理AI
近年来,随着病理数字化技术和产品的日渐完善和普及、AI算力和算法的显著提升,使得病理AI的发展在软件、硬件、数据等方面都具备了充分的条件。因此,病理也成为医疗影像AI的重要研发方向之一。目前研发主要集中在宫颈细胞筛查、组织辅助诊断、免疫组织化学定量分析、血涂片分析等方向。
15.大血管疾病AI
在大血管疾病方面,目前AI可以较好地协助医师准确、快速的实现病灶区的识别、分割工作,减轻放射科医师工作强度,降低漏诊、误诊概率;并且可以通过自动对主动脉及其分支进行分割,确认破口位置,根据专家系统为临床医师提供具有参考价值的手术实施方案,并实现患者术后风险预测分析及病程管理工作。
16.皮肤AI
AI技术在视觉特征提取,症状与病因相关性深度挖掘和分析、推断一致率方面已经日渐成熟。2017年斯坦福大学在Nature上发表了皮肤镜影像上的AI模型,其诊断符合率与准确率均已媲美资深皮肤科专家。根据皮肤影像的类别与其应用场景,目前研发集中在标准化影像上的皮肤癌诊断,医用端数字影像上的常见多发病诊断,患者移动端影像上的全病种自查等方向。
17.人工智能研发管线及策略分析
从 AI 应用实践角度,有两种切入思路。从疾病 的角度入手,比如围绕乳腺癌诊断的钼靶、超声、MRI 形成诊断乳腺癌的一套 AI 方 案。另一个角度从诊断手段入手,比如基于 CT 可以诊断肺部、肝部、脑部等多种 疾病。这一类产品线的思路大多为疾病部位的平移和同类疾病的延伸。 另一个研发方向便是拓展人工智能的应用边界,跳脱出固有的医疗思维,以商业思 维去考察医疗思维,将人工智能应用到医疗中的营销、患者招募&管理等环节。
首先,深度学习是一种严重依赖于数据的技术,需要大量标注过的样本才能发挥作用。现实世界中,有很多问题是没有这么多的标注数据的,获取标注数据的成本也非常大,目前业内把这样的问题统称为小样本问题,它面临的挑战主要是训练过程中只能借助每类少数几个标注样本识别从未见过的新类型,且不能改变已经训练好的模型。
近几年出现了几种解决小样本问题的方法,这些方法被称为Fewshot learning(若只有一个标注样本,则称为Oneshot learning)。有科学家用原数据构建了很多模型库,然后目标数据直接回归这些模型库,目的是把一个分类器的权重映射到另一个分类器,据此进行研究。目前在数据端现实的情况是,医疗AI诊断模型需要足够多的多中心样本才能进行训练,而医疗机构往往分别存储患者数据,不支持数据共享。
所以,解决数据的问题就是这个行业当前最重要的事情,我们观察到的发展方向有以下几种,
第一种是从数据和机器学习来切入,也是目前最常用的有效办法——利用数据进行数据分布式训练。(数据分布式训练主要有三类方法,这里不赘述,各有各的理解。有需求的可以去我们公号找报告,关注后回复【医学影像AI白皮书】就可以了)
第二种是直接从数据的维度切入,主要针对多模态数据,进行信息融合。因为影像检查存在CT、MRI、DR等多种模态,除此之外还有临床信息、检验报告等非图像的数据,如果能合理地利用多模态的数据,系统的效果将会大大提升,也比较热门。
第三种是直接在技术层面切入——AI云计算。AI技术的不断落地和推广,让AI产业逐渐从传统的“小作坊”算法软件转向“大生产”的应用平台,AI算法和云计算平台的结合更加紧密。许多互联网公司提供了AI云计算平台和相关服务。在此基础上面向医院的医疗AI平台主要分为两个方向:针对医疗影像数据处理的影像AI平台;针对NLP的数据AI平台。在这两类平台的基础上,综合互联网、云计算、AI、大数据分析等前沿技术,实现优质医疗资源云端协同共享、海量诊疗级大数据深度挖掘应用,为政府、医院、科研机构和个人量身定制一系列云端智能解决方案。面向科研人员、开发者,相应平台一并提供医疗AI模型建模、训练及开放应用等基础服务,这一系列的衍生进展也极大的推进了医疗AI产业的蓬勃发展。
以上就是针对您问题的一个主要回答。如果有需求欢迎再次提问。
(文章中的知识我们写过相关的研究,之前也有一些报告发布。如果想系统性的了解中国AI医学影像的发展,可以在我们公号去看一篇报告,关注后回复【医学影像AI白皮书】即可)。
学而无友,则孤陋而寡闻。希望你帮到您以及这个产业,谢谢。
跟踪自然图像即可。
分享一个工作。
由斯坦福大学医学院、中山大学附属第六医院和中山大学肿瘤防治中心组成的研究团队共同合作的一项科研成果“Predicting treatment response from longitudinal images using multi-task deep learning”于2021年3月25日发表于Nature Communications期刊。文章中,作者提出了一个多任务深度学习的方法,可以通过从纵向图像中提取治疗所引起的变化信息来预测肿瘤反应。该方法可用于改进治疗反应评估,并有可能为个性化医疗提供信息。
这是一篇2023年6月6日发表于Radiology杂志的新研究,第一作者单位为中山六院。
文章亮点
构建一个基于Vision Transformer的深度学习模型,以术前MRI扫描作为输入数据,准确预测了直肠癌患者的总生存率(OS)和无病生存率(DFS)。使用来自中国的725名直肠癌患者的盆腔MRI扫描图像对深度学习网络进行了训练和测试,Vision Transformer(ViT)的表现优于传统的神经网络(总生存率[OS]C-index,0.82 vs 0.67 [ResNet];P = .02)。
2. 在内部测试组中,ViT计算的风险分数与患者的1年、3年和5年OS相关(接收者操作特征曲线下的面积分别为0.65、0.64和0.74)。
3. 在验证组中,ViT计算的风险评分和治疗前癌胚抗原水平相结合,与单独的变量相比,显示出更好的预后预测效果(OS C-指数,0.86 vs 0.82和0.61);在德国一家机构获得的外部测试组中也保持了这种性能。
背景:
深度学习(DL)模型有可能改善直肠癌的预后,但还没有得到系统的评估。
目的:
根据治疗前T2加权MRI扫描的分割肿瘤体积,开发并验证用于预测直肠癌患者生存期的MRI DL模型。
材料和方法:
在两个中心回顾性地收集了2003年8月至2021年4月期间诊断的直肠癌患者的MRI扫描,对DL模型进行了训练和验证。如果有双原发的恶性肿瘤、既往接受过抗肿瘤治疗、未完成新辅助治疗、或没有进行根治性手术,则患者被排除在研究之外。C指数被用来确定最佳模型,该模型被应用于内部和外部测试集。根据训练集计算出的固定分界线,将患者分层为高风险和低风险组。还评估了一个多模式模型,它使用DL模型计算的风险评分和治疗前癌胚抗原水平作为输入。
结果:
训练集包括507名患者(中位年龄,56岁[IQR,46-64岁];355名男性)。在验证集(n = 218;中位年龄,55岁[IQR,47-63岁];144名男性)中,最佳算法的总生存期C指数达到0.82。最佳模型在内部测试组(n = 112;中位年龄,60岁[IQR,52-70岁];76名男性)的高危组中达到了3.0(95%CI:1.0,9.0),在外部测试组(n = 58;中位年龄,57岁[IQR,50-67岁];38名男性)达到了2.3(95% CI:1.0,5.4)。多模态模型进一步提高了性能,验证和外部测试集的C-指数分别为0.86和0.67。
结论:
一个基于术前MRI的DL模型能够预测直肠癌患者的生存率。该模型可作为术前风险分层的工具。
目前对局部晚期直肠癌患者的治疗标准是新辅助治疗,然后进行全直肠系膜切除术(1)。虽然这种多模式治疗能使局部复发率降低(2),但它并没有明显改善长期生存率(3-5)。现有的预后分层主要是基于已建立的TNM肿瘤分期系统和病理肿瘤消退分级。然而,由于同一阶段患者的临床异质性,TNM并不是一个最佳的风险评估工具。另一方面,肿瘤回归分级只适用于术后标本,这限制了初始治疗阶段的临床决策(6)。因此,一个能在癌症诊断时提供预后信息的模型对优化治疗和监测非常有用。
盆腔MRI在临床上常规用于直肠癌的诊断和分期,可用于检测潜在的预后因素,如壁外血管侵犯和环形切除边缘的侵犯(7,8)。随着近十年来图像定量分析方法的发展,可以通过计算机自动提取医学放射学图像的定量特征(9)。许多研究利用MRI扫描的经典手工放射组学来预测局部晚期直肠癌患者的化疗疗效、预后和分子分型(10-12)。然而,放射组学需要费力费时的精确肿瘤标记,阻碍了其临床应用;此外,预先选择的形态学特征制约了可从图像中提取的信息。
深度学习(DL)是一种新兴的机器学习技术,很有希望克服这些问题。在计算机视觉领域,Vision Transformer(ViT),一个基于变换器的模型,在21000张自然图像上进行了预训练,在许多任务上取得了最先进的性能(13)。与传统的机器学习技术不同,DL不需要领域专家手动提取和选择特征。它可以直接处理原始数据并自动开发模式识别所需的自己的表征,所以不需要明确指定规则或特征。当给定足够的数据点时,与乳腺癌的MRI数据中的放射学分析相比,DL已被证明能带来优越的性能(14)。最近,DL技术甚至在各种医学图像分析任务中取得了专家级的表现(15,16)。我们以前的研究也表明,DL可以预测治疗前后MRI的病理完全反应(17)。然而,据我们所知,目前还没有验证过的用于直肠癌患者预后的DL方法,而且一些更先进的技术,如ViT,也没有被使用。
这项回顾性研究是根据《赫尔辛基宣言》进行的,并遵守《个人预后或诊断的多变量预测模型的透明报告》或TRIPOD声明(附录S1)(18)。经中山大学附属第六医院伦理委员会批准(编号:2022ZSLYEC-236),我们分析了中山大学附属第六医院的中国直肠癌患者。此外,经过亚琛工业大学伦理委员会的伦理批准(编号EK028/19),我们分析了来自亚琛工业大学医院的德国直肠癌患者。在这项匿名数据的回顾性研究中放弃了知情同意。
我们收集了三个独立的患者队列。首先,一个来自中国的主要队列,被分成训练组和验证组,用于模型选择和超参数优化。这个队列包括来自中国中山大学附属第六医院的725名中国患者,他们在2010年6月至2019年4月期间被诊断为美国癌症联合委员会II期或III期局部晚期直肠癌(图1A)。纳入标准为:(a)组织病理学证实的直肠腺癌;(b)新辅助治疗开始前1周内有治疗前MRI扫描结果;(c)MRI评估的肿瘤下缘距离肛门边缘小于15厘米; (d) 根据MRI评估,治疗前临床分期为T3或更高,结节分期为阳性,或周身切除边缘受累;以及(e) 新辅助治疗后进行了全直肠系膜切除术。排除标准是:(a)并发恶性肿瘤或以前的抗癌治疗;(b)新辅助治疗疗程不完整或没有进行根治性手术;(c)MRI数据缺失或图像质量不足;以及(d)临床随访数据缺失或不完整。在主要队列的725名患者中,有370人已被先前报道(17)。此前的文章涉及新辅助治疗后治疗反应的预测,而在本研究中,我们报告的是治疗后的长期结果。
其次,我们收集了2007年10月至2015年1月期间在同一中国中心诊断的112名直肠癌患者,作为一个完全独立的内部测试队列(图1B)。纳入和排除标准与前面描述的相同,但这些患者都没有接受新辅助治疗。
第三,我们收集了一个外部测试队列的数据,该队列也仅用于评估最终模型(图1C)。这个队列的数据来自德国亚琛大学医学中心,包括2003年8月至2021年4月期间58名直肠癌患者,肿瘤分期为IV期。纳入标准(a)、(b)和(c)与初级队列的标准相同。纳入标准(d)和(e)没有用于外部测试队列,因为这些是有转移的病人(第四期肿瘤)。排除标准与初选队列的标准相同。图1:流程图显示了患者的纳入情况:(A)局部晚期直肠癌,组成训练和验证集;(B)非转移性直肠癌,组成内部测试集;以及(C)转移性直肠癌,组成外部测试集。NAT=新辅助治疗,T2WI=T2加权成像
获得压脂增强的T2加权轴向MRI扫描(表S1,图2)。在初选队列中,所有T2加权切片中的肿瘤感兴趣区域由两位具有15年经验的放射科医生使用ITK-SNAP软件(ITK-SNAP Home)以盲法方式手动划定。在内部测试组和外部测试组中,感兴趣的区域由两位外科医生(X.J.和H.Z.,分别有5年和3年的经验)按照相同的协议手动划定,并由一位在评估结肠直肠癌成像方面有10年经验的委员会认证的放射学家(D.T.)进行验证。所有感兴趣的区域都由另外至少一位在直肠癌图像处理方面有8年以上经验的专家检查。选择具有最大肿瘤区域的部分作为模型的输入。图2:本研究的流程图。(A)图示DL模型的构建和验证。T2WI均由专家手动勾画,并对具有最大肿瘤面积的图层进行分割,(B) 图中显示了模型的结构。MLP = 多层感知器。(C) 整体分组和统计分析过程,包括(KM)生存分析、时间相关的接收器操作特征(ROC)分析和Cox回归分析评估风险分数。
我们按7:3的比例将符合条件的患者从初级队列中随机分为训练集(n = 507)和验证集(n = 218)。我们训练了一个DL模型,直接从治疗前T2加权图像的分割肿瘤体积中预测病人的风险分数。这些图像描绘了以肿瘤为中心的感兴趣区域,以及肿瘤外缘的10像素区域。具体来说,我们使用了ViT,它在ImageNet-21K(13)上进行了预训练。我们将其与一个更传统的方法--卷积神经网络(CNN)进行了比较。具体来说,对于ViT,我们使用ViT-B/16架构。对于CNN,我们使用了ResNet50(19)、InceptionV3(20)、VGG16(21)、DenseNet121(22)和MobileNet(23)架构(附录S1)。在优化过程中,为了计算患者之间生存风险的差异,我们使用了一个自定义的损失函数,依靠Cox部分似然(24,25)。简而言之,产生无病生存(DFS)和总生存(OS)的两个损失,以1:1的比例相加,并用于梯度计算,在减少损失的方向上反复更新模型的参数。验证集的最高Harrell C-指数被用来为每个模型选择最佳检查点,具有最高总体C-指数的模型被用于后续分析。为了使图像的哪些部分对预测很重要,我们应用梯度加权类激活图(26)和注意力图来生成热图。
该模型的预后性能是用Harrell C-指数、时间依赖的接收器操作特征分析和Kaplan-Meier生存分析来评估的。训练队列中的中位风险评分被用来对每个数据集的患者进行分层;风险评分高于或等于-1.307的患者被置于高风险组,而风险评分低于该值的患者被置于低风险组。进行Kaplan-Meier生存分析以评估这两组之间的预后差异。进行事后分析以确定两组和按性别、年龄、肿瘤位置、T期、N期、治疗前癌胚抗原(CEA)水平(每毫升纳克)和放射治疗划分的亚组之间的关系。
统计分析由X.J.和H.Z.使用R3.4.0版(R基金会)进行,连续变量使用t检验,分类变量使用χ2或Fisher精确检验来比较患者特征。OS被定义为从手术到因任何原因死亡的时间。DFS定义为从手术到复发或转移或因任何原因死亡的时间间隔。所有的统计测试都是双侧的,P<0.05被认为是统计学上的显著差异。
所有的源代码和训练好的模型都可在https://github.com/KatherLab/dl-mri。
对于初级队列,在2133名已切除的局部晚期直肠癌患者中,我们排除了1303名患者,原因是没有治疗前骨盆轴向T2加权MRI扫描或图像质量不足,以及105名患者的生存数据缺失。对于内部测试组,纳入了565名切除的非转移性直肠癌患者,然后由于没有治疗前盆腔轴向T2加权MRI扫描或图像质量不足而排除了453名患者。对于外部测试队列,包括239名切除的转移性直肠癌患者,其中179名患者由于没有治疗前盆腔轴向T2加权MRI扫描或图像质量不足而被排除,两名患者由于生存数据缺失而被排除。表1总结了训练集(n = 507)、验证集(n = 218)、内部测试集(n = 112)和外部测试集(n = 58)中的患者特征。训练组的中位年龄为56岁(IQR,46-64岁),验证组为55岁(IQR,47-63岁),内部组为60岁(IQR,52-70岁),外部测试组为57岁(IQR,50-67岁)。训练集和内部测试集之间的基线信息没有统计学上的显著差异(表1)。表1:训练、验证、内部测试和外部测试组中的患者特征
我们训练了一个ViT模型来预测治疗前T2加权图像上的分割肿瘤体积的生存率。ViT模型的OS和DFS的C指数分别为0.82和0.69,高于任何一个测试的CNN计算的C指数(图S1,表S2)。使用验证集,ViT模型输出的风险分数能够准确预测1年、3年和5年的OS,其接受者操作特征曲线(AUC)下的面积分别为0.85(95%CI:0.77,0.94)、0.90(95%CI:0.82,0.97)和0.79(95%CI:0.62,0.97)。在验证组中,DL模型计算的风险评分也能准确预测1年(AUC,0.74 [95% CI: 0.61, 0.86])、3年(AUC,0.70 [95% CI: 0.58, 0.82])和5年(AUC,0.70 [95% CI: 0.57, 0.83])的DFS(图S2)。根据DL模型计算的风险分数,患者也被分为高风险组和低风险组,这两组的临床特征见表2。表2:训练、验证、内部测试和外部测试组中按高风险和低风险分层的患者特征
在训练组和验证组中,高危组的淋巴结转移数量都多于低危组。在验证组中,高危组患者与低危组患者相比,OS(危险比[HR],7.1[95%CI:2.4,21.3];P < .001)和DFS(HR,2.7[95%CI:1.3,5.4];P = .005)都有所降低(图3A)。图3:Kaplan-Meier曲线显示了基于训练集和验证集的深度学习(DL)模型计算的风险分数,并伴随着验证集中DL模型计算的风险分数的分布和可视化。
(A)训练集(顶部)(n = 507)和验证集(底部)(n = 218)中患者按高风险(H)(红线)或低风险(L)(蓝线)DL模型计算的风险评分分层后的总生存期(OS)和无病生存期(DFS)的Kaplan-Meier曲线。使用了DL签名的截止值-1.307,这是仅在训练集中确定的。对数rank检验被用来计算P值。危害比(HRs)后给出的P值代表了Cox回归的显著性检验,对其采用了似然比检验。括号内的数据为95%CI。(B) 左边是DL模型计算的风险分数的分布柱状图。虚线代表临界值。图的右边显示了专家划定的感兴趣区域的核磁共振扫描的例子,这些例子被用作视觉转化器(ViT)的输入。由ViT生成的梯度加权类激活图(grad-cam)热图和注意力图,叠加在输入图像上,显示在输入图像的右侧。ViT模型显示出对图像中的肿瘤区域的高度关注。
图3B中显示了验证集的DL模型计算的风险分数分布以及原始图像的梯度加权类激活图和注意力图的例子。
我们在两个独立的测试队列中验证了该模型。第一个测试队列(即内部测试队列)的数据与训练队列的数据来自同一医疗中心,包括112名非转移性直肠癌患者的治疗前T2加权MRI扫描结果。在内部测试队列中,OS和DFS的C-指数分别为0.65和0.60。另一个测试队列(即外部测试队列)包括58名来自德国的转移性直肠癌患者。在这个外部测试队列中,OS和DFS的C-指数分别为0.62和0.54。在外部测试队列中,DL模型计算的高风险组和低风险组之间没有观察到DFS的差异(P = .25),但DL模型预测的高风险组显示OS下降,HR为2.3(95% CI: 1.0, 5.4; P = .047)(图4, S3)。对主要队列以及内部测试集进行的亚组分析显示,DL模型预测的风险在几乎所有的临床亚组中都是一个强有力的预测因素(图S4,S5;表S3)。即使在一般认为预后较好的亚组,如肿瘤退行性分级为0或1的亚组,DL模型计算的风险评分也能区分验证集中的高风险组和低风险组(对数秩P=0.04)(图S6)。在初级队列中,放疗没有改善OS(P = .95)(图S7A),但确实改善了DFS并降低了复发率(13.7% vs 25.2%;P = .007)(图S7D)。与高风险组相比,低风险组在放疗后的DFS有所改善(HR,0.6 [95% CI: 0.3, 1.0]; P = .04)(图S7E, S7F)。在DL模型计算的高风险组中,接受和不接受放疗的患者之间没有观察到生存率的差异。图4:KM曲线显示了基于内部和外部测试集的DL模型计算的风险分数。内部测试集(n = 112)和外部测试集(下(n = 58)中,患者按高风险(H)(红线)和低风险(L)(蓝线)DL模型计算的风险评分分层后的OS和DFS;使用了DL模型计算的风险分数的截止值为-1.307,该值仅在训练集中确定。
如图5和S8所示,对于OS,DL模型预测风险的多变量Cox回归调整后的HR在训练、验证和内部测试集中分别为6.0(95%CI:2.6,13.8;P < .001)、4.6(95%CI:1.4,15.2;P = .01)和3.2(95%CI:1.0,9.8;P = .04),且高于病理T或N分期。对这些变量的C-指数的比较显示了类似的结果(表S4)。对于DFS,训练、验证和内部测试集的HRs分别为1.6(95%CI:1.0,2.5;P = .03),1.6(95%CI:0.8,3.4;P = .21),和2.8(95%CI:1.1,6.8;P = .03)。图5:多变量Cox回归分析的森林图。
(A)深度学习(DL)模型预测的风险和临床特征之间的多变量Cox回归分析,用于训练集的总生存率(OS)和无病生存率(DFS)。(B)内部测试集中DL模型预测的风险和临床特征的OS和DFS之间的多变量Cox回归分析。横轴为对数比例(log2),垂直虚线表示危险比(HRs)等于1。圆圈内的数字是HRs。绿色圆圈代表P>0.05,橙色圆圈代表P≤0.05,圆圈两边的水平线代表95%CI。H=高风险,L=低风险,pN=病理N期,post-CEA=新辅助治疗后的癌胚抗原水平,pre-CEA=新辅助治疗或手术前的癌胚抗原水平(用于内部测试集),pT=病理T期。
与单独的DL模型计算的风险评分(C-index,0.82 [95% CI:0.74,0.90])和单独的治疗前CEA水平(C-index,0.61 [95% CI:0.48,0.74])相比,综合的XGBoost模型在验证集中达到了较高的C-index 0.86(95%CI:0.79,0.93)。虽然多模态模型在内部和外部测试集中的预后都有一定的改善,但它只在外部测试集中显著提高了预后的准确性(P = .045)(图6A)。尽管如此,在预后方面,DL模型计算的风险评分和多模式模型的表现都明显优于单独的治疗前CEA(表S5)。此外,为了便于临床应用,我们将CEA状态(<5 ng/mL或≥5 ng/mL)与DL模型预测的风险组相结合,将患者分为三个新的多模态风险组,如图2C所示。与多模态高风险组相比,多模态低风险组的预后最有利。在内部测试组中,OS的HR为4.5(95%CI:1.0,20.1;P = .049),DFS为3.4(95%CI:1.0,11.7;P = .05)(图6B)。图6:深度学习(DL)模型计算的风险分数和基于血液的肿瘤生物标志物的整合。
(A) 治疗前癌胚抗原(CEA)水平的C指数的比较,以每毫升纳克为单位(绿色),DL模型计算的风险分数(橙色)、 训练集(n = 507)、验证集(n = 218)、内部测试集(n = 112)和外部测试集(n = 58)中的XGBoost模型(紫色)(将治疗前CEA水平和DL模型计算的风险分数合并为一个模型)的总生存(OS)和无病生存(DFS)。圆圈代表C-指数,圆圈两边的线代表95%的CI。CEA和DL模型计算的风险分数与XGBoost作为参考进行比较。 ns=不显著,ref=参考组。不显著=P≥0.05;*=.01≤P<.05;**=.001≤P<.01;***=P<.001。(B)根据DL模型计算的风险评分和治疗前CEA水平的组合,将患者分层为多模式低风险(绿线)、中风险(蓝线)和高风险(红线)组的Kaplan-Meier曲线。左上角的训练集和右上角的内部测试集显示了OS的Kaplan-Meier曲线。最下面一行是训练组和内部测试组的DFS的Kaplan-Meier曲线。危害比(HRs)后给出的P值代表了Cox回归的显著性检验,对其采用了似然比检验。括号内的数据为95%CI。
我们假设,在直肠癌诊断时,可以利用深度学习(DL)从MRI中提取预后信息,帮助优化治疗和监测。在此,我们开发了一个基于Vision Transformer(ViT)的DL模型,用于预测来自盆腔MRI数据的直肠癌患者的生存率。我们基于ViT的模型在主要队列中取得了可观的预测性能(训练集的危险比[HR],6.5 [95% CI: 2.9, 14.6] [P < .001],验证集的HR,7.1 [95% CI: 2.4, 21.3] [P < .001]),其中包括TNM II或III期直肠癌患者。我们在包括非转移性直肠癌患者的内部测试组和包括TNM第四期直肠癌患者的外部测试组中验证了该模型,我们的模型仍然能够很好地预测预后(内部测试组的HR,3.0 [95% CI: 1.0, 9.0] [P = .047],外部测试组的HR,2.3 [95% CI: 1.0, 5.4] [P = .047])。此外,当对TNM分期和癌胚抗原水平等临床病理因素进行调整后,DL模型预测的风险分数仍然是患者结局的独立预测因素。
以前的生存预测研究是基于经典的放射组学,在单中心的内部验证中取得了大约0.8的AUC或C-指数(27-29),而我们基于变压器的模型不仅表现出类似的性能,而且还在更大的样本量和不同国家得到了验证。此外,放射组学通常需要精确的人工肿瘤注释和经验特征提取,这限制了研究的可重复性和可扩展性。相比之下,在本研究中,我们使用单级肿瘤区域作为输入,这可以大大减少后续研究的工作量。此外,生存预测研究与图像分类不同,需要对生存时间进行准确排序。然而,随访数据往往有删减的数据,这使得使用DL进行生存预测变得很困难。以往的研究通常采用二元分类来克服这一问题(30,31),而在本研究中,我们采用Cox部分似然作为损失函数,以连续方式计算患者的预后风险。这样一来,我们减少了设置一个任意的截止值来对生存时间进行二进制化的主观影响。此外,我们在训练中加入了OS和DFS的损失函数,使DL模型能够学习复发、转移和死亡的特征,而不仅仅是单一事件。
在本研究中,我们使用ViT-B/16作为网络主干,它在非医学计算机视觉任务中已经成为CNN的替代品(13)。尽管ViT在这些任务中取得了比传统CNN更好的性能,但据我们所知,它还没有被广泛用于医学图像分类,更不用说生存预测了(32,33)。以前的研究表明,像ViT-B/16这样的变换器对图像数据中的高频噪声具有更强的稳定性(34,35)。在这项研究中,我们通过经验证明,预训练的ViT在生存预测方面可以达到比传统CNN更好的性能(OS C-index, 0.82 vs 0.67 [ResNet]; P = .02)。
观察和等待的方法目前是直肠癌患者的一种安全策略(36)。然而,在患者获得临床完全反应后,识别高风险的患者仍然具有挑战性。在通常预后较好的亚组--如肿瘤退行性分级为0和1以及N0的患者(37,38),DL模型预测的风险可以区分高风险和低风险患者。这表明,我们的DL模型计算的风险评分可以帮助识别高风险患者,即使他们在新辅助治疗后有良好的反应,也可能从更积极的治疗中受益。这可能是对观察和等待方法的决策过程的一个有益补充。我们还发现,DL模型预测的高危组在放疗后并没有显示出生存率的提高(对数秩P = .18)。这表明,我们的DL模型计算的风险分数可以用来识别那些不会从额外的放疗治疗中获益的患者。然而,考虑到样本量和混杂因素的影响,这一结论仍需进一步验证。
我们还分析了一种包括治疗前CEA水平的多模态方法,这种血液生物标志物的高浓度已被证明与不良预后有关(39)。我们的结果显示,多模态模型比单纯的DL模型计算的风险评分有更好的疗效(C-index,0.75 vs 0.69 [P < .001],在验证集中),未来的研究可以考虑加入更多的预后相关因素来建立一个更强大的模型。
我们的研究有几个局限性。首先,尽管我们在一个跨国队列中验证了该模型,但外部测试集和训练队列之间的临床阶段以及治疗方案并不一致,而且用于高风险和低风险分层的截止点是基于样本内的正常化。此外,外部测试集由晚期疾病患者组成,这可能限制了管理变化的可能性。此外,所有的数据都是回顾性收集的,内部和外部测试集的样本量都很小,这可能会引入固有的偏见和隐藏的混杂因素。因此,需要一个更大的前瞻性队列来验证。尽管如此,我们表明,即使各个队列的临床特征不同,我们的预后模型在外部验证中仍能保持其性能。这代表了一种稳健的概括性,是一个有希望的迹象,表明该模型真正检测了直肠癌的预后形态学因素。
总而言之,我们开发并验证了一个基于MRI的术前深度学习模型,以预测直肠癌患者的生存率,而不需要任何人工特征提取或选择。该模型的输出是一个具有独立预后效用的风险评分,可作为直肠癌患者的术前风险分层工具。我们的研究表明,变压器神经网络应被视为卷积神经网络在放射学图像分析中的一个有前途的替代方案。我们的开源模型可以为推进精准医疗做出贡献,值得在未来的临床试验中进一步验证。
参考文献Jiang X, Zhao H, Saldanha OL, Nebelung S, Kuhl C, Amygdalos I, Lang SA, Wu X, Meng X, Truhn D, Kather JN, Ke J. An MRI Deep Learning Model Predicts Outcome in Rectal Cancer. Radiology. 2023 Jun;307(5):e222223. doi: 10.1148/radiol.222223. PMID: 37278629.
最近更新游戏资讯
- 秋瓷炫老公什么星座(秋瓷炫血型星座)
- 法国电影中的女性符号和觉醒
- 惊人的秘密:颜色政治背后的渗透与分化
- 让BB接受家庭伦理教育洗礼
- 语言礼仪十篇
- 美军欲打造AI战机部队 面临严重伦理问题
- 医学伦理学:医学伦理学的主要观点和基本理论
- 豆瓣9.0分以上|50本好书推荐
- 达尔文的故事赏析八篇
- 港台国学类学术会议信息(四十)
- 东野圭吾本格推理极致之作《回廊亭杀人事件》开票5折抢
- 辩论赛包含哪些技巧?
- 【铸牢中华民族共同体意识
- 徽州醉春丨水墨画里的徽州-婺源篁岭-江岭- 新安江- 西递- 呈坎丨六天五夜
- 心理治疗总论 【医学心理学与精神医学版】
- 苏德超教授的新论文:道德绑架为何难以避免
- 企业社会责任综述十篇
- 政务礼仪的作用(五篇)
- 韩素希出道最大尺度 泄朴海俊指导秘诀 咬牙拍完《夫妇》只有2感想
- 《封神三部曲》:为什么要重述这个神话?
- 输血和喝血真的能帮助女性和老人保持年轻吗?
- 集齐九部《星球大战》,教你如何把家庭伦理拍成太空歌剧
- 这十部顶级英美剧,是当之无愧的业界巅峰,每一部都值得通宵去看
- 邪王宠妻之金牌医妃
- 【博览】《科奖在线》:“破四唯、立新标”典型案例官宣,项目/人才/成果未来可能这