Nat. Biomed. Eng.| 综述:医学和医疗保健中的自监督学习

本文介绍由哈佛大学计算机科学系Rayan Krishnan 等人发表在 Nature biomedical engineering 上的一篇综述《Self-supervised learning in medicine and healthcare》。常规的深度学习模型需要大量标注的数据作为训练集,例如计算机视觉常用的数据集 ImageNet 包含了 21,000 类 1600 万张图片。然而对于医疗数据来说,想要获取这样规模的标注数据是非常困难的。一方面,标注医疗图像需要拥有专业的医疗知识;另一方面,不同于普通物体,我们一眼就可以分辨,医疗图像往往需要医学专家花费数分钟进行确认。因此,如何利用大量的无标签数据对于 AI 医疗的发展至关重要。自监督学习通过构建一系列的自监督任务来进行预训练,使得模型可以提取到更有用的特征,然后在有标签的数据集中进行进一步训练,使得模型在标注数据较少的条件下也能获得较好的泛化能力。文章展望了自监督学习应用于AI医疗的发展趋势,并介绍了两类近年来被广泛研究的用于 AI 医疗的自监督的预训练方法:对比学习和生成学习。

ccc14257d8dad41ea0aab86028b996dd.png

未来的发展

1、多模态数据可以得到充分利用,从而得到效力更好的模型。例如:同一病例的 X 光图像和放射透视报告可以形成正样本对;视网膜眼底图像和视网膜厚度值可以形成正样本对。通过自监督学习,来自不同医学测试的多维度数据可以更好地融合进而提高模型效果。

未来的医疗模型可能会有两个发展趋势:第一,更多地使用多模态数据。例如,患者的常规体测数据如年龄、体重、血压等可以与心电图融合在一起训练,这两类数据提供了不同的诊断支撑。第二,未来的模型可能会在预训练阶段引入更加广泛的医疗测试数据,使得模型可以“理解”潜在的疾病。某些非常规的医学测试数据是非常稀缺的,例如视网膜厚度测量数据,使用这类数据进行医疗预测就变得十分困难。在预训练中引入大量的、广泛的医学测试数据,或许可以使模型“理解”各类数据和疾病之间的潜在关系,使得模型在有限测试数据的条件下表现得更好。

2、自监督学习将会越来越多地应用到医学领域地其它任务上。例如:利用有限的标注数据按疾病的严重程度对病患进行分组,从而更好地分配医疗资源和进行针对性的治疗;预测病患对特定治疗手段的接受程度,从而优化治疗方案。另外,针对于患者个体的模型目前很少被研究,这类模型或许也将得到发展,从而可以为患者定制个性化的医疗保健方案。

3、自监督学习可能会用到时序多模态数据上。例如:病患不同时间段的医疗测试数据可以帮助模型理解疾病的各种变化;各种智能穿戴设备提供了大量有时序的体质检测数据,这些数据可以为医疗保健提供数据支撑。这类多模态数据提供了更加全面完整的医疗信息,使模型可以获得更加可靠的预测。

4、现在的模型都是基于已经收集好的数据,这些数据往往存在偏置(bias)。训练在偏置数据(biased data)上的模型往往是具有某种偏好的,这种偏好可能呈现出对某些药物的过度依赖甚至对特定人群的歧视。因此,未来需要有更好的方法和措施来收集大规模的、高质量的非偏置数据。例如,可以优化工作流程,使得医生可以在为患者诊断的过程中标注数据,而不是在诊断完成之后进行标注;可以在工作流程中按照自监督任务对数据进行标注;可以针对不同的人群训练不同的模型从而消除模型对人群的偏好。

两种预训练方法

对比学习

对比学习的核心思想是构建正负样本对,正样本代表两个样本属于同一个类别,负样本对表示两个样本属于不同类别。第一,构建正负样本对的方法有很多种。例如:图1-c从上往下依次展示了5种方法构建正样本对,分别是旋转图像、同一部位的不同角度的图像、不同时刻的心电图、拥有类似图结构的分子和多模态数据(X片和其文字描述)。第二,正负样本对有很多种用法。例如:图1-a中,输入  是一张眼底视网膜图像,将原图旋转  度之后得到一个新的图 ,将这图  输入到模型中预测其与原图的角度;图1-b中,将原图  旋转180度得到新的图 ,将这两张图分别输入到两个不同的编码器中得到两张图的 embeddings,拉近这两个 embeddings 之间的距离。

20cf9e3f4e54f8941a3d40a0d9a10b36.png

图1

生成学习

生成式预训练方法在自然语言处理方向得到了广泛的应用。这类方法的核心思想是遮盖住样本的一部分数据,然后用这个样本的其余部分对缺失的数据进行预测。例如,图2-a中,句子“It is a beautiful day outside”中的“day”被遮住,然后对这个句子进行编码得到一个隐藏特征,最后把隐藏特征输入到一个解码器希望可以还原出原始的句子。通过这种预训练方式得到的编码器可以处理一些特定的医疗任务,例如在图2-b,利用训练好的编码器,模型可以从文字描述获得诊断信息。图2-c展示了近年来已经用于生成式预训练模型的几种医疗数据,从上往下分别是:医学文字描述和电子病历、蛋白质序列、波形序列。这几类数据都可以非常直观地使用遮罩地思想进行预训练。

c116bf161d4e98df00ec8740c86e626c.png

图2

总结

利用大量无标签数据进行预训练可以显著提高机器学习模型的表现能力,尤其对于医学数据来说,获得大量的标注数据十分困难,自监督方法在AI医疗上拥有广阔的应用前景。未来在更多AI医疗的场景上,利用自监督学习融合多模态数据来提高模型质量会是一个重要的研究方向。此外,新的数据收集的流程和方法或许也将会被提出。

参考资料

Krishnan, Rayan, Pranav Rajpurkar, and Eric J. Topol. "Self-supervised learning in medicine and healthcare." Nature Biomedical Engineering (2022):

https://www.nature.com/articles/s41551-022-00914-1

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340