机器学习是人工智能(AI)简而言之,它涉及给软件提供数千个示例,以便它学习执行识别任务,例如通过图像识别狗或猫。美容斑或恶性黑色素瘤。从理论上讲,这将在医学上开辟一个广泛的应用领域。例如,x光是从数千名患有相同疾病的患者身上采集的,这就是所谓的队列。然后,使用这个机器学习数据,计算机将在筛选其他人时拍摄的任何新图像中检测到相同的视觉特征。这将成为目标数据。
科学期刊npj数字医学在2022年4月的期刊上发表了一篇论文,强调了科学投资与该领域实际临床进展之间的差距。这篇论文的作者是哥本哈根IT大学的维罗妮卡·切普丽吉纳和Inria Saclay中心的研究主管盖尔·瓦罗佐。
从信息技术的角度来看,研究工作主要集中在提高算法性能目的是使他们更有辨别力,并确保他们确实能够检测到感兴趣的区域。这场争夺最佳模型的竞赛引发了科学论文的狂潮,同时也导致了最能被认为是由卡格尔谷歌银河中的一个平台。但在实践中,从医学的角度来看,这项研究活动“几乎没有临床影响”,令加勒·瓦罗佐苏打水主管[1]Inria Saclay中心的团队和一项研究的合著者[2]打破这一悖论背后的机制。
扭曲模型的偏见
许多不同的现象正在共同作用。首先,存在的问题是没有足够的数据来训练算法。“当数据集太小时,很容易获得可见的性能,但这并不意味着更广泛的性能。这里的问题是,在医学中,很少有大的队列。我们确实可以访问的是相对于我们使用的方法的复杂性和要解决的问题的复杂性而言太小了1000人是不够的。即使是1万也不一定。10万就足够我们开始看到东西了。但很明显,这很难让你动手,特别是对于罕见的疾病。”
更重要的是,这些训练数据有时包含偏差,这可能会扭曲模型。“在皮肤病学中,一些算法是在医生用铅笔圈出恶性肿瘤的图像上进行训练的。这些算法并没有超越已经圈出的癌。气胸也发生了同样的情况,只是这次是胸腔引流,把学习搞砸了。”当目标数据没有流失时,算法没有检测到任何内容。
需要重新思考的几个方面
论文还指出,机器学习的研究不一定集中在该技术最具影响力的临床领域。“如果你看一下算法之间的竞争,你会发现很多与肺部x光有关的东西。但据我们所知,只有一种与乳房x光有关,尽管事实上,在治疗最有效的早期发现乳腺癌最有益处。生存机会极高。从逻辑上看,从医学角度来看,这种癌症的机器学习应该优先考虑.”
就算法本身的改进而言,这些往往可以忽略不计。“科学家们正在付出越来越多的努力,但在性能方面的收益越来越小。”作者仔细研究了Kaggle组织的八项比赛:肺癌、前列腺癌、精神分裂症、颅内出血等。在八项比赛中,有五项比赛中排名第一的算法获得的收益非常低,低于能够影响测量的误差范围。
另一个特点是所谓的过拟合。这是指统计模型经过非常精细的调整,以便完全匹配一个特定的数据集。这样做可以提高此精确数据集的性能,但在处理其他数据时,该算法将缺乏效率。“总有一天,你需要停止摆弄东西。”
从字里行间看,社会学研究也存在一个问题。“我们的激励系统不符合目的。科学家是根据他们发表的论文数量来排名的。这就好像他们是按照里程来排名的,并被鼓励写更多的行。It专家继续改进他们的算法。他们发表了很多文章。但当他们停止研究这是一个实际问题,没有任何用处。然后他们必须从医学的角度来看待它。但对于一个有数学背景的人来说,这并不容易。这是两个真理冲突的例子。其中一个涉及数字、公理和形式问题。另一种是处理患者的情况和他们的状况。”
如何弥合这一差距?通过创建跨学科社区?“经验告诉我们,这是我们需要做的。也就是说,光靠它是不够的。IT专家必须走出他们的舒适区。他们必须使用他们的算法去和医生交谈。这可能很难,但很重要。我们这篇文章的目的之一是结束这种认知失调,迫使人们接受这个问题。”
加强学科间性
那么,我们如何弥合这两个世界之间的差距呢?通过创建跨学科社区?“经验证明,我们需要做到这一点。也就是说,这是必要的,但还不够。最重要的是,计算机科学家必须走出自己的舒适区。他必须去找使用他的算法的医生谈谈。这可能会带来伤害,但这很重要。我们文章的目标之一就是打破认知失调存在是为了迫使人们意识到这个问题。"
[1]苏打是一个应用于健康和社会科学(流行病学、预防……)的机器学习研究团队。
[2]医学成像的机器学习:方法学失败与未来建议,Gaöl Varoqueux,Veronika Cheplygina(Inria,蒙特利尔麦吉尔大学,Mila Montreal和哥本哈根IT大学),npj数字医学,2022年4月。