×

从非线性距离度量到基于核的处方预测系统的分析。 (英语) Zbl 1510.92092号

摘要:距离度量及其非线性变量在机器学习中发挥着重要作用,特别是在构建核函数中。通常使用带径向基函数的欧氏距离(RBF)构造RBF核进行非线性分类。然而,域含义会周期性地约束距离度量。具体来说,在药物疗效预测领域,距离测量必须考虑到根据疾病持续时间(短到慢性)变化的时间。最近,一种距离衍生图核方法被商业许可用于药物处方疗效预测。对其中使用的距离函数,即欧几里德距离测度和余弦距离测度及其各自导出的图核进行了分析。从理论上讲,我们提供了我们努力的公式,证明了欧几里得距离和余弦距离是如何诱导空间的,并从几何角度讨论了差异。上述方法同样是使用寿命预测、真实世界、电子健康记录数据库中的一百多万患者子集进行实证评估的。疾病的特点是要么持续时间短,要么慢性,要么常见,因此数据平衡,要么相对罕见,因此不平衡。从经验上讲,该系统准确预测了处方对平衡和不平衡以及短期和慢性疾病的疗效,其中至少有一项指标在统计上显著优于传统预测方法。简而言之,对于短期、平衡的疾病,欧几里德和余弦测量值在统计上基本相等。然而,对于短期的不平衡疾病,欧几里德测量优于余弦测量,有时甚至偶尔具有统计学显著性。对于慢性平衡疾病,欧几里德略优于余弦,但在统计学上是等效的。相反,对于慢性不平衡疾病,余弦测度在统计学上始终显著优于欧几里得测度。这些发现表明,根据用例需要这两种度量。我们的实证结果符合我们的理论基础。

MSC公司:

92 C50 医疗应用(一般)
68T07型 人工神经网络与深度学习
53立方厘米17 亚黎曼几何

软件:

亚当t-SNE公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] J.Han,M.Kamber,J.Pei,数据挖掘概念和技术第三版,《数据管理系统中的摩根考夫曼系列》5(2011),第83-124页。
[2] A.Singhal,《现代信息检索:简要概述》,IEEE Data Eng.Bull。24 (2001), 35-43.
[3] A.S.Ruocco,O.Frieder,并行环境中大型文档库的聚类和分类,J.Amer。Soc.信息。科学。48 (1997), 932-943.
[4] D.C.Chang,O.Frieder,H.R.Yao,《关于bochner定理及其在图核中的应用》,J.非线性凸分析。19 (2018), 2135-2151. ·Zbl 1457.32012号
[5] H.R.Yao,D.C.Chang,O.Frieder,W.Huang,T.S.Lee,药物预处方的多图核融合预测,第十届ACM生物信息学、计算生物学和健康信息学国际会议论文集,2019年,第103-112页。
[6] B.Haasdonk,C.Bahlmann,《使用距离替代核学习》,联合模式识别交响乐团,施普林格,柏林,海德堡,2004年。
[7] B.Kulis,《度量学习:一项调查》,《机器学习的基础和趋势》5(2012),287-364·Zbl 1278.68014号
[8] J.Hu,J.Lu,Y.P.Tan,野外人脸验证的判别深度度量学习,IEEE计算机视觉和模式识别会议论文集,第1875-1882页,2014年。
[9] X.Liu,B.V.K.Vijaya Kumar,J.You,P.Jia,身份感知面部表情识别的自适应深度度量学习,IEEE计算机视觉和模式识别研讨会会议记录,第522-531页,2017年。
[10] M.Jiu,H.Sahbi,图像注释的非线性深核学习,IEEE Trans。图像处理。26 (2017), 1820-1832. ·Zbl 1409.94280号
[11] A.G.Wilson,Z.Hu,R.Salakhutdinov,E.P.Xing,深核学习,《第19届国际人工智能与统计会议论文集》,AISTATS 2016,第370-378页,2016年。
[12] H.R.Yao,D.C.Chang,O.Frieder,W.Huang,I.C.Liang,C.F.Hung,药物处方的全球注意力图核网络预测,第十一届ACM国际生物信息学、计算生物学和健康信息学会议论文集,BCB 2020,美国,2020。
[13] J.K.Aronson,《药物错误:它们是什么、如何发生以及如何避免它们》,《QJM:国际医学杂志》102(2009),513-521。
[14] H.A.Jackson,J.Cashy,O.Frieder,A.J.Schaeffer,电子病历中的数据挖掘衍生治疗算法改进了门诊尿路感染的理论经验治疗,《泌尿外科杂志》186(2011),2257-2262。
[15] H.R.Yao,D.C.Chang,O.Frieder,W.Huang,T.S.Lee,《药物处方的图形核预测》,2019年IEEE EMBS国际生物医学和健康信息学会议,BHI 2019-《伊利诺伊大学学报》,芝加哥,88346762019年。
[16] N.M.Kriege,F.D.Johansson,C.Morris,《图形内核调查》,应用。网络科学。5 (2020), 1-42.
[17] O.Calin,D.C.Chang,《黎曼流形上的几何力学:偏微分方程的应用,应用和数值分析》,29,Birkhäuser,马萨诸塞州波士顿,2004年。
[18] W.L.Chow,优步系统van Linearen partiellen Differentialgleichungen erster Ordnung,数学。《年鉴》第117卷(1939年),第98-105页·JFM 65.0398.01号
[19] O.Calin,D.C.Chang,《Sub-Riemannian几何、一般理论和示例》,《数学及其应用百科全书》,126,剑桥大学出版社,2009年·Zbl 1171.53021号
[20] O.Carathéodory,Untersuchungenüber die Grundlagen der Thermodynamik,数学。分析。67 (1909), 93-161.
[21] O.Calin,D.C.Chang,K.Furutani,C.Iwasaki,《椭圆和亚椭圆算子的热核:方法和技术,应用和数值分析》,47,Birkhäuser,马萨诸塞州波士顿,2010年·Zbl 1207.35002号
[22] D.C.Chang,Y.Li,Grushin操作符家族的热内核,方法应用。分析。21 (2014), 291-312. ·Zbl 1318.53022号
[23] D.C.Chang,K.P.Lin,Stephen S.T.Yau,“带四次势的薛定谔方程和非线性滤波问题,第48届IEEE决策与控制会议论文集,上海,8089-80942009。
[24] C.Teleman,Asupra Sistemelor Mecanice Neonolome,Ana公司。C.大学。I.Purhon”,《布库雷斯蒂,塞里亚圣纳图里》,第13页(1957年),第45-52页·Zbl 0081.08702号
[25] D.C.Chang,I.Markina,A.Vasilév,《测地学与n个球体的Hopf纤维距离》,《几何物理学杂志》。61 (2011), 986-1000. ·Zbl 1217.53036号
[26] N.Shervashidze,P.Schweitzer,E.J.Van Leeuwen,K.Mehlhorn,K.M.Borgwardt,Weisfeiler-lehman graph kernels,J.Machine Learning Res.12(2011),2539-2561·Zbl 1280.68194号
[27] M.Sugiyama,K.M.Borgwardt,《在随机游走内核中停止》,《高级神经信息》。过程。系统。2015 (2015), 1639-1647.
[28] R.Hadsell,S.Chopra,Y.LeCun,通过学习不变映射降低维数,IEEE计算机视觉和模式识别会议论文集,第2卷,第1735-1742页,纽约,2006年。
[29] D.P.Kingma,J.Ba,Adam:《随机优化方法》,第三届学习表征国际会议,2015年,圣地亚哥,ICLR。
[30] Q.Le,T.Mikolov,句子和文档的分布式表示,第31届机器学习国际会议,ICML 2014年,第4卷,第2931-293页,2014年。
[31] L.Van der Maaten,G.Hinton,《使用t-SNE可视化数据》,J.Machine Learn。第9号决议(2008年),2579-2625·兹比尔1225.68219
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。