文件Zbl 1510.68088-zbMATH Open

自信学习：估计数据集标签的不确定性。（英语） Zbl 1510.68088号

J.阿蒂夫。智力。研究（JAIR） 70, 1373-1411 (2021).

总结：学习存在于数据环境中，而信心通常关注模型预测，而不是标签质量。自信学习（CL）是一种替代方法，它通过特征化和识别数据集中的标签错误来关注标签质量，基于剪枝噪声数据的原则，使用概率阈值来估计噪声，并对示例进行排序以进行自信训练。尽管许多研究独立地发展了这些原则，但在这里，我们将它们结合起来，建立在类条件噪声过程的假设基础上，以直接估计噪声（给定）标签和未损坏（未知）标签之间的联合分布。这导致了广义CL，该CL具有可证明的一致性和实验性能。我们给出了CL准确发现标签错误的充分条件，并表明CL的性能超过了CIFAR数据集上使用噪声标签进行学习的七种最新竞争方法。独特的是，CL框架是不与特定的数据模式或模型耦合（例如，我们使用CL在假定无错误的MNIST数据集中查找几个标签错误，并改进Amazon Reviews中文本数据的情感分类）。我们还在ImageNet上使用CL来量化本体类重叠（例如，估计645导弹图像被错误标记为其父类射弹)，并通过在训练前清理数据来适度提高模型精度（例如，对于ResNet）。这些结果可以使用开源软件进行复制清洁实验室释放。

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
68T09号	数据分析和大数据的计算方面
68立方英尺	知识表示

关键词：

机器学习;不确定性;本体

软件：

洁净实验室;MentorNet公司;开放多媒体程序库;MNIST公司;DivideMix公司;MS-COCO公司;OpenML-Python软件;CIFAR公司;混淆

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Amjad，M.、Shah，D.和Shen，D.（2018年）。鲁棒综合控制。机器学习研究杂志（JMLR），19（1）：802-852·Zbl 1445.62113号
[2]	Angluin，D.和Laird，P.（1988年）。从吵闹的例子中学习。机器学习，2（4）：343-370。
[3]	Arazo，E.、Ortego，D.、Albert，P.、O'Connor，N.E.和McGuinness，K.（2019年）。无监督标签噪声建模和损耗校正。国际机器学习会议
[4]	Beigman，E.和Klebanov，B.B.（2009年）。学习注释噪音。在计算语言学协会（ACL）年会上。
[5]	Bojanowski，P.、Grave，E.、Joulin，A.和Mikolov，T.（2017年）。用子单词信息丰富单词向量。计算语言学协会汇刊，5:135-146。
[6]	Bouguelia，M.-R.、Nowaczyk，S.、Santosh，K.和Verikas，A.（2018年）。同意不同意见：积极学习，使用嘈杂的标签，无需众包。国际机械杂志
[7]	Brodley，C.E.和Friedl，M.A.（1999年）。识别标记错误的培训数据。《人工智能研究杂志》（JAIR），11:131-167·Zbl 0924.68158号
[8]	Chen，P.、Liao，B.B.、Chen，G.和Zhang，S.（2019年）。理解和利用经过噪声标签训练的深层神经网络。国际机器学习会议
[9]	Chowdhary，K.和Dupuis，P.（2013）。区分和整合不确定性量化中的任意变量和认知变量。数学建模与数值分析·Zbl 1266.65009号
[10]	Dawid，A.P.和Skene，A.M.（1979年）。使用em算法对观测器误差进行最大似然估计。英国皇家统计学会杂志：C辑（应用统计学），28（1）：20-28。
[11]	Elkan，C.（2001）。成本敏感学习的基础。国际人工智能联合会议·Zbl 0979.03023号
[12]	Elkan，C.和Noto，K.（2008）。仅从正面和未标记的数据学习分类器。InSIGKDD知识发现和数据挖掘会议（KDD）。
[13]	Feurer，M.、van Rijn，J.N.、Kadra，A.、Gijsbers，P.、Mallik，N.、Ravi，S.、Müller，A.、Vanschoren，J.和Hutter，F.（2019年）。Openml-python：用于Openml.arXiv预打印arXiv:1911.02490的可扩展python api。
[14]	Forman，G.（2005）。尽管分类不准确，但仍准确计算阳性。在欧洲计算机视觉会议（ECCV）上。
[15]	Forman，G.（2008）。通过分类量化计数和成本。数据挖掘与知识发现，17（2）：164-206。
[16]	Goldberger，J.和Ben-Reuven，E.（2017年）。使用噪声适应层训练深层神经网络。在国际学习代表会议（ICLR）上。
[17]	Graepel，T.和Herbrich，R.（2001）。内核吉布斯采样器。神经信息处理系统会议（NeurIPS）。
[18]	Guo，C.、Pless，G.、Sun，Y.和Weinberger，K.Q.（2017）。关于现代神经网络的校准。在国际机器学习会议（ICML）上。
[19]	Halpern，Y.、Horn，S.、Choi，Y.和Sontag，D.（2016）。使用锚定学习框架的电子病历表型分析。美国医学信息学杂志
[20]	Han，B.、Yao，Q.、Yu，X.、Niu，G.、Xu，M.、Hu，W.、Tsang，I.和Sugiyama，M.（2018）。协同教学：使用极为嘈杂的标签对深度神经网络进行稳健训练。在
[21]	Han，J.、Luo，P.和Wang，X.（2019）。从嘈杂的标签中进行深度自学习。国际计算机视觉会议（ICCV）。
[22]	He，R.和McAuley，J.（2016）。起起落落：通过一级协同过滤模拟时尚趋势的视觉演变。国际互联网会议
[23]	Hendrycks，D.和Gimpel，K.（2017年）。检测神经网络中错误分类和分布外示例的基线。学习再现国际会议
[24]	Hendrycks，D.、Mazeika，M.、Wilson，D.和Gimpel，K.（2018年）。使用可信数据在被严重噪声破坏的标签上训练深层网络。神经信息会议
[25]	Hoffman，J.、Pathak，D.、Darrell，T.和Saenko，K.（2015）。野外探测器发现：联合多实例和表示学习。国际计算机视觉会议
[26]	Huang，J.、Qu，L.、Jia，R.和Zhao，B.（2019年）。O2u-net：一种用于深层神经网络的简单噪声标签检测方法。国际计算机视觉会议
[27]	Jiang，L.、Huang，D.、Liu，M.和Yang，W.（2020）。超越合成噪音：深入学习受控噪音标签。在国际机器学习会议（ICML）上。
[28]	Jiang，L.、Zhou，Z.、Leung，T.、Li，L.-J.和Fei-Fei，L.（2018）。Mentornet：学习基于数据驱动的课程，针对损坏标签上的深层神经网络。InInternational国际
[29]	Jindal，I.、Nokleby，M.和Chen，X.（2016）。通过辍学正则化从噪声标签学习深层网络。国际数据挖掘会议（ICDM）。
[30]	Joulin，A.、Grave，E.、Bojanowski，P.和Mikolov，T.（2017）。高效文本分类技巧包。计算语言学协会年会
[31]	Katz-Samuels，J.、Blanchard，G.和Scott，C.（2019年）。相互污染模型的去污。机器学习研究杂志（JMLR），20（41）：1-57·Zbl 1484.62077号
[32]	Khetan，A.、Lipton，Z.C.和Anandkumar，A.（2018）。从有噪声的单标签数据中学习。在国际学习代表会议（ICLR）上。
[33]	Krizhevsky，A.和Hinton，G.（2009年）。从微小图像中学习多层特征。多伦多大学计算机科学系硕士论文。
[34]	Lawrence，N.D.和Schölkopf，B.（2001年）。在标签噪声存在下估计核fisher判别式。在国际机器学习会议（ICML）上。
[35]	Li，J.、Socher，R.和Hoi，S.C.（2020年）。Dividemix：使用噪音标签进行学习，作为半监督学习。在国际学习代表会议（ICLR）上。
[36]	Li，W.、Wang，L.、Li，W、Agustsson，E.和Van Gool，L.（2017a）。网络视觉数据库：从网络数据中进行可视化学习和理解。arXiv:1708.02862。
[37]	Li，Y.，Yang，J.，Song，Y.、Cao，L.、Luo，J.和Li，L.-J.（2017b）。通过蒸馏从嘈杂的标签中学习。国际计算机视觉会议（ICCV）。
[38]	Lin，T.-Y.，Maire，M.，Belongie，S.，Hays，J.，Perona，P.，Ramanan，D.，Dollár，P.和Zitnick，C.L.（2014）。Microsoft coco：上下文中的常见对象。欧洲内部会议
[39]	Lipton，Z.、Wang，Y.-X.和Smola，A.（2018年）。使用黑盒预测器检测和纠正标签偏移。国际机器学习会议（ICML）。
[40]	Liu，T.和Tao，D.（2015）。通过重要性重新加权对噪声标签进行分类。IEEE模式分析和机器智能汇刊（TPAMI），38（3）：447-461。
[41]	Natarajan，N.、Dhillon，I.S.、Ravikumar，P.和Tewari，A.（2017年）。具有噪音标签的成本敏感学习。机器学习研究杂志（JMLR），18:155-1·Zbl 1467.68151号
[42]	Natarajan，N.、Dhillon，I.S.、Ravikumar，P.K.和Tewari，A.（2013）。用嘈杂的标签学习。神经信息处理系统会议（NeurIPS）·Zbl 1467.68151号
[43]	Northcutt，C.、Zha，S.、Lovegrove，S.和Newcombe，R.（2020年）。Egocom：一个多人多模式以自我为中心的通信数据集。IEEE模式分析汇刊
[44]	Northcutt，C.G.、Athalye，A.和Mueller，J.（2021）。测试集中普遍存在的标签错误会破坏机器学习基准的稳定性。国际学习会议
[45]	Northcutt，C.G.，Ho，A.D.和Chuang，I.L.（2016）。检测和防止大规模开放在线课程中的“多账户”作弊。计算机与教育，100:71-80。
[46]	Northcutt，C.G.、Wu，T.和Chuang，I.L.（2017）。用自信的例子学习：带噪声标签的稳健分类的等级修剪。关于不确定性的讨论
[47]	Page，L.、Brin，S.、Motwani，R.和Winograd，T.（1997年）。Pagerank：给网络带来秩序。技术报告，斯坦福数字图书馆工作文件。
[48]	Patrini，G.、Nielsen，F.、Nock，R.和Carioni，M.（2016）。损失因子分解、弱监督学习和标签噪声鲁棒性。国际机器会议
[49]	Patrini，G.、Rozza，A.、Krishna Menon，A.、Nock，R.和Qu，L.（2017年）。使深层神经网络对标签噪声鲁棒：一种损失校正方法。电脑会议
[50]	Ratner，A.J.、De Sa，C.M.、Wu，S.、Selsam，D.和Ré，C.（2016）。数据编程：快速创建大型训练集。神经信息处理系统会议（NeurIPS）。
[51]	Reed，S.E.、Lee，H.、Anguelov，D.、Szegedy，C.、Erhan，D.和Rabinovich，A.（2015）。用自举方法在噪声标签上训练深度神经网络。InInternational国际
[52]	Richard，M.D.和Lippmann，R.P.（1991年）。神经网络分类器估计贝叶斯后验概率。神经计算，3（4）：461-483。
[53]	Russakovsky，O.，Deng，J.，Su，H.，Krause，J.、Satheesh，S.、Ma，S.，Huang，Z.、Karpathy，A.、Khosla，A.、Bernstein，M.、Berg，A.C.和Fei-Fei，L.（2015）。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252。
[54]	Sáez，J.A.、Galar，M.、Luengo，J.和Herrera，F.（2014）。分析多类问题中噪声的存在：通过一对一分解减轻其影响。
[55]	Sambasivan，N.、Kapania，S.、Highfill，H.、Akrong，D.、Paritosh，P.和Aroyo，L.M.（2021）。“每个人都想做模型工作，而不是数据工作”：高风险的数据级联
[56]	Scott，C.（2015）。混合比例估计的收敛速度，应用于从噪声标签中学习。国际人工智能与统计会议（AISTATS）。
[57]	Shen，Y.和Sanghavi，S.（2019年）。通过迭代修剪损失最小化对不良训练数据进行学习。在国际机器学习会议（ICML）上，机器学习研究进展第97卷。
[58]	Shu，J.、Xie，Q.、Yi，L.、Zhao，Q.，Zhou，S.、Xu，Z.和Meng，D.（2019年）。Meta-weight-net：学习样本权重的显式映射。神经信息会议
[59]	Sugiyama，M.、Suzuki，T.和Kanamori，T.（2012年）。《密度比估算》，ML.剑桥大学出版社，美国纽约州纽约市，第1版·Zbl 1274.62037号
[60]	Sukhbaatar，S.、Bruna，J.、Paluri，M.、Bourdev，L.和Fergus，R.（2015）。训练带有噪声标签的卷积网络。国际学习代表大会
[61]	Tanno，R.、Saeedi，A.、Sankaranarayanan，S.、Alexander，D.C.和Silberman，N.（2019a）。通过正则化估计注释器混淆度，从噪声标签中学习。InConference会议
[62]	Tanno，R.、Saeedi，A.、Sankaranarayanan，S.、Alexander，D.C.和Silberman，N.（2019b）。通过正则化估计注释器混淆度，从噪声标签中学习。InConference会议
[63]	Vahdat，A.（2017）。训练深度判别神经网络时对标签噪声的鲁棒性。神经信息处理系统会议（NeurIPS）。
[64]	Van Rooyen，B.、Menon，A.和Williamson，R.C.（2015）。学习对称标签噪音：精神错乱的重要性。神经信息处理系统会议（NeurIPS）。
[65]	Wang，Y.、Ma，X.、Chen，Z.、Luo，Y.，Yi，J.和Bailey，J.（2019）。对称交叉熵用于带噪声标签的鲁棒学习。国际计算机视觉会议
[66]	Wei，C.、Lee，J.D.、Liu，Q.和Ma，T.（2018）。关于前馈神经网络的裕度理论。计算研究库（CoRR）。
[67]	Xu，Y.，Cao，P.，Kong，Y.和Wang，Y..（2019年）。L_dmi：一种新的信息理论损失函数，用于训练对标签噪声鲁棒的深网。神经信息会议
[68]	Yun，S.、Oh，S.J.、Heo，B.、Han，D.、Choe，J.和Chun，S（2021）。重新标记imagenet：从单个标签到多个标签，从全局标签到本地化标签。电脑会议
[69]	Zhang，C.、Bengio，S.、Hardt，M.、Recht，B.和Vinyals，O.（2017a）。理解深度学习需要重新思考泛化。国际学习会议
[70]	Zhang，H.、Cisse，M.、Dauphin，Y.N.和Lopez-Paz，D.（2018年）。混淆：超越经验风险最小化。在国际学习代表会议（ICLR）上。
[71]	Zhang，J.、Sheng，V.S.、Li，T.和Wu，X.（2017b）。使用噪声校正提高众包标签质量。IEEE神经网络和学习系统汇刊，29（5）：1675-1688。
[72]	在本节中，我们重申了自信学习的主要定理，并提供了它们的证明。
[73]	引理1（理想阈值）。对于有噪声数据集x:=（x，yá）n∈（Rd，[m]）和模型θ，
[74]	证明。我们使用tit表示用于划分Xintombins的阈值，每个估计值
[75]	Xy*中的一个。根据定义，∀i∈[m]，ti=Ex∈Xyá=ipˆ（Уy=i；x，θ）
[76]	总之，我们展示了以下内容。ti=Epˆ。贝叶斯规则
[77]	i=j表示正确标记的概率，而当ni6=j时，术语给出了
[78]	误标概率p（Уy=i\|y=j），由概率p（y=j\|yУ=i）加权
[79]	标签错误得到纠正。
[80]	θ： x个→pˆy），ifpᮼy；x，θi为deal，Qyá\|y*的每个对角线条目将其行最大化
[81]	证明。Alg.1定义了可靠接头的构造。我们考虑案例1：何时
[82]	存在碰撞（通过构造Alg.1可以忽略不计）和情况2：当没有
[83]	碰撞（更难）。案例1（碰撞）：
[84]	xkgets被双射地分配到bin xk∈X∈y，y~*[~yk][arg maxp Plot（~y=i；X，θ）]中
[85]	因为我们认为pˆx，θ是理想的，所以我们可以将其改写为xk∈x \710；y，y[yk][arg maxp \710；（y=i\|y=yk*；x）]
[86]	给出的标签噪音很大，因此可靠接头（等式1）永远不会将其放错位置
[87]	因此，权利要求1和权利要求2足以证明Xõy~=i，y=j=Xy~=i，y=j。
[88]	案例2的证据（权利要求1）：检查设备。（1）和Alg（1），通过建造
[89]	Cy，yá，我们得到了∀x∈Xyá=i，pˆ（Уy=j\|y=j；x，θ）≥tj−→当
[90]	左侧为true，所有示例中都隐藏了嘈杂的标签，计算了真实的标签
[91]	inXˆyá=i，y∗=j。因此，它足以证明：
[92]	j\|y*=j），∀x∈Xyá=i。注意从预测概率pˆ到精确概率的变化，
[93]	p。因此，通过理想条件，（5）中的不等式可以写成asp（~y=j\|y*=j）≥tj，
[94]	案例2的证明（权利要求2）：我们通过矛盾证明Xyá=i，y6=jXˆyá=i，y*=j。假设
[95]	存在一些示例xk∈Xyá=i，y∗=zforz6=j，因此xk∈》Xˆyá=i，y*=j。根据权利要求1，
[96]	与arg max相匹配。因为Qyá\|y*的每个对角线条目都将其行和列最大化
[97]	∀i∈[m]，j∈[m]，Xˆyá=i，y∗=j=Xyá=i，y＊=j，即置信联合计数分区
[98]	对于所有对（i，j）∈[m]×m，thusCy，yá=nQy，yОand Qˆy，yУuQy，yО*。省略
[99]	离散化误差，当归一化为Qˆy，y⁄时，置信联合Cy，yá是一个精确的估计量
[100]	对于Qy，y*。例如，如果噪声率为0.39，但数据集中只有5个示例
[101]	类中，通过删除错误的最佳可能估计值是2/5=0.4u0.39。
[102]	推论1.0（精确估计）。对于有噪声的数据集，（x，y~）n∈（Rd，[m]）和θ：x→pˆ（y），
[103]	Xˆyá=i，yм=j=Xyм=i，yа=j，然后Q \710»y，yк*uQy，yа。
[104]	证明。结果直接来自定理1。因为自信的联合很重要
[105]	对于所有对（i，j）∈[m]×Mby定理1，Cy，yá=nQy，yб=j，省略
[106]	离散化舍入误差。在正文中，定理1包括推论1.0，以简洁明了。我们已经分开了
[107]	推论1.0在这里表明，定理1的主要贡献是证明yá=i，yм=j=Xyм=i，yа=j，从中可以得出推论1.0的结果，即Qˆy，yбuQy，yк
[108]	自然地，省略了离散化舍入错误。
[109]	推论1.1（类内稳健性）。对于有噪数据集，X:=（X，yá）n∈（Rd，[m]）nand
[110]	证明。重新定义类衍射的含义，我们希望证明ifpˆ（y；x，θ）是
[111]	与类条件噪声衍射s.t.∀j∈[m]，pˆ（Уy=j；x，θ）=（1）j·p（Гy=j\|y=y*k）+（2）j
[112]	ofQy~\|y使其行最大化，则X∈y~=i，y=j=Xy~=i，y=jandQ∈y，y~uQy，y~*。首先注意，将实值（1）jand（2）j的线性组合与
[113]	对于每个示例，类j的概率可能会导致一些示例具有pˆx，yá=j=jpx，yУ=j+（2）j>1或x，yб=j=（1）jpx，yк=j+j2）j<0。证据对
[114]	模型的有效性输出，因此在发生这种情况时保持有效。此外，自信
[115]	当发现标签错误时，学习不需要有效的概率，因为自信
[116]	学习取决于银行原则，即概率的排名，而不是数值
[117]	概率。当没有标签冲突时，由可靠关节创建的箱子为：
[118]	对于给定的nj，j:tjj=E（1）j（p*x，yá=j+（2）j）
[119]	对于理想概率，我们证明了Cy，yá*会产生精确的标签错误和一致性
[120]	定理1中Qy，yá*的估计，从而得出了证明。请注意，我们消除了
[121]	需要假设Qyá\|y*的每个对角线条目使其列最大化，因为
[122]	这个假设仅在发生碰撞时用于定理1的证明，但这里我们
[123]	只考虑没有碰撞的情况。
[124]	证明。当学习模型θ：x→pˆy输出
[125]	错误的、非理想的预测概率，每个示例都添加了一个错误项，
[126]	在每个类中，如∀x∈x，\8704»j∈[m]，pˆx，yá=j=p*x，yУ=j+x，yб=j。作为一种符号
[127]	reminderpx，y=ji是理想概率的简写p（бy=j\|y=yk）+x，yб=jandpˆx，yм=j
[128]	是预测概率pˆ的简写形式（y=j；x，θ）。预测的概率误差x，y~=ji是均匀分布的，没有其他约束。
[129]	通过查看等式中均匀分布的形式可以看出。(4). 如果我们愿意，我们可以
[130]	添加约束j=0，∀j∈[m]，这将简化定理和证明，但
[131]	不是一般的，我们证明了在没有这个约束的情况下精确的标签误差和联合估计。我们重申了公式中错误的形式。（4）这里（U表示均匀分布）：
[132]	如果此陈述为真，则由等式中的可靠关节创建的子集<a href=“12125ArticlePDF2669111020210414.html#是
[133]	未经修改，因此Xˆyx=，yi，yá=∗j=j=ᮼXáy=i，y=jT hm.=<a href=“12125ArticlePDF2669111020210414.html#Xyá=i，y∗=j，其中XᮽyмX=，yy，yм=j=子代
[134]	置信联合子集forx，yá=j预测概率。现在我们完成了证明。根据分配forx，yá=j（公式<a href=“12125ArticlePDF2669111020210414.html#<a href=#
[135]	重新排列px，yá=j<tj=⇒px，yá=j+x，yО=j<tj+j px=⇒px，y~=j+x，y~=j≥tj+j
[136]	使用反阳性，我们得到px，y=j+x，y=j≥tj+j=⇒px，y=j≥tj
[137]	结合起来，我们有p*x，y~=j+x，y~=j≥tj+j⇐⇒p∗x，yá=j≥tj
[138]	与Thm中理想概率下的置信联合计数条件相同（p*x，yá=j≥tj）
[139]	保持无标签冲突。该证明适用于有限数据集，因为我们忽略了
[140]	然而，对于等式，证明需要假设→ ∞哪一个是n→∞
[141]	在定理的陈述中。注意，当我们在等式4中使用均匀分布时，任何有界对称
[142]	模式j=Ex∈Xx，jis的分布就足够了。观察分布的边界
[143]	是非真空的（它们不会塌陷为单个值ej），因为tj6=p*x，yá=j by Lemma1。
[144]	式2中。为了清楚起见，我们以算法形式提供了这些方程（参见算法1和算法2）。1407
[145]	Cy，yá*。该算法需要两个输入：（1）预测样本外的Pˆann×mmatrix
[146]	概率pˆ[i][j]：=\710»p（y=j；xi，θ）和（2）相关的噪声标签数组。我们通常
[147]	使用交叉验证来计算列车集和在列车集上训练的模型的P
[148]	使用测试集上的交叉验证进行微调，以计算测试集的Pˆ。任何方法
[149]	结果所有表格都可以通过开源cleanlabpackage进行复制。注意，Alg.1包含等式1，Alg.2实现等式3。
[150]	类条件标签噪声输入Cy，yá*[i][j]，m×m归一化计数输入γ-ann×1噪声整数标签序列联合估计（C，yí）：←PCyá=i，y∗=j·\|X
[151]	图S1显示了真实接头Qy、y⁄*和接头分布的绝对差异
[152]	使用CIFAR-10上的自信学习Qˆy，yá*估计，20
[153]	20
[154]	注意，在中等噪音条件下
[155]	准确估计标签噪声联合分布中的几乎每个条目。这个数字
[156]	为自信学习如何识别标签错误提供证据
[157]	如表2所示的准确性，也支持我们自信的理论贡献
[158]	学习在合理假设（c.f。，
[159]	CL在火车集中清理的数据，我们可能已经引起了分布变化，使
[160]	适度提高精度，效果更令人满意。在表S1中，我们使用混淆矩阵C混淆方法估计Qy，yá*
[161]	通过方程进行归一化。（3）并比较通过归一化CL方法估算的Qˆy，y⁄*
[162]	显示了使用Cy、yá*克服Cconfusion、低RMSE分数和稀疏性鲁棒性的改进
[163]	在中等噪音环境中。1408
[164]	图S1：真实接头Qy、y⁄*和估计的接头分布的绝对差异
[165]	在CIFAR-10上使用自信学习Qˆy，yá*，20
[166]	和60
[167]	与使用基线方法C混淆来估计Qˆy，y相比。噪声0.20.40.7稀疏度00.20.40.600.20.40.40.600.20.4.0.6 kQˆy，y∗-Qy，yák20.004 0.004 0.004 0.0040.004 0.004000.0100.0150.017 kQɢconf usion-Qáy，y*k20.0060.0060.0050.0050.0050.007 0.011 0.011 0.015 0.019
[168]	C.1基准INCV
[169]	和4个RTX 2080 ti GPU。由于内存泄漏问题（截至2020年2月开源
[170]	该版本在MacOS笔记本电脑上测试，内存16GB，Ubuntu 18.04 LTS Linux服务器
[171]	错误。为了公平比较，我们重新启动了INCV培训，直到所有模型至少完成
[172]	90个训练纪元。对于每个实验，表S2显示了培训所需的总时间，
[173]	时代的完成，以及相关的准确性。如表所示，培训时间
[174]	INCV可能需要20多个小时，因为该方法需要反复培训。对于
[175]	相比之下，CL在同一台机器上花费的时间不到三个小时：一个小时用于交叉验证，
[176]	发现错误不到一分钟，重新培训需要一小时。2https://github.com/chenpf1025/noisy_labelunderstanding_utilization（https://github.com/chenpf1025/noisy_labelunderstanding_utilization）
[177]	用于各种噪声和稀疏度设置。噪音0.20.40.7备件00.20.40.600.20.40.400.20.440.6准确度0.8780.8860.8960.892 0.8440.7660.8540.7360.2830.2530.3480.297时间（小时）9.120 11.350 10.420 7.220 20.420 6.180 16.230 17.250 16.880 18.300 Epochs培训9191200157912001399292118200
[178]	在这一节中，我们包括支持主要手稿的其他数字。图S2
[179]	探索个人自信学习方法的基准准确性，以支持
[180]	正文中的图5和图4。图S3中所示的噪声矩阵用于
[181]	为表4和2中的结果生成合成噪声标签。图S2显示了移除标签时ILSVRC验证集的前1精度
[182]	CL方法估计的误差与删除随机示例的误差。对于每种CL方法，我们
[183]	用20绘制训练的准确性
[184]	忽略200k以上的点。69
[185]	图S2：在ImageNet上使用CL方法提高ResNet验证准确性
[186]	原始标签（未添加合成噪声）。每种方法线上的每个点，从左起
[187]	右侧，描绘了20人训练的准确性
[188]	已删除。使用Clopper-Pearson 95估计误差线
[189]	当示例被均匀随机删除时，将捕获破折号基线。黑人
[190]	虚线表示训练时所有示例的准确性。1410
[191]	图S3：用于创建合成标签错误的CIFAR-10噪声转换矩阵。
[192]	在清洁标签代码库中，用sis代替yá来表示未观察到的有噪音标签和
[193]	用yis代替y*表示潜在的未腐蚀标签

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

自信学习：估计数据集标签的不确定性。（英语） Zbl 1510.68088号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

自信学习：估计数据集标签的不确定性。 （英语） Zbl 1510.68088号

MSC公司：

关键词：

软件：

参考文献：

自信学习：估计数据集标签的不确定性。（英语） Zbl 1510.68088号