研究论文

有偏见的专家组合：在数据传输限制下实现计算机视觉推断

作者：
阿尔哈比卜·阿巴斯

英国伦敦大学学院电子与电气工程系。

英国伦敦大学学院电子与电气工程系。

0000-0002-1928-9823
查看个人资料

,
伊安尼斯·安德烈奥普洛斯

英国伦敦大学学院电子与电气工程系。

英国伦敦大学学院电子与电气工程系。

0000-0002-2714-4800
查看个人资料

IEEE图像处理汇刊第29卷2020第7656–7667页https://doi.org/10.1109/TIP.2020.3005508

出版：2020年1月1日出版历史

IEEE图像处理汇刊

摘要

我们提出了一种新的专家混合类，用于根据测试时的数据传输限制优化计算机视觉模型。我们的方法假设，允许高精度结果的最小可接受数据量可能因不同的输入空间分区而异。因此，我们考虑专家需要不同数量数据的混合，并训练稀疏选通函数来划分每个专家的输入空间。通过适当的超参数选择，我们的方法能够使混合专家偏向于选择特定专家。通过这种方式，我们表明视觉传感和处理之间的数据传输优化可以作为一个凸优化问题来解决。为了证明数据可用性和性能之间的关系，我们评估了一系列主流计算机视觉问题的有偏混合，即：（i）单镜头检测，（ii）图像超分辨率，和（iii）实时视频动作分类。在所有情况下，当专家制定修改后的基线以满足允许的数据效用的不同限制时，偏差混合显著优于先前为满足可用数据的相同约束而优化的工作。

参考文献

[1]阿古斯松E。和蒂莫夫特·R。, “NTIRE 2017单图像超分辨率挑战：数据集与研究，“in程序。IEEE配置计算。视觉。模式识别器。研讨会（CVPRW）,2017年7月，第页。126——135.谷歌学者
[2]BalléJ。,拉帕拉五世。、和西蒙塞利E.P。, “端到端优化的图像压缩,”2016,arXiv公司：1611.01704。[在线]。可用：http://arxiv.org/abs/1611.01704谷歌学者
[3]本吉奥E。,培根P.-L。,皮诺J。、和预杯D。, “神经网络中快速模型的条件计算,”2015,arXiv:1511.06297号。[在线]。可用：http://arxiv.org/abs/1511.06297谷歌学者
[4]本吉奥·Y。,莱昂纳尔·N。、和库尔维尔A。, “通过随机神经元估计或传播梯度以进行条件计算,”2013,arXiv公司：1308.3432。[在线]。可用：http://arxiv.org/abs/1308.3432谷歌学者
[5]博格沃德K.H。,单纯形法：概率分析，卷。1.德国柏林:Springer-Verlag公司,2012.谷歌学者
[6]博伊德·S。和范登伯格。,凸优化.英国剑桥。:剑桥大学出版社,2004.谷歌学者交叉引用
[7]卡雷拉·J·。和齐瑟曼A。, “Quo vadis，动作识别？一种新的模型和动力学数据集，”中程序。IEEE配置计算。视觉。模式识别。（CVPR）,2017年7月，第页。4724——4733.谷歌学者
[8]查达A。,阿巴斯A。、和安德烈奥普洛斯·Y。, “基于CNN的视频分类：将编解码器用作时空活动传感器,”IEEE传输。电路系统。视频技术。，卷。29，编号，第页。475——485,2月。 2019.谷歌学者数字图书馆
[9]蔡S.-P。,张新民。、和袁C。, “使用可伸缩的Blinn-Phong照明对移动云游戏进行分层编码,”IEEE传输。图像处理。，卷。25，没有。7，第页。3112——3125,7月。 2016.谷歌学者交叉引用
[10]丹顿E.L。,钦塔拉S。、和弗格斯·R。, “使用拉普拉斯金字塔对抗网络的深度生成图像模型，“in程序。高级神经信息处理。系统。,2015，第页。1486——1494.谷歌学者
[11]东C。,洛伊·C。、和唐十。, “加速超分辨率卷积神经网络，”中程序。Eur.Conf.计算。视觉。瑞士查姆:施普林格,2016，第页。391——407.谷歌学者
[12]费赫滕霍夫C。,平茨A。、和齐瑟曼A。, “用于视频动作识别的卷积双流网络融合，“in程序。IEEE配置计算。视觉。模式识别。（CVPR）,2016年6月，第页。1933——1941.谷歌学者
[13]菲德勒·M·。,奈多马·J·。,拉米克·J。,罗恩·J。、和齐默尔曼K。,数据不精确的线性优化问题.美国纽约州纽约市:施普林格,2006.谷歌学者
[14]古德费罗一世。等。, “生成性对抗网络，“in程序。高级神经信息处理。系统。,2014，第页。2672——2680.谷歌学者
[15]韩S。,毛H。、和戴利·W·J。, “深度压缩：使用剪枝、训练量化和哈夫曼编码压缩深度神经网络,”2015,arXiv:1510.00149。[在线]。可用：http://arxiv.org/abs/1510.00149谷歌学者
[16]韩S。,池J。,Tran J.公司。、和Dally W。, “学习有效神经网络的权值和连接，”中程序。高级神经信息处理。系统。,2015，第页。1135——1143.谷歌学者
[17]He K。,张欣。,任S。、和孙J。, “用于图像识别的深度残差学习，”中程序。IEEE配置计算。视觉。模式识别。（CVPR）,2016年6月，第页。770——778.谷歌学者
[18]辛顿G.E。, “用神经网络降低数据的维数,”科学类，卷。313，没有。5786，第页。504——507,7月。 2006.谷歌学者交叉引用
[19]霍华德·A·G。等。, “MobileNets：用于移动视觉应用的高效卷积神经网络,”2017,arXiv:1704.04861。[在线]。可用：http://arxiv.org/abs/1704.04861谷歌学者
[20]黄J。等。, “现代卷积目标检测器的速度/精度权衡，“in程序。IEEE配置计算。视觉。模式识别。（CVPR）,2017年7月，第页。7310——7311.谷歌学者
[21]朱伯伦M。,阿巴斯A。,查达A。、和Andreopoulos Y。, “深度卷积神经网络在视频分类中的速率-精度权衡,”IEEE传输。电路系统。视频技术。，卷。30，没有。1，第页。145——154,简。 2020.谷歌学者交叉引用
[22]李Y。,刘迪（Liu D.）。,李浩（Li H.）。,李莉。,李Z。、和吴飞（Wu F.）。, “学习卷积神经网络进行图像压缩分辨率,”IEEE传输。图像处理。，卷。28，没有。三，第页。1092——1107,3月。 2019.谷歌学者交叉引用
[23]林杰（Lin J.）。,饶毅（Rao Y.）。,卢杰（Lu J.）。、和周杰。, “运行时神经剪枝，“in程序。高级神经信息处理。系统。,2017，第页。2181——2191.谷歌学者
[24]林天佑（Lin T.-Y.）。等。, “Microsoft COCO:上下文中的通用对象，“in程序。Eur.Conf.计算。视觉。瑞士查姆:施普林格,2014，第页。740——755.谷歌学者
[25]刘伟（Liu W.）。等。, “SSD：单发多盒探测器，“in程序。Eur.Conf.计算。视觉。瑞士查姆:施普林格,2016，第页。21——37.谷歌学者
[26]长M。,曹Z。,王杰（Wang J.）。、和约旦M.I。, “条件对抗性领域自适应，“in程序。高级神经信息处理。系统。,2018，第页。1640——1650.谷歌学者
[27]范德马滕。和辛顿·G。, “使用t-SNE可视化数据,”J.马赫。学习。物件。，卷。9，第页。2579——2605,11月。 2008.谷歌学者
[28]马赫扎尼A。,Shlens J。,杰特利·N。,古德费罗一世。、和弗雷B。, “对手自动编码器,”2015,arXiv公司：1511.05644。[在线]。可用：http://arxiv.org/abs/1511.05644谷歌学者
[29]马丁·J·。,傅毅（音）。,伤口N。、和肖·T。, “Netflix带宽消耗特征，“in程序。IEEE第十次消费。Commun公司。Netw公司。确认（CCNC）,2013年1月，第页。230——235.谷歌学者
[30]门策·F。,阿古斯松E。,Tschannen M。,蒂莫夫特·R。、和范古尔L。, “实用的全分辨率学习无损图像压缩，“in程序。IEEE/CVF Conf.计算。视觉。模式识别。（CVPR）,2019年6月，第页。10629——10638.谷歌学者
[31]梅舍德L。,诺沃津S。、和盖革A。, “对抗性变分贝叶斯：统一变分自编码器和生成性对抗网络，“in程序。第34届国际会议马赫数。学习。，卷。70,2017年8月，第页。2391——2400.谷歌学者
[32]米亚诺·J。,压缩图像文件格式：JPEG、PNG、GIF、XBM、BMP.雷丁，马萨诸塞州，美国:出版商,1999.谷歌学者
[33]明能D。,BalléJ。、和托德里奇G.D。, “用于学习图像压缩的联合自回归和分层先验，“in程序。高级神经信息处理。系统。,2018，第页。10771——10780.谷歌学者
[34]范登·奥尔德A。,Kalchbrenner N.公司。、和Kavukcuoglu K。, “像素递归神经网络,”2016,arXiv:1601.06759。[在线]。可用：http://arxiv.org/abs/1601.06759谷歌学者
[35]拉德福德A。,梅茨·L。、和钦塔拉S。, “基于深度卷积生成对抗网络的无监督表示学习,”2015,arXiv:1511.06434号。[在线]。可用：http://arxiv.org/abs/1511.06434谷歌学者
[36]罗洛夫斯·G。和科曼·R。,巴布亚新几内亚：最终指南.美国加利福尼亚州塞瓦斯托波尔:O'Reilly&Associates公司,1999.谷歌学者
[37]罗尔夫·J·T。, “离散变分自动编码器,”2016,arXiv:1609.02200。[在线]。可用：http://arxiv.org/abs/1609.02200谷歌学者
[38]萨利曼斯T。,卡帕西A。,陈X。、和金马·D·P。, “PixelCNN++：使用离散逻辑混合似然和其他修改改进Pixel有线电视新闻网,”2017,arXiv:1701.05517。[在线]。可用：http://arxiv.org/abs/1701.05517谷歌学者
[39]桑卡拉纳拉亚南S。,巴拉吉·Y。,卡斯蒂略·C.D。、和切拉帕R。, “生成以适应：使用生成性对抗网络对齐域，“in程序。IEEE/CVF Conf.计算。视觉。模式识别。,2018年6月，第页。8503——8512.谷歌学者
[40]塞维拉·拉拉。,廖毅（音）。,古尼·F·。,Jampani五世。,盖革A。、和黑人M.J。, “光流与动作识别的集成,”2017,arXiv:1712.08416。[在线]。可用：http://arxiv.org/abs/1712.08416谷歌学者
[41]沙泽尔N。等。, “超大神经网络：稀疏选通的专家混合层,”2017,arXiv:1701.06538。[在线]。可用：网址：http://arxiv.org/abs/1701.06538谷歌学者
[42]史伟（Shi W.）。等。, “使用高效亚像素卷积神经网络的实时单图像和视频超分辨率，“in程序。IEEE配置计算。视觉。模式识别。（CVPR）,2016年6月，第页。1874——1883.谷歌学者
[43]SIfre L.公司。和马拉特S。, “用于纹理分类的刚体运动散射,”2014,arXiv:1403.1687。[在线]。可用：http://arxiv.org/abs/1403.1687谷歌学者
[44]西蒙扬·K。和齐瑟曼A。, “用于大规模图像识别的超深卷积网络,”2014,arXiv:1409.1556。[在线]。可用：http://arxiv.org/abs/1409.1556谷歌学者
[45]Soomro K。,扎米尔·A·R。、和沙阿·M。, “UCF101：来自野外视频的101个人类动作类的数据集,”2012,arXiv:1212.0402。[在线]。可用：http://arxiv.org/abs/1212.0402谷歌学者
[46]斯利瓦斯塔瓦S。和拉尔·B。, “基于超分辨率的移动平台医学图像压缩，“in程序。车间马赫数。学习。医疗保健,2015，第页。1——4.谷歌学者
[47]蒂莫夫特·R。,阿古斯松E。,范古尔L。,杨M.-H。、和张磊（音）。, “NTIRE 2017单图像超分辨率挑战：方法和结果，“in程序。IEEE会议计算。视觉。模式识别器。研讨会,2017年7月，第页。114——125.谷歌学者
[48]曾E。,霍夫曼J。,Saenko K。、和达雷尔·T。, “对抗性区分域适应，”中程序。IEEE配置计算。视觉。模式识别。（CVPR）,2017年7月，第页。7167——7176.谷歌学者
[49]范登诺德A。,Kalchbrenner N.公司。,埃斯佩霍特L。,Kavukcuoglu K。,葡萄酒O。、和格雷夫斯A。, “使用PixelCNN解码器生成条件图像，“in程序。高级神经信息处理。系统。,2016，第页。4790——4798.谷歌学者
[50]王伟（Wang W.）。,黄毅（音）。,王毅（音）。、和王莉（Wang L.）。, “广义自动编码器：降维的神经网络框架，“in程序。IEEE配置计算。视觉。模式识别。研讨会,2014年6月，第页。490——497.谷歌学者
[51]王伟（Wang W.）。,沈J。、和邵L。, “基于全卷积网络的视频显著目标检测,”IEEE传输。图像处理。，卷。27，没有。1，第页。38——49,简。 2018.谷歌学者交叉引用
[52]王伟凯（Wong W.K.）。,赖Z。,文J。,方十。、和卢毅（Lu Y.）。, “用于鲁棒图像特征提取的低秩嵌入,”IEEE传输。图像处理。，体积。26，没有。6，第页。2905——2917,6月。 2017.谷歌学者数字图书馆
[53]张B。,王莉（Wang L.）。,王Z。,乔毅（音）。、和王宏。, “基于深度转移运动矢量CNN的实时动作识别,”IEEE传输。图像处理。，体积。27，没有。5，第页。2326——2339,五月 2018.谷歌学者数字图书馆
[54]张勇。,范Q（Fan Q.）。,鲍富。,刘毅（Liu Y.）。、和张C。, “基于有理分形插值的单幅图像超分辨率,”IEEE传输。图像处理。，卷。27，没有。8，第页。3782——3797,八月。 2018.谷歌学者交叉引用
[55]张Z。,匡正（Kuang Z.）。,罗平（音）。,冯·L。、和张伟（Zhang W.）。, “时间序列提取：视频中的少帧动作识别,”2018,arXiv:1808.05085。[在线]。可用：http://arxiv.org/abs/1808.05085谷歌学者

索引术语

有偏见的专家组合：在数据传输限制下实现计算机视觉推断

索引术语已通过自动分类分配给内容。

建议

异构专家的混合
ISMSI’20：2020年第四届智能系统、元启发式和群体智能国际会议记录

由于算法的归纳偏差的影响，没有一种单机学习算法对所有问题都是最准确的。研究表明，同类型专家的组合，即同质专家的混合，可以增加。。。
阅读更多信息
理解动态计算机模型中模型差异的专家组合

在科学和工程的许多领域，研究和决策都是使用计算机模型进行的。这些计算机模型通常是确定性的，可能需要几分钟、几小时或几天的时间来生成单个值的输出。。。
阅读更多信息
利用网络推理从多个专家那里获取知识

从多名专家那里获取知识通常需要使用群体，因此会受到群体动力学固有问题的影响。我们提出了一种多专家知识获取技术，它不依赖于使用组和。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

IEEE图像处理汇刊第29卷，发行
2020
3918页
国际标准编号：1057-7149
期刊目录

1057-7149©2020 IEEE版权所有。允许个人使用，但重新发布/重新分发需要IEEE许可。请参见https://www.ieee.org/publications/rights/index.html了解更多信息。
赞助商
合作中
出版商
IEEE出版社
出版历史
- 出版：2020年1月1日
限定符
- 研究论文
会议
资金来源
其他指标
查看文章指标

文章指标
- 三
  引文总数
  查看引文
- 0
  总下载次数
- 下载次数（过去12个月）0
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
查看全部

有偏见的专家组合：在数据传输限制下实现计算机视觉推断

IEEE图像处理汇刊

摘要

参考文献

引用人

索引术语

建议

异构专家的混合

理解动态计算机模型中模型差异的专家组合

利用网络推理从多个专家那里获取知识

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

数字版

解说词

有偏见的专家组合：在数据传输限制下实现计算机视觉推断

IEEE图像处理汇刊

摘要

参考文献

引用人

索引术语

建议

异构专家的混合

理解动态计算机模型中模型差异的专家组合

利用网络推理从多个专家那里获取知识

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

文章指标

其他指标

数字版

共享此出版物链接

在社交媒体上分享