跳到主要内容
研究论文

有偏见的专家组合:在数据传输限制下实现计算机视觉推断

出版:2020年1月1日出版历史
跳过抽象节

摘要

我们提出了一种新的专家混合类,用于根据测试时的数据传输限制优化计算机视觉模型。我们的方法假设,允许高精度结果的最小可接受数据量可能因不同的输入空间分区而异。因此,我们考虑专家需要不同数量数据的混合,并训练稀疏选通函数来划分每个专家的输入空间。通过适当的超参数选择,我们的方法能够使混合专家偏向于选择特定专家。通过这种方式,我们表明视觉传感和处理之间的数据传输优化可以作为一个凸优化问题来解决。为了证明数据可用性和性能之间的关系,我们评估了一系列主流计算机视觉问题的有偏混合,即:(i)单镜头检测,(ii)图像超分辨率,和(iii)实时视频动作分类。在所有情况下,当专家制定修改后的基线以满足允许的数据效用的不同限制时,偏差混合显著优于先前为满足可用数据的相同约束而优化的工作。

参考文献

  1. [1]阿古斯松E。蒂莫夫特·R。, “NTIRE 2017单图像超分辨率挑战:数据集与研究,“in程序。IEEE配置计算。视觉。模式识别器。研讨会(CVPRW),2017年7月,第页。126——135.谷歌学者谷歌学者
  2. [2]BalléJ。,拉帕拉五世。、和西蒙塞利E.P。, “端到端优化的图像压缩,”2016,arXiv公司:1611.01704。[在线]。可用:http://arxiv.org/abs/1611.01704谷歌学者谷歌学者
  3. [3]本吉奥E。,培根P.-L。,皮诺J。、和预杯D。, “神经网络中快速模型的条件计算,”2015,arXiv:1511.06297号。[在线]。可用:http://arxiv.org/abs/1511.06297谷歌学者谷歌学者
  4. [4]本吉奥·Y。,莱昂纳尔·N。、和库尔维尔A。, “通过随机神经元估计或传播梯度以进行条件计算,”2013,arXiv公司:1308.3432。[在线]。可用:http://arxiv.org/abs/1308.3432谷歌学者谷歌学者
  5. [5]博格沃德K.H。,单纯形法:概率分析,卷。1.德国柏林:Springer-Verlag公司,2012.谷歌学者谷歌学者
  6. [6]博伊德·S。范登伯格。,凸优化.英国剑桥。:剑桥大学出版社,2004.谷歌学者谷歌学者交叉引用交叉引用
  7. [7]卡雷拉·J·。齐瑟曼A。, “Quo vadis,动作识别?一种新的模型和动力学数据集,”中程序。IEEE配置计算。视觉。模式识别。(CVPR),2017年7月,第页。4724——4733.谷歌学者谷歌学者
  8. [8]查达A。,阿巴斯A。、和安德烈奥普洛斯·Y。, “基于CNN的视频分类:将编解码器用作时空活动传感器,”IEEE传输。电路系统。视频技术。,卷。29,编号,第页。475——485,2月。 2019.谷歌学者谷歌学者数字图书馆数字图书馆
  9. [9]蔡S.-P。,张新民。、和袁C。, “使用可伸缩的Blinn-Phong照明对移动云游戏进行分层编码,”IEEE传输。图像处理。,卷。25,没有。7,第页。3112——3125,7月。 2016.谷歌学者谷歌学者交叉引用交叉引用
  10. [10]丹顿E.L。,钦塔拉S。、和弗格斯·R。, “使用拉普拉斯金字塔对抗网络的深度生成图像模型,“in程序。高级神经信息处理。系统。,2015,第页。1486——1494.谷歌学者谷歌学者
  11. [11]东C。,洛伊·C。、和唐十。, “加速超分辨率卷积神经网络,”中程序。Eur.Conf.计算。视觉。 瑞士查姆:施普林格,2016,第页。391——407.谷歌学者谷歌学者
  12. [12]费赫滕霍夫C。,平茨A。、和齐瑟曼A。, “用于视频动作识别的卷积双流网络融合,“in程序。IEEE配置计算。视觉。模式识别。(CVPR),2016年6月,第页。1933——1941.谷歌学者谷歌学者
  13. [13]菲德勒·M·。,奈多马·J·。,拉米克·J。,罗恩·J。、和齐默尔曼K。,数据不精确的线性优化问题.美国纽约州纽约市:施普林格,2006.谷歌学者谷歌学者
  14. [14]古德费罗一世。等。, “生成性对抗网络,“in程序。高级神经信息处理。系统。,2014,第页。2672——2680.谷歌学者谷歌学者
  15. [15]韩S。,毛H。、和戴利·W·J。, “深度压缩:使用剪枝、训练量化和哈夫曼编码压缩深度神经网络,”2015,arXiv:1510.00149。[在线]。可用:http://arxiv.org/abs/1510.00149谷歌学者谷歌学者
  16. [16]韩S。,池J。,Tran J.公司。、和Dally W。, “学习有效神经网络的权值和连接,”中程序。高级神经信息处理。系统。,2015,第页。1135——1143.谷歌学者谷歌学者
  17. [17]He K。,张欣。,任S。、和孙J。, “用于图像识别的深度残差学习,”中程序。IEEE配置计算。视觉。模式识别。(CVPR),2016年6月,第页。770——778.谷歌学者谷歌学者
  18. [18]辛顿G.E。, “用神经网络降低数据的维数,”科学类,卷。313,没有。5786,第页。504——507,7月。 2006.谷歌学者谷歌学者交叉引用交叉引用
  19. [19]霍华德·A·G。等。, “MobileNets:用于移动视觉应用的高效卷积神经网络,”2017,arXiv:1704.04861。[在线]。可用:http://arxiv.org/abs/1704.04861谷歌学者谷歌学者
  20. [20]黄J。等。, “现代卷积目标检测器的速度/精度权衡,“in程序。IEEE配置计算。视觉。模式识别。(CVPR),2017年7月,第页。7310——7311.谷歌学者谷歌学者
  21. [21]朱伯伦M。,阿巴斯A。,查达A。、和Andreopoulos Y。, “深度卷积神经网络在视频分类中的速率-精度权衡,”IEEE传输。电路系统。视频技术。,卷。30,没有。1,第页。145——154,简。 2020.谷歌学者谷歌学者交叉引用交叉引用
  22. [22]李Y。,刘迪(Liu D.)。,李浩(Li H.)。,李莉。,李Z。、和吴飞(Wu F.)。, “学习卷积神经网络进行图像压缩分辨率,”IEEE传输。图像处理。,卷。28,没有。,第页。1092——1107,3月。 2019.谷歌学者谷歌学者交叉引用交叉引用
  23. [23]林杰(Lin J.)。,饶毅(Rao Y.)。,卢杰(Lu J.)。、和周杰。, “运行时神经剪枝,“in程序。高级神经信息处理。系统。,2017,第页。2181——2191.谷歌学者谷歌学者
  24. [24]林天佑(Lin T.-Y.)。等。, “Microsoft COCO:上下文中的通用对象,“in程序。Eur.Conf.计算。视觉。 瑞士查姆:施普林格,2014,第页。740——755.谷歌学者谷歌学者
  25. [25]刘伟(Liu W.)。等。, “SSD:单发多盒探测器,“in程序。Eur.Conf.计算。视觉。 瑞士查姆:施普林格,2016,第页。21——37.谷歌学者谷歌学者
  26. [26]长M。,曹Z。,王杰(Wang J.)。、和约旦M.I。, “条件对抗性领域自适应,“in程序。高级神经信息处理。系统。,2018,第页。1640——1650.谷歌学者谷歌学者
  27. [27]范德马滕。辛顿·G。, “使用t-SNE可视化数据,”J.马赫。学习。物件。,卷。9,第页。2579——2605,11月。 2008.谷歌学者谷歌学者
  28. [28]马赫扎尼A。,Shlens J。,杰特利·N。,古德费罗一世。、和弗雷B。, “对手自动编码器,”2015,arXiv公司:1511.05644。[在线]。可用:http://arxiv.org/abs/1511.05644谷歌学者谷歌学者
  29. [29]马丁·J·。,傅毅(音)。,伤口N。、和肖·T。, “Netflix带宽消耗特征,“in程序。IEEE第十次消费。Commun公司。Netw公司。确认(CCNC),2013年1月,第页。230——235.谷歌学者谷歌学者
  30. [30]门策·F。,阿古斯松E。,Tschannen M。,蒂莫夫特·R。、和范古尔L。, “实用的全分辨率学习无损图像压缩,“in程序。IEEE/CVF Conf.计算。视觉。模式识别。(CVPR),2019年6月,第页。10629——10638.谷歌学者谷歌学者
  31. [31]梅舍德L。,诺沃津S。、和盖革A。, “对抗性变分贝叶斯:统一变分自编码器和生成性对抗网络,“in程序。第34届国际会议马赫数。学习。,卷。70,2017年8月,第页。2391——2400.谷歌学者谷歌学者
  32. [32]米亚诺·J。,压缩图像文件格式:JPEG、PNG、GIF、XBM、BMP.雷丁,马萨诸塞州,美国:出版商,1999.谷歌学者谷歌学者
  33. [33]明能D。,BalléJ。、和托德里奇G.D。, “用于学习图像压缩的联合自回归和分层先验,“in程序。高级神经信息处理。系统。,2018,第页。10771——10780.谷歌学者谷歌学者
  34. [34]范登·奥尔德A。,Kalchbrenner N.公司。、和Kavukcuoglu K。, “像素递归神经网络,”2016,arXiv:1601.06759。[在线]。可用:http://arxiv.org/abs/1601.06759谷歌学者谷歌学者
  35. [35]拉德福德A。,梅茨·L。、和钦塔拉S。, “基于深度卷积生成对抗网络的无监督表示学习,”2015,arXiv:1511.06434号。[在线]。可用:http://arxiv.org/abs/1511.06434谷歌学者谷歌学者
  36. [36]罗洛夫斯·G。科曼·R。,巴布亚新几内亚:最终指南.美国加利福尼亚州塞瓦斯托波尔:O'Reilly&Associates公司,1999.谷歌学者谷歌学者
  37. [37]罗尔夫·J·T。, “离散变分自动编码器,”2016,arXiv:1609.02200。[在线]。可用:http://arxiv.org/abs/1609.02200谷歌学者谷歌学者
  38. [38]萨利曼斯T。,卡帕西A。,陈X。、和金马·D·P。, “PixelCNN++:使用离散逻辑混合似然和其他修改改进Pixel有线电视新闻网,”2017,arXiv:1701.05517。[在线]。可用:http://arxiv.org/abs/1701.05517谷歌学者谷歌学者
  39. [39]桑卡拉纳拉亚南S。,巴拉吉·Y。,卡斯蒂略·C.D。、和切拉帕R。, “生成以适应:使用生成性对抗网络对齐域,“in程序。IEEE/CVF Conf.计算。视觉。模式识别。,2018年6月,第页。8503——8512.谷歌学者谷歌学者
  40. [40]塞维拉·拉拉。,廖毅(音)。,古尼·F·。,Jampani五世。,盖革A。、和黑人M.J。, “光流与动作识别的集成,”2017,arXiv:1712.08416。[在线]。可用:http://arxiv.org/abs/1712.08416谷歌学者谷歌学者
  41. [41]沙泽尔N。等。, “超大神经网络:稀疏选通的专家混合层,”2017,arXiv:1701.06538。[在线]。可用:网址:http://arxiv.org/abs/1701.06538谷歌学者谷歌学者
  42. [42]史伟(Shi W.)。等。, “使用高效亚像素卷积神经网络的实时单图像和视频超分辨率,“in程序。IEEE配置计算。视觉。模式识别。(CVPR),2016年6月,第页。1874——1883.谷歌学者谷歌学者
  43. [43]SIfre L.公司。马拉特S。, “用于纹理分类的刚体运动散射,”2014,arXiv:1403.1687。[在线]。可用:http://arxiv.org/abs/1403.1687谷歌学者谷歌学者
  44. [44]西蒙扬·K。齐瑟曼A。, “用于大规模图像识别的超深卷积网络,”2014,arXiv:1409.1556。[在线]。可用:http://arxiv.org/abs/1409.1556谷歌学者谷歌学者
  45. [45]Soomro K。,扎米尔·A·R。、和沙阿·M。, “UCF101:来自野外视频的101个人类动作类的数据集,”2012,arXiv:1212.0402。[在线]。可用:http://arxiv.org/abs/1212.0402谷歌学者谷歌学者
  46. [46]斯利瓦斯塔瓦S。拉尔·B。, “基于超分辨率的移动平台医学图像压缩,“in程序。车间马赫数。学习。医疗保健,2015,第页。1——4.谷歌学者谷歌学者
  47. [47]蒂莫夫特·R。,阿古斯松E。,范古尔L。,杨M.-H。、和张磊(音)。, “NTIRE 2017单图像超分辨率挑战:方法和结果,“in程序。IEEE会议计算。视觉。模式识别器。研讨会,2017年7月,第页。114——125.谷歌学者谷歌学者
  48. [48]曾E。,霍夫曼J。,Saenko K。、和达雷尔·T。, “对抗性区分域适应,”中程序。IEEE配置计算。视觉。模式识别。(CVPR),2017年7月,第页。7167——7176.谷歌学者谷歌学者
  49. [49]范登诺德A。,Kalchbrenner N.公司。,埃斯佩霍特L。,Kavukcuoglu K。,葡萄酒O。、和格雷夫斯A。, “使用PixelCNN解码器生成条件图像,“in程序。高级神经信息处理。系统。,2016,第页。4790——4798.谷歌学者谷歌学者
  50. [50]王伟(Wang W.)。,黄毅(音)。,王毅(音)。、和王莉(Wang L.)。, “广义自动编码器:降维的神经网络框架,“in程序。IEEE配置计算。视觉。模式识别。研讨会,2014年6月,第页。490——497.谷歌学者谷歌学者
  51. [51]王伟(Wang W.)。,沈J。、和邵L。, “基于全卷积网络的视频显著目标检测,”IEEE传输。图像处理。,卷。27,没有。1,第页。38——49,简。 2018.谷歌学者谷歌学者交叉引用交叉引用
  52. [52]王伟凯(Wong W.K.)。,赖Z。,文J。,方十。、和卢毅(Lu Y.)。, “用于鲁棒图像特征提取的低秩嵌入,”IEEE传输。图像处理。,体积。26,没有。6,第页。2905——2917,6月。 2017.谷歌学者谷歌学者数字图书馆数字图书馆
  53. [53]张B。,王莉(Wang L.)。,王Z。,乔毅(音)。、和王宏。, “基于深度转移运动矢量CNN的实时动作识别,”IEEE传输。图像处理。,体积。27,没有。5,第页。2326——2339,五月 2018.谷歌学者谷歌学者数字图书馆数字图书馆
  54. [54]张勇。,范Q(Fan Q.)。,鲍富。,刘毅(Liu Y.)。、和张C。, “基于有理分形插值的单幅图像超分辨率,”IEEE传输。图像处理。,卷。27,没有。8,第页。3782——3797,八月。 2018.谷歌学者谷歌学者交叉引用交叉引用
  55. [55]张Z。,匡正(Kuang Z.)。,罗平(音)。,冯·L。、和张伟(Zhang W.)。, “时间序列提取:视频中的少帧动作识别,”2018,arXiv:1808.05085。[在线]。可用:http://arxiv.org/abs/1808.05085谷歌学者谷歌学者

索引术语

  1. 有偏见的专家组合:在数据传输限制下实现计算机视觉推断
          索引术语已通过自动分类分配给内容。

          建议

          评论

          登录选项

          检查您是否可以通过登录凭据或您的机构访问本文。

          登录

          完全访问权限

          • 发布于

            封面图片IEEE图像处理汇刊
            IEEE图像处理汇刊 第29卷,发行
            2020
            3918页
            国际标准编号:1057-7149
            期刊目录

            1057-7149©2020 IEEE版权所有。允许个人使用,但重新发布/重新分发需要IEEE许可。请参见https://www.ieee.org/publications/rights/index.html了解更多信息。

            出版商

            IEEE出版社

            出版历史

            • 出版:2020年1月1日

            限定符

            • 研究论文