黄伟林

视觉搜索主管

阿里巴巴集团

电子邮件：weilinh在hotmail网站； whuang在obots.ox.ac.uk

传记

我是阿里巴巴集团视觉搜索主管（自2021.06年起），领导一个团队致力于大型视觉搜索系统(中国)在淘宝，并为各种电子商务应用开发通用视觉技术。我们开发了超大规模的多模态学习技术，可以有效地进行以下训练100亿图像-文本产品数据。这大大提高了Pailitao系统的性能，通过GMV的四倍增长在过去的两年里。最近，我们正在探索AIGC技术，例如扩散模型和GPT，致力于将其商业化，用于淘宝的各种电子商务应用。

2017年至2021年，我担任马龙科技公司首席科学家，我们为零售业及其他行业开发了创新和尖端的计算机视觉解决方案，并在顶级零售商中成功登陆。2015年至2017年，我是牛津大学视觉几何小组（VGG）的研究员（Andrew Zisserman教授和Alison Noble教授)，当时我在SIAT担任助理教授（于乔教授和唐晓鸥教授)2013年至2015年，中国科学院。2012年，我是Adobe Research的研究实习生（与王珏、林哲和杨建超一起）。我于2013年获得曼彻斯特大学博士学位，导师为尹虎军教授.

选定出版物[我的谷歌学者]

TOOD：任务对齐的一级对象检测,
冯成建，钟玉杰，高宇，Matthew R Scott，黄伟林
IEEE国际计算机视觉会议(ICCV公司), 2021.口腔
TOOD的TAL模块已广泛应用于YOLO系列探测器中。

用于视频级表示学习的V4D:4D卷积神经网络,
张世文、郭盛、，黄伟林Matt R.Scott和Limin Wang。
学习代表国际会议(ICLR公司), 2021.

用于嵌入学习的交叉匹配存储器,
王勋、张浩志、，黄伟林和Matt R.Scott。
计算机视觉和模式识别大会上(CVPR公司), 2020.口头&最佳论文入围者

用于视觉对象跟踪的可变形连体注意网络,
于月晨、熊依蕾、，黄伟林和Matt R.Scott。
计算机视觉和模式识别大会上(CVPR公司), 2020.

基于广义对加权的深度度量学习的多重相似性损失,
王勋、韩信通、，黄伟林、Dengke Dong和Matt R.Scott。
计算机视觉和模式识别大会上(CVPR公司)，2019年

Finet：兼容多样的时尚形象内画,
韩信通、吴祖轩、，黄伟林马修·斯科特（Matthew R Scott）、拉里·戴维斯（Larry S Davis）。
IEEE国际计算机视觉会议(ICCV公司), 2019.口腔

Clothflow：一种基于流的服装人员生成模型,
韩信通、胡晓军、，黄伟林马修·斯科特。
IEEE国际计算机视觉会议(ICCV公司), 2019.

双流金字塔注册网络,
苗康、胡晓军、，黄伟林马修·斯科特（Matthew R Scott）、毛里西奥·雷耶斯（Mauricio Reyes）。
医学图像计算与计算机辅助干预(MICCAI公司), 2019.口腔
医学图像分析(米娅), 2021.

卷积特征网络,
邢林杰、田志天、，黄伟林马修·斯科特。
IEEE国际计算机视觉会议(ICCV公司), 2019.

CurriculumNet：从大规模网络图像中进行弱监督学习,
盛国，黄伟林张浩志、庄晨凡、董登科、司各特、黄定龙。
欧洲计算机视觉会议(电子对抗车辆), 2018.
在2017年CVPR WebVision挑战赛中获得第一名。

具有分层三重态损失的深度度量学习,
葛伟峰，黄伟林邓克东（Dengke Dong）、马修·斯科特（Matthew R Scott）。
欧洲计算机视觉会议(电子对抗车辆), 2018.

具有明确对齐和注意力的端到端TextSpotter,
童和、志天、，黄伟林，沈春华，乔宇，孙长明。
计算机视觉和模式识别大会上(CVPR公司)，2018年。

Temporal HeartNet：胎儿心脏筛查视频的人性化自动分析,
黄伟林克里斯托弗·P·布里奇（Christopher P Bridge）、J·艾莉森·诺布尔（J Alison Noble）、安德鲁·齐瑟曼（Andrew Zisserman）。
医学图像计算与计算机辅助干预(MICCAI公司), 2017.口腔

区域关注的单发文本检测器,
潘和，黄伟林、童和、朱奇乐、于乔、李小林。
IEEE国际计算机视觉会议(ICCV公司), 2017.孢子虫

用连接词文本建议网络检测自然图像中的文本,
志田，黄伟林、童和、潘和、于乔。
欧洲计算机视觉会议(电子对抗车辆), 2016.
CTPN广泛应用于工业领域，Github（TensorFlow和Caffe）约有5000颗星。

在深度卷积序列中读取场景文本,
潘，何，黄伟林、于乔、陈昌乐、汤晓鸥。
第30届AAAI人工智能会议(AAAI公司), 2016.口腔

用于场景文本检测的文本注意卷积神经网络,
童、何、，黄伟林、于乔、简瑶。
IEEE传输。图像处理(提示), 2016.

基于卷积神经网络诱导MSER树的鲁棒场景文本检测,
黄伟林、于乔、汤晓鸥。
欧洲计算机视觉会议(电子对抗车辆), 2014.

基于笔划特征变换和文本协方差描述符的自然图像文本定位,
黄伟林，林哲，杨建超，王珏。
IEEE国际计算机视觉会议(ICCV公司), 2013.