16-721视觉中基于学习的方法
2009年春季
“计算机视觉的目的是超越我们的视觉世界”
--备注人安东尼奥·托拉尔巴(喝了第三杯啤酒后)

概述

人类视觉是有史以来最卓越的机器之一。根据稀疏、嘈杂、模糊的局部场景测量大脑设法创造出连贯的全球视觉体验。但怎么能虽然这项任务对人类来说似乎毫不费力,但仍令人痛苦不已对电脑来说很难吗?部分答案是人类依赖多年的视觉经验,使世界变得有意义,而计算机必须启动制表术显然,需要学习制造这一严重欠约束问题的进展。然而,尝试机器学习工具直接应用于原始视觉数据基本上不成功。

这门研究生研讨会课程的目的是加深理解为了更好地解释数据的方式,计算机视觉问题学习可以用来解决这个问题视觉数据的表示,而不是花哨的学习技术。我们将从低层着眼于视觉处理的所有阶段(颜色、纹理、局部面片)一直到高级(对象识别、一般图像理解)。我们会特别付款关注中级视觉(分组、分割、图形/背景、,场景布局、图像解析)——将视觉连接在一起的关键粘合剂在很大程度上被忽视了。本课程将强调使用大量真实数据(图像、视频、文本注释、其他元数据)。我们还将讨论什么是正确的这一难题训练数据的选择以及如何获取。

本课程将包括阅读和呈现以下内容的折衷组合关于一系列主题的经典和最新论文。所有学生都会要求提交每份论文的书面摘要。此外,还有本学期将有两个实质性的课堂项目。

先决条件:16-720或同等学历的计算机视觉研究生课程(没有例外!)

我们将于星期一和星期三中午1点20分,Wean 5409.

教练:阿列克谢(阿利奥莎)埃夫罗斯,助理教授,4207 Newell-Simon Hall。
助教:托马斯·马利西耶维奇, 史密斯大厅232。

项目

结账此数据源列表获取有关在何处使用图像的一些想法。

挑战:每个项目团队将定期召开会议讨论进度当然是他们的项目。
会议时间列在项目会议时间表.

论文讨论

在上留下您对论文的评论班级博客

纸张列表

这个纸质清单包含将在课堂上讨论的论文。

地铁列车时刻表

介绍

日期 节目主持人 论文标题 幻灯片
1月12日 Alyosha Efros公司 导言,视觉:测量与感知
管理人员、课程概述、数据集
ppt简介
1月14日 Alyosha Efros公司 视觉感知理论综述讲座
Cavanagh,P.(1995)视力每天都变得越来越容易
可选阅读:中山,英国。(1998)愿景fin-de-siecle&对认知的还原论解释21世纪?
理论ppt
1月19日 MLK Jr.日--不上课
1月21日 Alyosha Efros公司 视觉生理概述讲座
阿德尔森,E.H.和卑尔根,J.R.(1991)这个侧视功能与早期视觉要素
生理学ppt
1月26日 Alyosha Efros公司 低级应该做什么? 低水平ppt
1月28日 瓦伦 边界概率
D.Martin、C.Fowlkes和J.马利克。PAMI五月2004
学习使用局部亮度检测自然图像边界,颜色和纹理提示

M.Maire先生,P.Arbelaez、C.Fowlkes和J.Malik。CVPR公司2008
使用自然环境中检测和定位交叉点的等高线图像
全球Pb pdf
2月2日 瓦伦/阿廖沙 边界概率(续)
什么时候物体/场景识别只是纹理识别?
2月4日 Alyosha Efros公司 什么时候物体/场景识别只是纹理识别?
Renninger,L.W.&Malik,J.Vision Research 2004年。场景识别什么时候才是纹理识别?
Csurka,G.,Bray,C。,Dance,C.和Fan,L.ECCV 2004。视觉分类,包含关键点
Winn,J.,Criminisi,A.和Minka,T.ICCV 2005。对象学习通用视觉词典的分类
单词袋ppt
2月9日 TextonBoost日
TextonBoost:联合外观、形状和上下文建模多类对象识别和分割。
J.Shotton、J.Winn、C.Rother和A.Criminisi。程序中。ECCV 2006。

(可选)TextonBoost的日志版本

TextonBoost代码
TextonBoost+STFpdf格式
TextonBoost+STF幻灯片演示文件
2月11日 丹/阿利奥莎 语义文本森林
用于图像分类和分割的语义文本森林。
J.Shotton、M.Johnson、R.Cipolla。程序中。IEEE CVPR 2008。
语义的Texton Forests实施

对象简介:几何体与外观
中的对象识别几何时代:回顾。J.蒙迪。2006
(链接在上面)
2月16日 詹姆斯·海斯 用于图形和视觉的大规模场景匹配
2月18日 阿利奥莎 外观产生外观:滑动窗口,星座模型、图片结构等等。 对象和零件ppt
2月23日 爱德华 基于零件的对象识别
区分训练的多尺度可变形零件模型
P.Felzenszwalb,D.McAllester,D.Ramanan,In Proc。IEEE CVPR 2008。

代码
潜在pdf
2月25日 阿利奥莎 上下文简介 上下文
3月2日 迈克尔·塔尔 揭示视觉皮层的基本原理
3月4日 布瑞恩 基于场景对齐的目标识别
B.C.Russell、A.Torralba、C.Liu、R.Fergus、W.T.FreemanNIPS,2007年。

gist描述符代码

SIFT流:不同场景之间的密集通信
C.Liu、J.Yuen、A.Torralba、J.Sivic和W.T.Freeman。ECCV,2008年。
项目页面
偷窃具有计算机视觉的对象
3月16日 叶卡捷琳娜 目标检测的背景启动
A.托拉尔巴。IJCV,第53卷(2),169-1912003年。

使用局部和全局特征进行目标检测和定位
K.Murphy、A.Torralba、D.Eaton、W.T.Freeman。西西里物体识别讲习班,2005年。
(请参见这个背景挑战)
上下文挑战幻灯片
3月18日 阿利奥沙/乌特萨夫 细分简介

上下文中的对象
Andrew Rabinovich、Andrea Vedaldi、Carolina Galleguillos和EricWiewiora和Serge Belongie。ICCV 2007。

基于上下文的对象分类:一项关键调查
卡罗琳娜·盖勒奎洛斯和谢尔盖·贝隆吉
技术报告UCSD CS2008-09282008。
细分
星期五3月20日
新南威尔士州1109
乌特萨夫/阿利奥莎 上下文(续)。。。
使用Co-Ocurrence、Location和外观
卡罗琳娜·盖勒奎洛斯、安德鲁·拉宾诺维奇和谢尔盖归属。CVPR 2008。

细分(续)。。。
恢复人体配置:结合分段和认可
G.Mori、X.Ren、A.Efros和J.Malik。CVPR 2004。
上下文中的对象
3月23日 比利 学习用于细分的分类模型。
任晓峰(Xiaofeng Ren)和吉坦德拉·马利克(Jitendra Malik)。在ICCV 2003中。

项目页面

基于数据驱动马尔可夫链蒙特卡罗的图像分割。
涂总、朱S.C.,PAMI,第24卷,第5期,第657-673页,2002年5月。

项目页面
细分通过优化
3月25日 阿利奥莎 曲面
关于场景一瞥的语义.比德曼,I.1981
从图像恢复曲面布局.D.霍伊姆,A.A.Efros和M.Hebert。IJCV,第75卷,第1期,10月2007
另请参阅经典论文: 亚基莫夫斯基和费尔德曼(1973),Ohta,Kanade,Sakai(1978年),Barrow和Tenenboum(1978).
毕竟,这是一个3D世界!
3月30日 阿利奥莎 遮挡和图形/地面推理

自然图像中的图形/地面指定。
任晓峰(Xiaofeng Ren)、查尔斯·福克斯(Charless Fowlkes)和吉坦德拉·马利克(Jitendra Malik),ECCV 2006。

项目页面
从单个图像恢复遮挡边界。
D.Hoiem、A.N.Stein、A.A.Efros和M.Hebert。2007年ICCV
闭塞
4月1日 天使的微笑 基于图像结构的深度估计
A.托拉尔巴(A.Torralba)、A.奥利瓦(A.Oliva)。PAMI第24卷(9):1226-1238。2003

按阶段分类的深度信息。
Vladimir Nedovic、Arnold W.M.Smelders、Andre Redert和Jan MarkGeusebroek。ICCV 2007。

从单目图像中学习深度
Ashutosh Saxena,Sung H.Chung,Andrew Y.Ng,《2005年NIPS》。
学习深度
4月6日 标记 总计召回:使用对象检索的生成特征模型进行自动查询扩展
Chum,O.、Philbin,J.、Sivic,J.,Isard,M.和Zisserman,A。在ICCV 2007中。
内容基于图像搜索
4月8日 阿利奥莎 分类
分类原则。埃莉诺·罗施
概念书,第3章格雷戈里·墨菲。
(只需关注“示例视图”部分)
概念:从实例到意义
4月10日:NSH 1305下午3:30 赫易姆 推断对象属性
4月13日 远东 共享用于多类和多视点对象检测的视觉特征
A.Torralba、K.P.Murphy和W.T.Freeman帕米。第29卷,第5期,第854-869页,2007年5月。

共享功能代码
共享幻灯片
4月15日 赵寅 从小样本集中学习对象类别的组合模型
J.Porway、B.Yao和S.C.ZhuSven Dickinson等人(编辑)的书籍章节
对象分类:剑桥大学计算机和人类视觉透视按。2009

图像的随机语法
朱宋春和大卫·芒福德
计算机图形与视觉基础与趋势第2卷,第4期。2007
语法幻灯片
4月20日 阿利奥莎和斯科特 从电影中学习真实的人类行为。
伊万·拉普特夫(Ivan Laptev)、马金·马尔萨利克(Marcin Marszalek)、科迪莉亚·施密德(Cordelia Schmid)和本杰明·罗森菲尔德(Benjamin Rozenfeld)。程序中。2008年CVPR

项目页面
视频
动作幻灯片
4月22日 阿利奥莎 数据的不合理有效性与人群的智慧 数据
4月27日 阿利奥莎+所有人 我们如何知道我们已经解决了愿景? 解决愿景
4月29日 项目演示(1-4)
4月30日下午6-8点,NSH 3002 项目演示(5-10)

类似课程

本课程的灵感来自我的几位同事提供的这些建议。以下是部分列表:

一些教程、研讨会和研讨会:

页面由Tomasz Malisiewicz维护(电子邮件:tmalisie at cs dot cmu dot edu)
有效的HTML 4.01过渡