“计算机视觉的目的是超越我们的视觉世界”
--备注人安东尼奥·托拉尔巴（喝了第三杯啤酒后）

概述

人类视觉是有史以来最卓越的机器之一。根据稀疏、嘈杂、模糊的局部场景测量大脑设法创造出连贯的全球视觉体验。但怎么能虽然这项任务对人类来说似乎毫不费力，但仍令人痛苦不已对电脑来说很难吗？部分答案是人类依赖多年的视觉经验，使世界变得有意义，而计算机必须启动制表术显然，需要学习制造这一严重欠约束问题的进展。然而，尝试机器学习工具直接应用于原始视觉数据基本上不成功。

这门研究生研讨会课程的目的是加深理解为了更好地解释数据的方式，计算机视觉问题学习可以用来解决这个问题视觉数据的表示，而不是花哨的学习技术。我们将从低层着眼于视觉处理的所有阶段（颜色、纹理、局部面片）一直到高级（对象识别、一般图像理解）。我们会特别付款关注中级视觉（分组、分割、图形/背景、，场景布局、图像解析）——将视觉连接在一起的关键粘合剂在很大程度上被忽视了。本课程将强调使用大量真实数据（图像、视频、文本注释、其他元数据）。我们还将讨论什么是正确的这一难题训练数据的选择以及如何获取。

本课程将包括阅读和呈现以下内容的折衷组合关于一系列主题的经典和最新论文。所有学生都会要求提交每份论文的书面摘要。此外，还有本学期将有两个实质性的课堂项目。

先决条件:16-720或同等学历的计算机视觉研究生课程（没有例外！）

我们将于星期一和星期三中午1点20分，Wean 5409.

教练:阿列克谢（阿利奥莎）埃夫罗斯，助理教授，4207 Newell-Simon Hall。
助教:托马斯·马利西耶维奇, 史密斯大厅232。

项目

结账此数据源列表获取有关在何处使用图像的一些想法。

挑战：

每个项目团队将定期召开会议讨论进度当然是他们的项目。
会议时间列在项目会议时间表.

论文讨论

在上留下您对论文的评论班级博客

纸张列表

这个纸质清单包含将在课堂上讨论的论文。

地铁列车时刻表

介绍

日期	节目主持人	论文标题	幻灯片
1月12日	Alyosha Efros公司	导言，视觉：测量与感知管理人员、课程概述、数据集	ppt简介
1月14日	Alyosha Efros公司	视觉感知理论综述讲座 Cavanagh，P.（1995）视力每天都变得越来越容易可选阅读:中山，英国。(1998)愿景fin-de-siecle&对认知的还原论解释21世纪？	理论ppt
1月19日		MLK Jr.日--不上课
1月21日	Alyosha Efros公司	视觉生理概述讲座阿德尔森，E.H.和卑尔根，J.R.（1991）这个侧视功能与早期视觉要素	生理学ppt
1月26日	Alyosha Efros公司	低级应该做什么？	低水平ppt
1月28日	瓦伦	边界概率 D.Martin、C.Fowlkes和J.马利克。PAMI五月2004 学习使用局部亮度检测自然图像边界，颜色和纹理提示 M.Maire先生，P.Arbelaez、C.Fowlkes和J.Malik。CVPR公司2008 使用自然环境中检测和定位交叉点的等高线图像	全球Pb pdf
2月2日	瓦伦/阿廖沙	边界概率（续）什么时候物体/场景识别只是纹理识别？
2月4日	Alyosha Efros公司	什么时候物体/场景识别只是纹理识别？ Renninger，L.W.&Malik，J.Vision Research 2004年。场景识别什么时候才是纹理识别？ Csurka，G.，Bray，C。，Dance，C.和Fan，L.ECCV 2004。视觉分类，包含关键点 Winn，J.，Criminisi，A.和Minka，T.ICCV 2005。对象学习通用视觉词典的分类	单词袋ppt
2月9日	丹	TextonBoost日 TextonBoost：联合外观、形状和上下文建模多类对象识别和分割。 J.Shotton、J.Winn、C.Rother和A.Criminisi。程序中。ECCV 2006。（可选）TextonBoost的日志版本 TextonBoost代码	TextonBoost+STFpdf格式 TextonBoost+STF幻灯片演示文件
2月11日	丹/阿利奥莎	语义文本森林用于图像分类和分割的语义文本森林。 J.Shotton、M.Johnson、R.Cipolla。程序中。IEEE CVPR 2008。语义的Texton Forests实施对象简介：几何体与外观中的对象识别几何时代：回顾。J.蒙迪。2006	（链接在上面）
2月16日	詹姆斯·海斯	用于图形和视觉的大规模场景匹配
2月18日	阿利奥莎	外观产生外观：滑动窗口，星座模型、图片结构等等。	对象和零件ppt
2月23日	爱德华	基于零件的对象识别区分训练的多尺度可变形零件模型 P.Felzenszwalb，D.McAllester，D.Ramanan，In Proc。IEEE CVPR 2008。代码	潜在pdf
2月25日	阿利奥莎	上下文简介	上下文
3月2日	迈克尔·塔尔	揭示视觉皮层的基本原理
3月4日	布瑞恩	基于场景对齐的目标识别 B.C.Russell、A.Torralba、C.Liu、R.Fergus、W.T.FreemanNIPS，2007年。 gist描述符代码 SIFT流：不同场景之间的密集通信 C.Liu、J.Yuen、A.Torralba、J.Sivic和W.T.Freeman。ECCV，2008年。项目页面	偷窃具有计算机视觉的对象
3月16日	叶卡捷琳娜	目标检测的背景启动 A.托拉尔巴。IJCV，第53卷（2），169-1912003年。使用局部和全局特征进行目标检测和定位 K.Murphy、A.Torralba、D.Eaton、W.T.Freeman。西西里物体识别讲习班，2005年。（请参见也这个背景挑战)	上下文挑战幻灯片
3月18日	阿利奥沙/乌特萨夫	细分简介上下文中的对象 Andrew Rabinovich、Andrea Vedaldi、Carolina Galleguillos和EricWiewiora和Serge Belongie。ICCV 2007。基于上下文的对象分类：一项关键调查卡罗琳娜·盖勒奎洛斯和谢尔盖·贝隆吉技术报告UCSD CS2008-09282008。	细分
星期五3月20日新南威尔士州1109	乌特萨夫/阿利奥莎	上下文（续）。。。使用Co-Ocurrence、Location和外观卡罗琳娜·盖勒奎洛斯、安德鲁·拉宾诺维奇和谢尔盖归属。CVPR 2008。细分（续）。。。恢复人体配置：结合分段和认可 G.Mori、X.Ren、A.Efros和J.Malik。CVPR 2004。	上下文中的对象
3月23日	比利	学习用于细分的分类模型。任晓峰（Xiaofeng Ren）和吉坦德拉·马利克（Jitendra Malik）。在ICCV 2003中。项目页面基于数据驱动马尔可夫链蒙特卡罗的图像分割。涂总、朱S.C.，PAMI，第24卷，第5期，第657-673页，2002年5月。项目页面	细分通过优化
3月25日	阿利奥莎	曲面关于场景一瞥的语义.比德曼，I.1981 从图像恢复曲面布局.D.霍伊姆，A.A.Efros和M.Hebert。IJCV，第75卷，第1期，10月2007 另请参阅经典论文：亚基莫夫斯基和费尔德曼（1973）,Ohta，Kanade，Sakai（1978年）,Barrow和Tenenboum（1978）.	毕竟，这是一个3D世界！
3月30日	阿利奥莎	遮挡和图形/地面推理自然图像中的图形/地面指定。任晓峰（Xiaofeng Ren）、查尔斯·福克斯（Charless Fowlkes）和吉坦德拉·马利克（Jitendra Malik），ECCV 2006。项目页面从单个图像恢复遮挡边界。 D.Hoiem、A.N.Stein、A.A.Efros和M.Hebert。2007年ICCV	闭塞
4月1日	天使的微笑	基于图像结构的深度估计 A.托拉尔巴（A.Torralba）、A.奥利瓦（A.Oliva）。PAMI第24卷（9）：1226-1238。2003 按阶段分类的深度信息。 Vladimir Nedovic、Arnold W.M.Smelders、Andre Redert和Jan MarkGeusebroek。ICCV 2007。从单目图像中学习深度 Ashutosh Saxena，Sung H.Chung，Andrew Y.Ng，《2005年NIPS》。	学习深度
4月6日	标记	总计召回：使用对象检索的生成特征模型进行自动查询扩展 Chum，O.、Philbin，J.、Sivic，J.，Isard，M.和Zisserman，A。在ICCV 2007中。	内容基于图像搜索
4月8日	阿利奥莎	分类分类原则。埃莉诺·罗施大概念书，第3章格雷戈里·墨菲。（只需关注“示例视图”部分）	概念：从实例到意义
4月10日：NSH 1305下午3:30	赫易姆	推断对象属性
4月13日	远东	共享用于多类和多视点对象检测的视觉特征 A.Torralba、K.P.Murphy和W.T.Freeman帕米。第29卷，第5期，第854-869页，2007年5月。共享功能代码	共享幻灯片
4月15日	赵寅	从小样本集中学习对象类别的组合模型 J.Porway、B.Yao和S.C.ZhuSven Dickinson等人（编辑）的书籍章节对象分类：剑桥大学计算机和人类视觉透视按。2009 图像的随机语法朱宋春和大卫·芒福德计算机图形与视觉基础与趋势第2卷，第4期。2007	语法幻灯片
4月20日	阿利奥莎和斯科特	从电影中学习真实的人类行为。伊万·拉普特夫（Ivan Laptev）、马金·马尔萨利克（Marcin Marszalek）、科迪莉亚·施密德（Cordelia Schmid）和本杰明·罗森菲尔德（Benjamin Rozenfeld）。程序中。2008年CVPR 项目页面	视频动作幻灯片
4月22日	阿利奥莎	数据的不合理有效性与人群的智慧	数据
4月27日	阿利奥莎+所有人	我们如何知道我们已经解决了愿景？	解决愿景
4月29日		项目演示（1-4）
4月30日下午6-8点，NSH 3002		项目演示（5-10）

类似课程

本课程的灵感来自我的几位同事提供的这些建议。以下是部分列表：

视觉识别和搜索（克里斯汀·格劳曼，德克萨斯州奥斯汀，2009年春季）
视觉场景理解（德里克·霍伊姆，UIUC，2009年春季）
视觉识别的统计模型（德瓦·拉马南，加州大学国际学院，2009年冬季）
对象识别和场景理解（安东尼奥·托拉尔巴，麻省理工学院，2008年秋季）
场景理解研讨会（Aude Oliva，麻省理工学院，2008年秋季）
愿景与学习专题（Serge Belongie，加州大学可持续发展学院，2006年秋季）
视觉中的学习和推理（比尔·弗里曼，麻省理工学院）
计算机视觉中的高级识别（李飞飞，普林斯顿大学）
识别人物、对象和场景（伯克利州吉坦德拉·马利克）
计算机视觉中的识别问题（Greg Mori，旧金山州立大学，2007年秋季）
视觉识别（加州理工学院彼得罗·佩罗纳）
愿景与学习（施建波，UPenn）

一些教程、研讨会和研讨会：

页面由Tomasz Malisiewicz维护（电子邮件：tmalisie at cs dot cmu dot edu）