第条

使用SIFT和场景背景匹配将幻灯片与演示视频进行匹配

作者:

科布斯巴纳德,

阿诺阿米尔,

阿龙夫雷德，以及

明林作者信息和声明

MIR’06：第八届ACM多媒体信息检索国际研讨会会议记录

2006年10月

页239-248

https://doi.org/10.1145/1178677.1178710

出版:2006年10月26日出版历史

获取访问权限

摘要

我们提出了一种通用方法，用于自动将电子幻灯片与相应演示文稿的视频进行匹配，以用于远程学习和会议视频会议。我们处理各种各样的视频、各种帧组成和颜色平衡、任意幻灯片序列以及动态相机切换、平移、倾斜和缩放。为了达到高精度，我们开发了一个无监督场景背景建模的两阶段过程。在第一阶段，在使用随机样本一致性（RANSAC）的约束投影变换（约束单应）下，将尺度不变特征变换（SIFT）关键点应用于帧到幻灯片匹配。成功的第一阶段匹配用于自动构建场景背景模型。在第二阶段，将背景模型应用于剩余的未匹配帧，以提高在困难情况下的匹配性能，例如在宽视野摄像机拍摄时，幻灯片显示为帧的一小部分。我们还表明，当使用与颜色相关的相似性度量来识别幻灯片时，颜色校正非常有用。我们提供了详细的定量实验结果，描述了我们方法的每个部分的效果。结果表明，我们的方法是稳健的，在将幻灯片与多个不同风格的视频进行匹配时取得了很高的性能。

工具书类

[1]

G.D.Abowd、C.G.Atkeson、A.Feinstein、C.E.Hmelo、R.Kooper、S.Long、N.N.Sawhney和M.Tani。作为多媒体创作的教学：课堂2000项目。在ACM Multimedia第187-198页，1996年。

数字图书馆

[2]

A.Amir、G.Ashour和S.Srinivasan。自动生成会议视频会议记录。在《视觉通信与图像表示杂志》中，JVCI多媒体数据库专刊第467-4882004页。

数字图书馆

[3]

A.Behera、D.Lalanne和R.Ingold。查看预测文档：事件检测文档标识。，2004

[4]

N.Christianini和J.Shawe。支持向量机和其他基于内核的学习方法，剑桥大学出版社，2002年。

数字图书馆

[5]

B.Erol、J.J.Hull和D.Lee。将多媒体演示与其符号源文档相链接：算法和应用。在ACM多媒体第498-5072003页。

数字图书馆

[6]

S.Fathima，T.Mahmood。使用箔为视频中的主题编制索引。IEEE计算机视觉和模式识别会议第II:312-3192000页。

[7]

A.Fischler，M.和C.Bolles，R.《随机样本共识：模型拟合范例》，应用于图像分析和自动制图。ACM通讯24:381-3951981。

数字图书馆

[8]

R.M.Haralick和G.S.Linda。《计算机与机器人视觉》，第二卷，艾迪森·韦斯利，1992年。

数字图书馆

[9]

R.Hartley和A.Zisserman。《计算机视觉中的多视图和几何》，剑桥大学出版社，2002年。

数字图书馆

[10]

T.Liu、R.Hjelsvold和R.Kender，J.电子幻灯片演示视频的分析和增强。2002年IEEE国际多媒体与博览会（ICME）。

[11]

D.洛。具有与比例不变关键点不同的图像特征。《国际计算机视觉杂志》第91-110页，2004年。

数字图书馆

[12]

S.Mukhopadhyay和B.Smith。被动捕获和构建讲座。在ACM多媒体（1）第477-4871999页。

数字图书馆

[13]

G.Pass、R.Zabih和J.Miller。使用颜色相干向量比较图像。在ACM Multimedia第65-73页，1996年。

数字图书馆

[14]

L.A.Rowe和J.M.Gonzelez。Bmrc讲座浏览器。在http://bmrc.berkekey.edu/frame/projects/lb/index.html

[15]

F.Wang、C.-W.Ngo和T.-C.Pong。通过视频文本分析同步讲座视频和电子幻灯片。在ACM多媒体第315-318页，2003年。

数字图书馆

引用人

村上T富士达K哈拉·K高岛K北村Y(2024)SwapVid：将视频观看和文档浏览与直接操作相结合CHI计算机系统人为因素会议记录10.1145/3613904.3642515(1-13)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642515
刘Z李凯（Li K）沈立安·P(2017)演讲视频中用于幻灯片切换检测的稀疏时间维图图像和图形10.1007/978-3-319-71607-7_50(567-576)在线发布日期：2017年12月30日
https://doi.org/10.1007/978-3-319-71607-7_50
沙阿R齐默尔曼R沙阿·R齐默尔曼R(2017)结论和未来工作用户生成多媒体内容的多模式分析10.1007/978-3-319-61807-4_8(235-260)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_8
显示更多引用者

索引术语

使用SIFT和场景背景匹配将幻灯片与演示视频进行匹配
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉任务
        场景理解

建议

电子幻灯片与演示视频的稳健时空匹配

我们描述了一种健壮高效的方法，用于自动将电子幻灯片与相应演示文稿的视频进行匹配和时间调整。将电子幻灯片与视频相匹配为索引、搜索和浏览视频提供了新方法。。。
阅读更多信息
将幻灯片与演示视频匹配
阅读更多信息
基于脊线的指纹匹配

传统的指纹匹配是基于细节点的，它建立了两个指纹之间的细节点对应关系。本文提出了一种新的指纹匹配算法，该算法既建立了脊线对应关系，又建立了指纹匹配的特征向量。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

MIR'06：第八届ACM多媒体信息检索国际研讨会论文集

2006年10月

344页

国际标准图书编号：1595934952

内政部：10.1145/1178677

总主席：
詹姆斯·Z·王
宾夕法尼亚州立大学
,
诺扎·布杰马
INRIA Rocquencourt，法国
,
陈一新
密西西比大學

版权所有©2006 ACM。

允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，但不收取任何费用，前提是复制品的制作或分发不是为了盈利或商业利益，并且复制品在首页注明本通知和完整引文。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2006年10月26日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

第条

会议

2006年3月

赞助商：

MM06:2006年第14届ACM国际多媒体会议

2006年10月26日至27日

加利福尼亚州，圣巴巴拉，美国

即将召开的会议

毫米24

赞助商：
西格玛

24岁MM：第32届ACM国际多媒体会议

2024年10月28日至11月1日

墨尔本，维多利亚州，澳大利亚

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

29
引文总数
查看引文
685
总下载次数

下载量（最近12个月）13
下载次数（最近6周）2

其他指标

查看作者指标

引文

引用人

村上T富士达K哈拉·K高岛K北村Y(2024)SwapVid：将视频观看和文档浏览与直接操作相结合CHI计算机系统人为因素会议记录10.1145/3613904.3642515(1-13)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642515
刘Z李凯（Li K）沈立安·P(2017)演讲视频中用于幻灯片切换检测的稀疏时间维图图像和图形10.1007/978-3-319-71607-7_50(567-576)在线发布日期：2017年12月30日
https://doi.org/10.1007/978-3-319-71607-7_50
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)结论和未来工作用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_8(235-260)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_8
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)自适应新闻视频上传用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_7(205-234)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_7
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)演讲视频分割用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_6(173-203)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_6
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)UGV声道建议用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_5(139-171)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_5
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)标签推荐和排名用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_4(101-138)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_4
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)事件理解用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_3(59-99)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_3
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)文献综述用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_2(31-57)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_2
沙阿·R齐默尔曼R沙阿·R齐默尔曼R(2017)介绍用户生成多媒体内容的多模态分析10.1007/978-3-319-61807-4_1(1-30)在线发布日期：2017年9月1日
https://doi.org/10.1007/978-3-319-61807-4_1
显示更多引用者

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

视图选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子