马克斯·贝恩

电子邮件/github/G-学者/LinkedIn链接/推特

生物

我是雷卡,
我在那里研究多模态大型语言模型。
之前,我很高兴在VGG公司,
在A Zisserman教授的监督下。

图像

新闻

出版物

2024

Reka Core、Flash和Edge:一系列强大的多模态语言模型
Reka团队(25位作者,按字母顺序排列,包括马克斯·贝恩)
技术报告/产品,2024年。
[纸张] [聊天] [展示] [博客]
AutoAD III:前传-回到像素
腾达·韩,马克斯·贝恩、阿尔沙·纳格拉尼、吉尔·瓦罗尔、谢伟迪、安德鲁·齐瑟曼
CVPR公司,2024年。
[纸张] [代码]

2023

平衡图片:使用合成对比度集去除视觉语言数据集
B.Smith*、M.Farinha*、S.M.Hall、H.R.Kirk,A.Shtedritski,M.贝恩
技术报告, 2023.
[纸张] [代码]
AutoAD II:续集-电影音频描述中的人物、时间和内容
韩腾达,马克斯·贝恩、阿尔沙·纳格拉尼、吉尔·瓦罗尔、谢伟迪、安德鲁·齐瑟曼
ICCV公司, 2023.
[纸张] [代码]
WhisperX:长格式音频的时间准确语音转录
马克斯·贝恩、Jaesung Huh、Tengda Han、Andrew Zisserman
Interspeech公司, 2023.
[纸张] [代码]
AutoAD:上下文中的电影描述
腾达汉*,马克斯·贝恩*、阿尔沙·纳格拉尼、吉尔·瓦罗尔、谢伟迪、安德鲁·齐瑟曼
CVPR公司, 2023. [突出显示]
[纸张] [代码]

2022

一个即时数组消除偏见:用对抗性学习去除视觉语言模型
H.Berg、S.Hall、Y.Bhalgat、W.Yang、H.R.Kirk、A.Shtedritski、,M.贝恩
AACL公司, 2022.
[纸张] [代码]
CLIP-长视频检索搭车指南
马克斯·贝恩、Arsha Nagrani、Gül Varol、Andrew Zisserman
技术报告, 2022.
[纸张] [代码]

2021

时间冻结:一种用于端到端检索的视频和图像联合编码器
马克斯·贝恩、阿尔沙·纳格拉尼、吉尔·瓦罗尔、安德鲁·齐瑟曼
ICCV公司, 2021.
[纸张] [代码] [项目] [数据集] [演示]
野生灵长类视听行为的自动识别
M.贝恩A.Nagrani、D.Schofield、S.Berdugo、J.Bessa、J.Owen、K.J.Hockings、T.Matsuzawa、M.Hayashi、D.Biro、S.Carvalho、A.Zisserman
科学进步, 2021.
[纸张] [按下]

2020

浓缩电影:基于故事的上下文嵌入检索
马克斯·贝恩、阿尔沙·纳格拉尼、吉尔·瓦罗尔、安德鲁·齐瑟曼
ACCV公司, 2020. [口头]
[纸张] [代码] [挑战]

2019

计数、作物和识别:野外细粒识别
马克斯·贝恩、阿尔沙·纳格拉尼、丹尼尔·斯科菲尔德、安德鲁·齐瑟曼
ICCVW公司, 2019. [口头]
[纸张]
有用的链接

1.网络视频。1000万个字幕短视频的数据集。
https://github.com/m-bain/webvid.

2.高效准确的语音转录(和日记化)
https://github.com/m-bain/thepperX.