研究论文

大型视觉语言模型的对抗鲁棒性评估

作者：
赵云清

新加坡理工大学

新加坡理工大学
查看个人资料

,
庞天宇

新加坡Sea AI实验室

新加坡Sea AI实验室
查看个人资料

,
赵都

新加坡Sea AI实验室

新加坡Sea AI实验室
查看个人资料

,
肖扬

清华大学

清华大学
查看个人资料

,
李崇轩

中国人民大学

中国人民大学
查看个人资料

,
Ngai-Man Cheung先生

新加坡理工大学

新加坡理工大学
查看个人资料

,
林敏（Min Lin）

新加坡Sea AI实验室

新加坡Sea AI实验室
查看个人资料

作者信息和声明

NIPS’23：第37届神经信息处理系统国际会议记录2023年12月条款编号：2355第54111–54138页

出版：2024年5月30日出版历史

NIPS’23：第37届神经信息处理系统国际会议记录

第54111–54138页

摘要

GPT-4等大型视觉语言模型（VLM）在响应生成方面取得了前所未有的性能，尤其是在视觉输入方面，与ChatGPT等大型语言模型相比，能够实现更具创造性和适应性的交互。尽管如此，多模式发电加剧了安全问题，因为对手可能通过巧妙地操纵最脆弱的模式（例如，视觉）成功避开整个系统。为此，我们建议在最现实和高风险的环境中评估开源大型VLM的稳健性，其中对手只有黑盒子系统访问并试图欺骗模型以返回有针对性的响应。特别是，我们首先针对预处理模型（如CLIP和BLIP）制作有针对性的对抗性示例，然后将这些对抗性示例传输到其他VLM，如MiniGPT-4、LLaVA、UniDiffuser、BLIP-2和Img2Prompt。此外，我们观察到，对这些VLM的黑盒查询可以进一步提高目标回避的有效性，从而产生出奇高的目标响应成功率。我们的研究结果提供了对大型VLM对抗性脆弱性的定量理解，并呼吁在实际部署之前对其潜在安全缺陷进行更彻底的检查。我们的项目页面：yunqing-me.github.io/AttackVLM/。

工具书类

Nayer Aafaq、Naveed Akhtar、Wei Liu、Mubarak Shah和Ajmal Mian。通过对抗性攻击控制图像的字幕生成。arXiv预打印arXiv:2107.03050, 2021.谷歌学者
Jean-Baptiste Alayrac、Jeff Donahue、Pauline Luc、Antoine Miech、Iain Barr、Yana Hasson、Karel Lenc、Arthur Mensch、Katherine Millican、Malcolm Reynolds等。弗拉明戈：一种用于少人学习的视觉语言模型。在神经信息处理系统（NeurIPS）的进展, 2022.谷歌学者
萨姆·奥尔特曼（Sam Altman），2023年。https://twitter.com/sama/status/1635687855921172480。谷歌学者
Moustafa Alzantot、Yash Sharma、Ahmed Elgohary、Bo Jhang Ho、Mani Srivastava和Kai Wei Chang。生成自然语言对抗示例。在自然语言处理经验方法会议记录, 2018.谷歌学者交叉引用
范宝、沈聂、薛凯文、李崇轩、石璞、王耀乐、越岳、越曹、杭苏、朱军。一个变换器在尺度上适用于多模扩散中的所有分布。在国际机器学习会议, 2022.谷歌学者
马克斯·巴托洛（Max Bartolo）、特里斯坦·画眉（Tristan Thrush）、罗宾·贾（Robin Jia）、塞巴斯蒂安·里德尔（Sebastian Riedel）、蓬特斯·斯坦托普（Pontus Stenetorp）和杜威·基拉（Douwe Kiela）。通过合成对抗数据生成提高问答模型的鲁棒性。arXiv预打印arXiv:2104.08678, 2021.谷歌学者
Arjun Nitin Bhagoji、Warren He、Bo Li和Dawn Song。使用有效的查询机制对深层神经网络进行实际的黑盒攻击。在欧洲计算机视觉会议, 2018.谷歌学者数字图书馆
巴蒂斯塔·比吉奥（Battista Biggio）、伊吉诺·科罗纳（Igino Corona）、大卫·迈奥卡（Davide Maiorca）、布莱恩·纳尔逊（Blaine Nelson）、内迪姆·什恩迪奇（NedimŠrndić）、帕维尔·拉斯科夫（Pavel Laskov）、乔治·贾辛托（Gi。测试时对机器学习的规避攻击。在欧洲机器学习和数据库知识发现联合会议，第387-402页。施普林格，2013年。谷歌学者数字图书馆
希西家J Branch、Jonathan Rodriguez Cefalu、Jeremy McHugh、Leyla Hujer、Aditya Bahl、Daniel del Castillo Iglesias、Ron Heichman和Ramesh Darwishi。通过手工制作的对抗性示例评估预训练语言模型的敏感性。arXiv预打印arXiv:2209.02128, 2022.谷歌学者
汤姆·布朗（Tom Brown）、本杰明·曼（Benjamin Mann）、尼克·莱德（Nick Ryder）、梅兰妮·苏比亚赫（Melanie Subbiah）、贾里德·卡普兰（Jared D Kaplan）、普拉福拉·达里瓦尔（Prafulla Dhariwal）、阿文德·内拉坎坦（Arvind Neelakantan）、普拉纳夫·希亚姆（Pranav Shya。神经信息处理系统（NeurIPS）的进展, 2020.谷歌学者
于曹、李殿琦、孟芳、周天一、高军、詹一冰和陶大成。塔萨：通过双答案句攻击欺骗问答模型。arXiv预打印arXiv:2210.15221, 2022.谷歌学者
尼古拉斯·卡里尼（Nicholas Carlini）、阿尼什·阿塔利（Anish Athalye）、尼古拉斯·帕普诺特（Nicolas Papernot）、维兰德·布伦德尔（Wieland Brendel）、乔纳斯·劳贝尔（Jonas Rauber）、迪米特里斯·齐普拉斯（Dimitris Tsipras）、伊恩·古德费罗（。评估对抗性稳健性。arXiv预打印arXiv:1902.06705，2019年。谷歌学者
Aditya Chattopadhay、Anirban Sarkar、Prantik Howlader和Vineeth N Balasubramanian。Grad-cam++：深度卷积网络的基于广义梯度的可视化解释。在2018年IEEE计算机视觉应用冬季会议（WACV）第839-847页。IEEE，2018年。谷歌学者
陈红歌、张欢、陈品玉、易金凤和谢卓绝。用对抗性示例攻击视觉语言基础：神经图像字幕的案例研究。arXiv预印本arXiv:1712.02051, 2017.谷歌学者
陈军（Jun Chen）、韩过（Han Guo）、凯毅（Kai Yi）、李伯阳（Boyang Li）和穆罕默德·埃洛塞尼（Mohamed Elhoseiny）。Visualgpt：图像字幕预处理语言模型的数据高效适应性。在IEEE计算机视觉和模式识别会议（CVPR）, 2022.谷歌学者交叉引用
陈品玉、张欢、亚什·夏尔马、易金凤和谢卓绝。动物园：基于零阶优化的黑盒攻击深度神经网络，无需训练替代模型。在ACM人工智能与安全研讨会（AISec）ACM，2017年。谷歌学者
程书玉、董银鹏、庞天宇、苏杭和朱军。使用基于传输的优先级改进黑盒对手攻击。在神经信息处理系统（NeurIPS）的进展, 2019.谷歌学者
蒋伟林、李卓翰、梓琳、盛英、吴章浩、张浩、郑连民、庄思远、庄永浩、约瑟夫·冈萨雷斯等。维库纳：一款开源聊天机器人，gpt-4令人印象深刻，聊天质量达到90%*，2023年。https://vicuna.lmsys.org/。谷歌学者
Aakanksha Chowdhery，Sharan Narang，Jacob Devlin，Maarten Bosma，Gaurav Mishra，Adam Roberts，Paul Barham，Hyung Won Chung，Charles Sutton，Sebastian Gehrmann，et al.Palm:使用路径缩放语言建模。arXiv预打印arXiv:2204.02311, 2022.谷歌学者
贾登、魏东、理查德·索彻、李佳丽、凯丽和李飞飞。Imagenet：大规模分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）, 2009.谷歌学者交叉引用
雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。伯特：深度双向变形金刚的语言理解预训练。arXiv预打印arXiv:1810.04805, 2018.谷歌学者
董银鹏、廖方舟、庞天宇、苏杭、朱军、胡晓林、李建国。以势头推进对手进攻。在IEEE计算机视觉和模式识别会议（CVPR）, 2018.谷歌学者交叉引用
董银鹏、彭天宇、苏杭和朱军。通过转换-变异攻击来逃避对可转移对手示例的防御。在IEEE计算机视觉和模式识别会议（CVPR）, 2019.谷歌学者交叉引用
董银鹏、程淑玉、庞天宇、苏杭和朱军。基于传输的先验知识引导的高效查询黑盒对抗性攻击。IEEE模式分析和机器智能汇刊（TPAMI），44（12）：9536-95482021。谷歌学者交叉引用
董银鹏、陈焕然、陈嘉伟、方正伟、肖阳、张一驰、于田、杭苏和朱军。谷歌对对抗性图像攻击的抵抗力有多强？arXiv预印arXiv:2309.11751, 2023.谷歌学者
Danny Driess、Fei Xia、Mehdi SM Sajjadi、Corey Lynch、Aakanksha Chowdhery、Brian Ichter、Ayzaan Wahid、Jonathan Tompson、Quan Vuong、Tianhe Yu等。Palm-e：一种体现的多模态语言模型。arXiv预打印arXiv:2303.03378, 2023.谷歌学者
Deep Ganguli、Liane Lovitt、Jackson Kernion、Amanda Askell、Yuntao Bai、Saurav Kadavath、Ben Mann、Ethan Perez、Nicholas Schiefer、Kamal Ndousse等。减少危害的红队语言模型：方法、缩放行为和经验教训。arXiv预打印arXiv:2209.07858，2022年。谷歌学者
github。Copilot x，2023年。https://github.com/features/preview/copilot-x。谷歌学者
Ian J Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性示例。在国际学习代表大会, 2015.谷歌学者
郭佳先、李俊楠、李东旭、安东尼·蒙华婷、李伯阳、陶大成和史蒂文·海。从图像到文本提示：使用冻结的大型语言模型进行零镜头可视问答。在IEEE计算机视觉和模式识别会议（CVPR）, 2023.谷歌学者交叉引用
Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch、Elena Buchatskaya、Trevor Cai、Eliza Rutherford、Diego de Las Casas、Lisa Anne Hendricks、Johannes Welbl、Aidan Clark等。训练计算优化大型语言模型。arXiv预打印arXiv:2203.15556, 2022.谷歌学者
胡明慧、郑传霞、郑和良、张达仁、王朝月、杨左鹏、陶大成和彭努苏赖。统一离散扩散用于同时生成视觉语言。arXiv预打印arXiv:2211.14842, 2022.谷歌学者
黄绍汉、李东、王文辉、郝亚鲁、萨沙姆·辛哈尔、马树明、吕腾超、崔雷、奥瓦伊斯·汗·穆罕默德、刘强等。语言并不是你所需要的全部：将感知与语言模型结合起来。arXiv预打印arXiv:2302.14045, 2023.谷歌学者
安德鲁·伊利亚斯（Andrew Ilyas）、洛根·恩格斯特罗姆（Logan Engstrom）、阿尼什·阿塔利（Anish Athalye）和杰西·林（Jessy Lin）。使用有限查询和信息进行黑盒对抗性攻击。在国际机器学习会议, 2018.谷歌学者
Andrew Ilyas、Shibani Santurkar、Dimitris Tsipras、Logan Engstrom、Brandon Anish Athalye、Tran和Aleksander Madry。相反的例子不是错误，而是特性。在神经信息处理系统（NeurIPS）的进展, 2019.谷歌学者
Di Jin、Zhijing Jin、Joey Tianyi Zhou和Peter Szolovits。伯特真的很健壮吗？对文本分类和隐含进行自然语言攻击的强大基础。在人工智能会议, 2020.谷歌学者交叉引用
Divyansh Kaushik、Douwe Kiela、Zachary C Lipton和Wen-tau Yih。对抗性数据收集对问答的有效性：一项大规模随机研究的结果。arXiv预打印arXiv:2106.00872，2021年。谷歌学者
Venelin Kovatchev、Trina Chatterjee、Venkata S Govindarajan、Jifan Chen、Eunsol Choi、Gabriella Chronis、Anubrata Das、Katrin Erk、Matthew Lease、Junyi Jessy Li等。愚弄一个问答模型需要多少语言学家？对抗性攻击的系统方法。arXiv预打印arXiv:2206.14729, 2022.谷歌学者
亚历山大·拉科斯特、亚历山大·卢奇奥尼、维克托·施密特和托马斯·丹德雷斯。量化机器学习的碳排放。arXiv预打印arXiv:1910.09700，2019年。谷歌学者
李俊楠（Junnan Li）、Ramprasaath R.Selvaraju（Ramprasah R.Selvaraju）、Akhilesh Deepak Gotmare（Akhilesh-Depak-Gotmare）、Shafiq Joty（沙菲克·乔蒂）、熊彩铭（Caiming Xiong）和Ste。融合前对齐：视觉和语言表征学习与动量蒸馏。在神经信息处理系统（NeurIPS）的进展, 2021.谷歌学者
李俊楠、李东旭、熊才明和史蒂文·海。Blip：引导语言-图像预训练，用于统一视觉语言理解和生成。在国际机器学习会议, 2022.谷歌学者
李俊楠、李东旭、西尔维奥·萨瓦雷斯和史蒂文·海。Blip-2：引导语言-使用冻结图像编码器和大型语言模型进行图像预训练。arXiv预打印arXiv:2301.12597, 2023.谷歌学者
李林杰（Linjie Li）、杰雷（Jie Lei）、哲甘（Zhe Gan）和刘晶晶（Jingjing Liu）。对手vqa：用于评估vqa模型稳健性的新基准。在IEEE国际计算机视觉会议（ICCV）, 2021.谷歌学者
林宗毅、迈克尔·梅尔、谢尔盖·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得罗尔·多拉和C·劳伦斯·兹尼克。Microsoft coco：上下文中的通用对象。在2014年9月6日至12日在瑞士苏黎世举行的2014年第13届欧洲计算机视觉会议（Computer Vision-ECCV 2014:13th European Conference），会议记录，第V部分13，第740-755页。斯普林格，2014年。谷歌学者交叉引用
刘昊天、李春元、李玉恒和李永杰。通过可视化指令调整改进基线。arXiv预打印arXiv:2310.03744, 2023.谷歌学者
刘昊天、李春元、吴庆阳和李永杰。可视化指令调整。arXiv预打印arXiv:2304.08485, 2023.谷歌学者
刘彦培、陈新云、刘畅和宋曙光。深入研究可转移的对抗性示例和黑盒攻击。arXiv预打印arXiv:1611.02770, 2016.谷歌学者
Aleksander Madry、Aleksandar Makelov、Ludwig Schmidt、Dimitris Tsipras和Adrian Vladu。面向抗对抗性攻击的深度学习模型。在国际学习代表大会, 2018.谷歌学者
Rishabh Maheshwary、Saket Maheshwary和Vikram Pudi。在硬标签黑盒设置中生成自然语言攻击。在人工智能会议, 2021.谷歌学者交叉引用
赵萌和罗杰·瓦滕霍夫。生成自然语言对抗性示例的几何灵感攻击。arXiv预印arXiv:2010.01345, 2020.谷歌学者
中途。Midtrivel网站，2023年。https://www.middravel.com。谷歌学者
米拉德·莫拉迪和马蒂亚斯·桑瓦尔德。评估神经语言模型对输入扰动的鲁棒性。arXiv预打印arXiv:2108.12237, 2021.谷歌学者
John X Morris、Eli Lifland、Jack Lanchantin、Yangfeng Ji和Yanjun Qi。重新评估自然语言中的对手示例。arXiv预打印arXiv:2004.14174, 2020.谷歌学者
尤里·内斯特罗夫和弗拉基米尔·斯波科尼。凸函数的随机无梯度最小化。计算数学基础, 17:527-566, 2017.谷歌学者数字图书馆
亚历克斯·尼科尔（Alex Nichol）、普拉福拉·达里瓦尔（Prafulla Dhariwal）、阿迪蒂亚·拉梅什（Aditya Ramesh）、普拉纳夫·希亚姆（Pranav Shyam）、帕梅拉·米什金（Pamela Mishkin）、鲍勃·麦克格鲁（Bob McGrew）、伊利亚·萨茨。Glide：使用文本引导扩散模型生成和编辑照片级真实感图像。arXiv预打印arXiv:2112.10741, 2021.谷歌学者
聂一欣（Yixin Nie）、阿迪娜·威廉姆斯（Adina Williams）、艾米莉·迪南（Emily Dinan）、莫希特·班萨尔（Mohit Bansal）、杰森·韦斯顿（Jason Weston）和杜维·基拉（Douwe Kiela）。对手nli：自然语言理解的新基准。在计算语言学协会年会, 2020.谷歌学者交叉引用
开放人工智能。chatgpt简介，2022年。https://openai.com/blog/chatgpt。谷歌学者
开放人工智能。Gpt-4技术报告。arXiv公司, 2023.谷歌学者
Long Ouyang、Jeffrey Wu、Xu Jiang、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong Zhang、Sandhini Agarwal、Katarina Slama、Alex Ray等。训练语言模型以遵循指示并提供人的反馈。在神经信息处理系统（NeurIPS）的进展, 2022.谷歌学者
彭天宇、林敏、肖扬、朱军和颜水成。通过（适当的）定义，稳健性和准确性可以调和。在国际机器学习会议, 2022.谷歌学者
尼古拉斯·帕普诺特、帕特里克·麦克丹尼尔和伊恩·古德费罗。机器学习中的可转移性：从现象到使用对抗性样本的黑箱攻击。arXiv预打印arXiv:1605.07277, 2016.谷歌学者
Joon Sung Park、Joseph C O’Brien、Carrie J Cai、Meredith Ringel Morris、Percy Liang和Michael S Bernstein。生殖代理人：人类行为的互动模拟。arXiv预打印arXiv:2304.03442, 2023.谷歌学者
Ethan Perez、Saffron Huang、Francis Song、Trevor Cai、Roman Ring、John Aslanides、Amelia Glaese、Nat McAleese和Geoffrey Irving。红色团队语言模型与语言模型。arXiv预打印arXiv:2202.03286, 2022.谷歌学者
Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever等。语言模型是无监督的多任务学习者。OpenAI博客, 1(8):9, 2019.谷歌学者
Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark等。从自然语言监督中学习可转换视觉模型。在国际机器学习会议, 2021.谷歌学者
科林·拉斐尔（Colin Raffel）、诺姆·沙泽尔（Noam Shazeer）、亚当·罗伯茨（Adam Roberts）、凯瑟琳·李（Katherine Lee）、莎兰·纳朗（Sharan Narang）、迈克尔·马泰纳（Michael Matena）、周燕琪（Yanqi Zhou）、李伟。使用统一的文本到文本转换器探索迁移学习的局限性。机器学习研究杂志, 21(1):5485-5551, 2020.谷歌学者
阿迪蒂亚·拉梅什（Aditya Ramesh）、米哈伊尔·巴甫洛夫（Mikhail Pavlov）、加布里埃尔·高（Gabriel Goh）、斯科特·格雷（Scott Gray）、切尔西·沃斯（Chelsea Voss）、亚历克·拉德福德（Alec Radford）、马克·陈。零快照文本到图像生成。在机器学习国际会议，第8821-8831页。PMLR，2021年。谷歌学者
Aditya Ramesh、Prafulla Dhariwal、Alex Nichol、Casey Chu和Mark Chen。使用剪辑潜伏期的分层文本条件图像生成。arXiv预打印arXiv:2204.06125, 2022.谷歌学者
哈维尔·兰多（Javier Rando）、丹尼尔·帕莱卡（Daniel Paleka）、大卫·林德纳（David Lindner）、伦纳德·海姆（Lennard Heim）和弗洛里安·特拉梅尔（Florian Tramèr）。红光稳定扩散安全过滤器。arXiv预打印arXiv:2210.04610, 2022.谷歌学者
任彦坤、林建斌、汤思良、周军、双阳、袁琦和任翔。使用生成模型大规模生成自然语言对抗性示例。arXiv预打印arXiv:2003.10388, 2020.谷歌学者
乔纳斯·瑞克（Jonas Ricker）、西蒙·达姆（Simon Damm）、托尔斯滕·霍尔茨（Thorsten Holz）和阿斯娅·菲舍尔（Asja Fischer）。针对扩散模型深水假货的检测。arXiv预打印arXiv:2210.14571, 2022.谷歌学者
Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser和Björn Ommer。具有潜在扩散模型的高分辨率图像合成。在IEEE计算机视觉和模式识别会议（CVPR），第10684-106952022页。谷歌学者
哈迪·萨勒曼（Hadi Salman）、阿拉·卡达吉（Alaa Khaddaj）、纪尧姆·勒克莱尔（Guillaume Leclerc）、安德鲁·伊利亚斯（Andrew Ilyas）和亚历山大·马德里（Aleksander Madry）。提高恶意人工智能图像编辑的成本。在国际机器学习会议, 2023.谷歌学者
Teven Le Scao、Angela Fan、Christopher Akiki、Ellie Pavlick、Suzana Ilic、Daniel Hesslow、Roman Castagné、Alexandra Sasha Luccioni、François Yvon、Matthias Gallé等。Bloom:176b参数开放存取多语言模型。arXiv预打印arXiv:22111.05100，2022年。谷歌学者
Ramprasaath R.Selvaraju、Michael Cogswell、Abhishek Das、Ramakrishna Vedantam、Devi Parikh和Dhruv Batra。Grad-cam：通过基于梯度的本地化从深层网络中进行可视化解释。在IEEE计算机视觉国际会议（ICCV）会议记录2017年10月。谷歌学者交叉引用
沙泽阳、郑丽、于宁和张扬。De-fake：由文本到图像扩散模型生成的假图像的检测和属性。arXiv预打印arXiv:2210.06998, 2022.谷歌学者
Sasha Sheng、Amanpriet Singh、Vedanuj Goswami、Jose Magana、Tristan Thrush、Wojciech Galuba、Devi Parikh和Douwe Kiela。人性化视觉问答神经信息处理系统（NeurIPS）的进展, 2021.谷歌学者
史云迪、李皮吉、尹长春、韩兆阳、周璐和刘哲。提示攻击：通过梯度搜索对语言模型进行基于提示的攻击。在自然语言处理与中文计算, 2022.谷歌学者数字图书馆
Shaden Smith、Mostofa Patwary、Brandon Norick、Patrick LeGresley、Samyam Rajbhandari、Jared Casper、Zun Liu、Shrimai Prabhumoye、George Zerveas、Vijay Korthikanti等。使用deepspeed和wegatron在nlg 530b（一种大规模生成语言模型）上训练megatron。arXiv预印本arXiv:2201.1990, 2022.谷歌学者
孙权、方玉欣、吴乐德、王新龙和曹岳。Eva-clip：改进了大规模剪辑的训练技巧。arXiv预打印arXiv:2303.15389, 2023.谷歌学者
Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus。神经网络的有趣特性。在国际学习代表大会, 2014.谷歌学者
陶冠宏、马仕卿、刘英琪、张向玉。攻击满足可解释性：对手样本的属性导向检测。在神经信息处理系统（NeurIPS）的进展，第7717-7728页，2018年。谷歌学者
罗汉·陶里、Ishaan Gulrajani、Tianyi Zhang、Yann Dubois、Xuechen Li、Carlos Guestrin、Percy Liang和Tatsunori B Hashimoto。斯坦福羊驼：一只指导用的骆驼模型，2023年。https://github.com/tatsu-lab/stanford_alpaca。谷歌学者
Anthony Meng Huat Tiong、Junnan Li、Boyang Li、Silvio Savarese和Steven CH Hoi。即插即用vqa：通过将大型预处理模型与零训练相结合的零射击vqa。arXiv预打印arXiv:2210.08773, 2022.谷歌学者
雨果·图夫龙（Hugo Touvron）、蒂鲍特·拉夫里尔（Thibaut Lavril）、戈蒂埃·伊扎卡德（Gautier Izacard）、泽维尔·马丁内特（Xavier Martinet）、玛丽·安妮·拉乔克斯（Marie-Anne Lachaux）、提摩西·拉克鲁瓦（Timothée Lacroix）、巴蒂斯特·罗齐埃（Baptiste Rozière）、。arXiv预打印arXiv:2302.13971, 2023.谷歌学者
玛丽亚·齐姆波基利、雅各布·梅尼克、塞尔坎·卡比、SM·埃斯拉米、奥利奥·维尼亚尔和菲利克斯·希尔。使用冻结语言模型的多模式少镜头学习。在神经信息处理系统（NeurIPS）的进展, 2021.谷歌学者
阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、尤卡斯·凯泽（ukasz Kaiser。注意力是你所需要的。神经信息处理系统研究进展, 30, 2017.谷歌学者
塞·文普拉、罗杰里奥·博纳蒂、亚瑟·巴克尔和阿什什·卡普尔。机器人Chatgpt：设计原则和建模能力。Microsoft博客, 2023.谷歌学者
埃里克·华莱士（Eric Wallace）、佩德罗·罗德里格斯（Pedro Rodriguez）、石峰（Shi Feng）、山田一彦（Ikuya Yamada）和乔丹·博伊德·格拉伯（Jordan Boyd-Graber）。如果可以的话，欺骗我：人性化的一代问答对抗性示例。计算语言学协会会刊, 7:387-401, 2019.谷歌学者交叉引用
Boxin Wang、Chejian Xu、Shuohang Wang、Zhe Gan、Yu Cheng、Jianfeng Gao、Ahmed Hassan Awadallah和Bo Li。对抗胶：语言模型稳健性评估的多任务基准。在神经信息处理系统（NeurIPS）的进展, 2021.谷歌学者
王金东、胡锡旭、侯文新、陈浩、郑润凯、王一东、杨临沂、黄浩军、叶伟、耿秀波等。关于chatgpt的稳健性：一个对抗性和分布外的视角。arXiv预打印arXiv:2302.12095, 2023.谷歌学者
Xiao Wang、Qin Liu、Tao Gui、Qi Zhang、Yicheng Zou、Xin Zhou、Jiacheng Ye、Yongxin Zhang，Rui Zheng、Zexiong Pang等。Textflint：用于自然语言处理的统一多语言稳健性评估工具包。在计算语言学协会年会, 2021.谷歌学者交叉引用
吴晨飞、尹圣明、齐维珍、王晓东、汤泽成和南段。可视化聊天：使用可视化基础模型进行对话、绘图和编辑。arXiv预打印arXiv:2303.04671, 2023.谷歌学者
谢慈航（Cihang Xie）、张志帅（Zhang Zhang）、周玉音（Yuin Zhou）、宋白（Song Bai）、王建宇（Jianyu Wang）、周仁（Zhou Ren）和阿兰·L Yuille。利用输入分集提高对抗性示例的可转移性。在IEEE计算机视觉和模式识别会议（CVPR）, 2019.谷歌学者交叉引用
徐灿文（Canwen Xu）、郭大雅（Daya Guo）、段楠（Nan Duan）和朱利安·麦考利（Julian McAuley）。百泽：一个开源聊天模型，对自聊天数据进行参数高效调整。arXiv预打印arXiv:2304.01196, 2023.谷歌学者
徐静、朱达、玛格丽特·李、Y-Lan Boureau、Jason Weston和Emily Dinan。机器人对抗性对话，用于安全对话代理。在计算语言学协会北美分会：人类语言技术, 2021.谷歌学者交叉引用
Xiaojun Xu、Xinyun Chen、Chang Liu、Anna Rohrbach、Trevor Darrell和Dawn Song。尽管有本地化和注意力机制，但愚弄了视觉和语言模型。在IEEE计算机视觉和模式识别会议（CVPR）, 2018.谷歌学者交叉引用
Xingqian Xu、Zhangyang Wang、Eric Zhang、Kai Wang和Humphrey Shi。通用扩散：文本、图像和变体都在一个扩散模型中。arXiv预打印arXiv:2211.08332, 2022.谷歌学者
徐燕、吴宝元、沈富民、范燕波、张勇、沈恒涛和刘伟。通过具有潜在变量的结构化输出学习对图像字幕进行精确的对抗性攻击。在IEEE计算机视觉和模式识别会议（CVPR）, 2019.谷歌学者交叉引用
肖扬、董银鹏、彭天宇、苏杭和朱军。通过分层生成网络提高目标对手示例的可传输性。在欧洲计算机视觉会议, 2022.谷歌学者数字图书馆
杨正远、李林杰、王建峰、林凯文、阿扎纳萨布、费萨尔·艾哈迈德、刘自成、刘策、曾振英和王丽娟。Mm-react：提示chatgpt进行多模态推理和操作。arXiv预打印arXiv:2303.11381, 2023.谷歌学者
袁丽萍、郑晓庆、周毅、谢卓奎和张凯伟。对抗性攻击对神经文本分类器的可转移性。arXiv预打印arXiv:2011.08558, 2020.谷歌学者
默特·尤克塞克贡努尔（Mert Yuksekgonul）、费德里科·比安奇（Federico Bianchi）、普拉图沙·卡卢里（Pratyusha Kalluri）、丹·朱拉夫斯基（Dan Jurafsky）和詹姆斯·邹（James Zou）。视觉语言模型何时以及为什么表现得像纸袋一样，该怎么办？在国际学习代表大会, 2023.谷歌学者
张黄钊、周浩、苗宁和李雷。为自然语言生成流畅的对抗性示例。在计算语言学协会年会, 2019.谷歌学者交叉引用
张嘉明、齐毅和桑季涛。针对视觉语言预训练模型的对抗性攻击。在ACM国际多媒体会议, 2022.谷歌学者数字图书馆
Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman和Oliver Wang。深层特征作为感知度量的不合理有效性。在CVPR公司, 2018.谷歌学者交叉引用
Susan Zhang、Stephen Roller、Naman Goyal、Mikel Artetxe、Moya Chen、Shuohui Chen、Christopher Dewan、Mona Diab、Xian Li、Xi Victoria Lin等。选择：开放式预培训变压器语言模型。arXiv预印本arXiv：2205.01068，2022年。谷歌学者
赵云清、彭天宇、杜超、肖扬、张恩美和林敏。水印扩散模型的配方。arXiv预打印arXiv:2303.10137, 2023.谷歌学者
朱德尧、陈军、沈晓倩、李翔和穆罕默德·埃尔霍塞尼。Minigpt-4：使用高级大型语言模型增强视觉语言理解。arXiv预打印arXiv:2304.10592, 2023.谷歌学者
Terry Yue Zhoo、庄丽、黄育金、袁芳、王伟庆、Gholamreza Haffari和Fatemeh Shiri。关于基于快速语义分析的大型预处理语言模型的稳健性：一项关于codex的实证研究。arXiv预印本arXiv:2301.12868, 2023.谷歌学者

建议

视觉语言预训练模型的对抗性攻击
MM’22：第30届ACM国际多媒体会议记录

虽然视觉语言预训练模型（VLP）在各种视觉语言（V+L）任务上显示出革命性的改进，但关于其对抗鲁棒性的研究仍大部分未被探索。本文研究了针对流行网络的对抗性攻击。。。
阅读更多信息
对抗性最小极大训练对对抗性示例的鲁棒性
神经信息处理
摘要
在本文中，我们提出了一种新的方法来提高对抗性示例的鲁棒性。在传统的方法中，为了对对抗性示例采取措施，分类器是通过在特定环境中生成的对抗性示例来学习的。。。
阅读更多信息
AI模型对抗对抗攻击的稳健性评估
SPAI’20：第一届ACM人工智能安全与隐私研讨会会议记录

最近发展起来的针对神经网络的对抗性攻击变得更具攻击性和危险性，因为人工智能（AI）模型对其不再具有足够的鲁棒性。重要的是要有一套有效的。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
NIPS’23：第37届神经信息处理系统国际会议记录
2023年12月
80772页
编辑：
A.哦,
T.诺曼,
A.Globerson公司,
K.Saenko公司,
M.哈德,
S.莱文
版权所有©2023神经信息处理系统基金会。
赞助商
合作中
出版商
柯兰联合公司。
美国纽约州Red Hook
出版历史
- 出版：2024年5月30日
限定符
- 研究论文
- 研究
- 推荐有限公司
会议
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 0
  总下载次数
- 下载次数（过去12个月）0
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
本出版物尚未被引用

大型视觉语言模型的对抗鲁棒性评估

NIPS’23：第37届神经信息处理系统国际会议记录

摘要

工具书类

引用人

建议

视觉语言预训练模型的对抗性攻击

对抗性最小极大训练对对抗性示例的鲁棒性

AI模型对抗对抗攻击的稳健性评估

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

数字版

解说词

大型视觉语言模型的对抗鲁棒性评估

NIPS’23：第37届神经信息处理系统国际会议记录

摘要

工具书类

引用人

建议

视觉语言预训练模型的对抗性攻击

对抗性最小极大训练对对抗性示例的鲁棒性

AI模型对抗对抗攻击的稳健性评估

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

文章指标

其他指标

数字版

共享此出版物链接

在社交媒体上分享