项羽琦
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [j1] 马伟宏 , 孙毅 , 项羽琦 , 薛祥龙 , 张凯轩 , 徐占康 , 李明宇 , 王荣(音) , 芮梦(Rui Meng) , 李奇峰 :
基于计算机视觉的家畜体型测量传感技术:综述。 传感器 24 ( 5 ) : 1504 ( 2024 ) 【c6】 项羽琦 , 黄凯轩 , Ashwine熊猫 , 彼得·亨德森 , 王梦迪 , Pratek Mittal公司 :
视觉对手示例越狱对齐大型语言模型。 AAAI公司 2024 : 21527-21536 [第14条] 魏伯义 , 黄凯旋 , 杨思波·黄 , 谢廷浩 , 项羽琦 , 蒙州夏 , Pratek Mittal公司 , 王梦迪 , 彼得·亨德森 :
通过修剪和低水位修改评估安全线形的脆性。 CoRR公司 腹肌/2402.05162 ( 2024 ) [i13] 王炯晓 , 李嘉钊 , 李一泉 , 项羽琦 , 胡俊杰 , 李一轩 , 派克·麦克丹尼 , 陈木浩(Muhao Chen) , 李波(Bo Li) , 肖朝伟 :
通过后门增强的对齐缓解精细调整越狱攻击。 CoRR公司 abs/2402.14968 ( 2024 ) [i12] 项羽琦 , 杨思波·黄 , 一曾 , 埃多尔多·德贝内德蒂(Edoardo Debenedetti) , 乔纳斯·盖平 , Luxi He公司 , 黄凯轩 , 乌达里·马杜沙尼 , 维卡什·塞瓦格 , 魏家石 , 魏伯义 , 谢廷浩 , 陈丹琪 , 陈品玉(Pin-Yu Chen) , 杰弗里·丁 , 若西嘉 , 马嘉琪 , 阿文德·纳拉亚南 , 魏杰J.苏 , 王梦迪 , 肖朝伟 , 李波(Bo Li) , 黎明之歌 , 彼得·亨德森 , Pratek Mittal公司 :
AI风险管理应结合安全和安保。 CoRR公司 abs/2405.19524 ( 2024 ) [i11] 陈雄 , 项羽琦 , 陈品玉(Pin-Yu Chen) , 宗义浩 :
防御提示补丁:LLM对越狱攻击的强大且可解释的防御。 CoRR公司 abs/2405.20099 ( 2024 ) 2023 【c5】 项羽琦 , 谢廷浩 , 李一鸣 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
重新审视后门防御的潜在可分性假设。 ICLR公司 2023 【c4】 童武 , 贾飞然 , 项羽琦 , 嘉晨·T·王 , 维卡什·塞瓦格 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
揭示测试时间适应的不利风险。 ICML公司 2023 : 37456-37495 【c3】 项羽琦 , 谢廷浩 , 嘉晨·T·王 , 童武 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
建立一种检测后门毒物样本的主动ML方法。 USENIX安全研讨会 2023 : 1685-1702 [i10] 童武 , 贾飞然 , 项羽琦 , 嘉晨·T·王 , 维卡什·塞瓦格 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
揭示测试时间适应的不利风险。 CoRR公司 abs/2301.12576 ( 2023 ) [第九章] 项羽琦 , 黄凯轩 , Ashwine熊猫 , 王梦迪 , Pratek Mittal公司 :
视觉对手示例越狱大型语言模型。 CoRR公司 abs/2306.13213 ( 2023 ) [i8] 谢廷浩 , 项羽琦 , 平和 , 李一鸣 , 嘉晨·T·王 , Pratek Mittal公司 :
BaDExpert:提取后门功能以准确检测后门输入。 CoRR公司 abs/2308.12439 ( 2023 ) [i7] 项羽琦 , 一曾 , 谢庭豪 , 陈品玉(Pin-Yu Chen) , 若西嘉 , Pratek Mittal公司 , 彼得·亨德森 :
微调对齐语言模型损害了安全性,即使用户无意这样做! CoRR公司 abs/2310.03693 ( 2023 ) 2022 【c2】 项羽琦 , 谢廷浩 , 潘瑞哲 , 朱继峰 , 杨勇 , 凯布 :
面向实际部署——基于深度神经网络的阶段后门攻击。 CVPR公司 2022 : 13337-13347 [i6] 项羽琦 , 谢廷浩 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
规避基于潜在可分性的后门防御。 CoRR公司 abs/2205.13613 ( 2022 ) [i5] 项羽琦 , 谢廷浩 , 赛义德·马卢基法尔 , Pratek Mittal公司 :
用毒药对抗毒药:通过解耦良性相关检测后门毒药样本。 CoRR公司 abs/2205.13616 ( 2022 ) 2021 【c1】 内齐赫·梅尔夫·古雷尔 , 项羽琦 , 卢卡·里曼尼 , 策张 , 李波(Bo Li) :
针对各种对抗性攻击的知识增强机器学习管道。 ICML公司 2021 : 3976-3987 [i4] 内齐赫·梅尔夫·古雷尔 , 项羽琦 , 卢卡·里曼尼 , 策张 , 李波(Bo Li) :
针对各种对抗性攻击的知识增强机器学习管道。 CoRR公司 abs/2106.06235 ( 2021 ) [i3] 项羽琦 , 朱继峰 , 谢楚林 , 杨勇 :
子网替换:在灰盒设置中针对深层神经网络的部署级后门攻击。 CoRR公司 abs/2107.07240 ( 2021 ) [i2] 项羽琦 , 谢廷浩 , 潘瑞哲 , 朱继峰 , 杨勇 , 凯布 :
面向实际部署——基于深度神经网络的阶段后门攻击。 CoRR公司 abs/2111.12965 ( 2021 ) 2020 [i1] 李临沂 , 项羽琦 , 陶雪 , 李波(Bo Li) :
SoK:深度神经网络的认证鲁棒性。 CoRR公司 abs/2009.04131 ( 2020 )
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)