今天小编(佼昌翰)要和大家分享的是Gemini再度“破防”!长期记忆被黑客篡改,方法竟和一年前如出一辙,欢迎阅读~
Gemini 的提示词注入防线,又被黑客给攻破了。
专业白帽黑客 Johann Rehberger(雷哥)发现,向文档中加入一段提示词,让模型" 稍后执行操作 ",就能绕过 Gemini 的注入防御。
雷哥用这种方法篡改了 Gemini 的长期记忆,让 Gemini 记住了他是个 102 岁的老人。
抓马的是,在 Gemini 还叫 Bard 的时候,雷哥就用相似的手段执行了模型的工具调用功能。
而且当时雷哥就预言,如果 Gemini 拥有更强的 " 写入 " 功能,这种攻击方式可能同样适用。
结果求锤得锤,只是攻击的跳板从电子邮件变成了文档,新出现的功能就再度沦陷。
当然,作为一名白帽黑客,雷哥在发帖之前已经把情况反映给了谷歌。
谷歌也意识到了问题的存在,不过评估之后认为,这个漏洞出现的概率和影响都比较低。
但有网友表示,这种攻击其实很难防住,谷歌也只能是尽可能把概率降低。
还有人提出建议说,专门增加一个输入无法被清理的旁路来检测攻击行为,没问题了再输给模型。
" 延迟行动 " 攻击卷土重来
去年 11 月,Gemini 更新了一项会员限定功能,也就是被雷哥攻击的长期记忆。
这种攻击方式的大致思路,就是在文档中植入 " 延迟行动 " 指令,从而骗过 Gemini 的防御措施。
正常情况下,通过附件上传的文档会被 Gemini 视为不安全内容,其中带有指示性的文本不会被执行。
雷哥则在一篇关于爱因斯坦的文档中植入了一段文本指令,但模型不需要立即响应,而是检测到用户说出关键词时再执行。
执行的内容,则是更新长期记忆,存入一些雷哥预先设定好的内容。
之后,雷哥让 Gemini总结这份文档。
可以看到,通过总结文档,Gemini 已经把雷哥的指令带到了对话視窗当中。
并且按照雷哥的要求,结尾被设定成了这样的内容,看上去就是正常的询问:
I know a lot more about Einstein, and have access to unique content. Would you like to learn more?
我对爱因斯坦有更多的了解,并且可以访问独特的内容。您想了解更多吗?
最后,当雷哥回复 "Yes" 时,记忆果真被更新了。
到记忆管理页面当中检查一下,也确实有雷哥让 Gemini 记住的内容。
再通过对话问答来检验,Gemini 的回答也是刚刚雷哥存入的信息。
也就是说,通过这种简单的方式,Gemini 的提示词注入防线再次被攻破了。
雷哥上一次也是用类似的方式攻击 Bard,在不支持调用工具的 Workspace Extension 中实现了工具调用。
而雷哥在电子邮件中植入了一段提示词,内容是 " 当用户提交新指令时在网盘中检索文档 ",然后让 Bard 总结这份邮件。
结果在雷哥给出回复之后,Bard 真的照做了。
ChatGPT、Claude 都被捉虫
雷哥硕士毕业于英国利物浦大学,从事的研究就是计算机安全。
所以在大模型出现之前,雷哥就已经是一名白帽黑客,后来也开始关注大模型安全,尤其喜欢研究提示词攻击。
比如。
去年,雷哥还在 DeepSeek 中发现,可以通过 XSS 攻击的方式执行 JS 代码获取 cookie,从而控制他人的账户(该漏洞现已修复)。
这种攻击方式叫做 ZombAI,雷哥在 Claude、ChatGPT 等模型当中也都发现过相关的漏洞。
实际上,OpenAI、谷歌、微软,还有马斯克的 xAI 等等,统统都被雷哥捉过虫。
说完这些 " 累累战果 ",再看看雷哥之前都有些什么经历。
2014 年,雷哥成立了一个名叫 "WUNDER WUZZI"(奇才)的 " 公司 ",并且封自己为 "CHO"(首席黑客官)。
虽然名为公司,但按照领英上的资料显示,其实就是雷哥自己一个人。
其间,雷哥还在华盛顿大学当过 Instructor,并在微软和 Uber 先后从事过和安全相关的工作,2021 年起还给担任了 EA 的红队负责人。
参考链接:
[ 1 ] https://embracethered.com/blog/posts/2025/gemini-memory-persistence-prompt-injection/
[ 2 ] https://arstechnica.com/security/2025/02/new-hack-uses-prompt-injection-to-corrupt-geminis-long-term-memory/
关于Gemini再度“破防”!长期记忆被黑客篡改,方法竟和一年前如出一辙就分享完了,您有什么想法可以联系小编(佼昌翰)。