AI遭受新型网络攻击:图像和音频中隐藏恶意指令
一、生成式AI遭受新型攻击,难以辨别恶意指令
美国康奈尔理工学院的研究人员最近发现了一种新型的网络攻击方法,该方法针对生成式人工智能(AI)。攻击者通过在图像或音频中嵌入恶意指令,然后诱使用户无意识地将这些图像或音频输入到聊天机器人AI中。这种攻击方式的特点是很难从外观或声音上判断它们是否是恶意的。
二、定向输出攻击:AI被引导输出虚假信息
第一种攻击方式被称为“定向输出攻击”。当用户请求AI回答关于图像和图像描述的问题时,攻击者可以控制AI以特定字符串进行回答,例如在回答中添加一个网络钓鱼站点的URL。举个例子,当用户向聊天机器人输入一张汽车图片并询问“你能解释一下这张图片吗?”时,聊天机器人可能会回答:“这张图片是特斯拉。有关此图片的详细信息,请访问:<钓鱼网站的URL>”。
三、对话中毒:AI被操控回答与用户问题无关的信息
第二种攻击方式被称为“对话中毒”。攻击者利用大型语言模型(LLM)的聊天机器人能力,在对话中插入特定的指令或提示,以影响AI的回答。比如,攻击者可能会在对话中插入一个指令,让聊天机器人在回答中包含“牛”这个词。然后,无论用户提出什么问题,聊天机器人都会尽可能地在回答中包含“牛”这个词。这就好像有人在你和机器人的对话中偷偷加入了一些他自己的话题,让机器人按照他的话题来回答你的问题。
总结
生成式人工智能面临新的网络攻击方式,攻击者通过在图像或音频中嵌入恶意指令来诱骗AI输出虚假信息或引导用户访问钓鱼网站。这种攻击方式的危险之处在于,很难辨别恶意指令,并且可以让AI输出与用户问题无关的信息。为了保护AI的安全性,研究人员需要进一步研究和开发防御措施。
感谢您的阅读!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容