史上最厉害的黑客攻击：无所不能的AI破解大揭秘

一、AI黑客大显神通：一招制敌全能攻击

你以为你的数据安全无忧吗？大错特错！近日，来自卡内基梅隆大学和AI安全中心的研究团队揭示了一个让人瞠目结舌的发现：大型语言模型(LLM)，尤其是基于变压器架构的模型，竟然存在一种被称为“通用对抗攻击”的漏洞。这种攻击利用一串对人类来说看似无意义的代码，却能诱使LLM取消其安全保护措施。研究团队公开了一段攻击代码字符串，只需将其附加到查询的末尾，即可实施攻击。这到底是怎么回事？请看下文。

二、黑客攻击无所不能：AI破解全方位揭秘

这种攻击手法实在是太厉害了！研究人员表示：“目前还不清楚LLM提供商是否能够完全修复这种行为，因为深度学习模型的本质可能使得这种威胁不可避免。”他们的论文和代码已在这里提供。需要注意的是，研究人员在发表之前已将攻击代码字符串提供给了LLM提供商，所以大多数提供商（比如GPT、Bard等）已经修复了这个漏洞。但是，论文中指出，通过这种方法，仍然可以制造出无限数量的新攻击代码字符串。这一发现意味着什么呢？这种攻击方式是自动化的，计算机代码可以持续生成新的攻击代码字符串，无需人类创造力。研究人员生成了500个攻击代码字符串，并且所有这些字符串都具有相当高的攻击效果。这种攻击方式不需要人类的智慧，类似于对计算机视觉系统的攻击一直没有得到缓解，这种方法利用了LLM本身架构的一个根本性弱点。研究人员指出，这种攻击手法对所有基于变压器架构的LLM的所有提示都有效。

三、AI黑客攻击真相大揭秘：看似无意义的代码竟然如此厉害

这种攻击到底起到了什么作用呢？其实，它从根本上利用了LLM的基于令牌的特性。通过采用贪婪和梯度搜索技术的组合，攻击代码字符串对人类来说看起来像是一堆胡言乱语，但实际上却能欺骗LLM，使其看到相对安全的输入。为什么要公开这种攻击手法呢？研究人员有一些想法：“我们在这里提出的技术很容易实现，在以前的文献中也有类似的形式。”因此，这些攻击“最终将被任何致力于利用语言模型生成有害内容的团队所发现。

文章版权归作者所有，未经允许请勿转载。

THE END