大语言模型的“破解”研究:仅需二十次尝试 [译]
随着人们越来越关注如何让大语言模型(LLMs)与人类的价值观保持一致,人们发现这些模型很容易受到“破解”攻击的威胁,这种攻击会诱使语言模型绕开其安全保护措施。因此,识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标,我们提出了一种名为“提示自动迭代细化”(PAIR)的算法,这种算法能够仅通过黑盒方式与大语言模型通信,生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击,它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解,无需人工干预。通过这种方式,攻击者模型会反复向目标模型发起查询,不断更新和精细调整破解方案。根据我们的实验证明,PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型,效率比现有算法高出许多个数量级。此外,无论是在开源还是闭源的大语言模型上,PAIR 都展现出了极高的破解成功率和良好的迁移性能,其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。
October 31, 2023
View Article