该研究介绍了一种名为 CC-BOS 的新型黑盒越狱攻击框架,专门利用文言文的语言特性来绕过大语言模型的安全防护。由于文言文具有语义精炼、隐喻丰富及表意模糊等特点,现有的安全对策往往难以识别其隐藏的有害意图。作者构建了一个涵盖角色身份、隐喻映射及触发模式等八个维度的策略空间,并采用受果蝇觅食行为启发的生物启发算法,实现了对抗性提示词的自动化生成与迭代优化。实验结果表明,该方法在多个顶级大模型上达到了近乎 100% 的攻击成功率,且查询效率显著优于现有手段。此外,研究还设计了一个双阶段翻译模块,通过将文言文响应转化为英文,确保了安全评估的准确性。这项工作不仅揭示了多语言环境下模型安全对齐的潜在盲点,也为提升大语言模型的鲁棒性与安全性提供了重要参考。