人工智能安全 USENIX Sec 2025:大模型越狱防御框架——JBShield 随着大语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱... 04月23日5 views评论sec 语言模型 阅读全文