本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models基本信息原文作者:Mi Zh...
大模型安全性与有用性难两全?复旦团队说:鱼和熊掌可兼得!
首个集内生安全性和有用性于一身的中文大模型安全对齐策略!过往研究通常认为:大模型安全对齐会导致模型遗忘已经学会的知识,从而导致模型在有用性上下降。OpenAI将这一损失称为对齐税(Alignment ...
成果分享 | 基于靶向变异的大语言模型安全通用基准测试集JADE-DB
JADE-DB:基于靶向变异的大语言模型安全通用基准测试集张谧,潘旭东,杨珉《计算机研究与发展》DOI: 10.7544/issn1000-1239.202330959摘要本文提出大语言模型安全通用基...
JADE DB v2.0来袭—复旦白泽智能发布大模型安全通用测试集
大模型安全评测:从黑客式的独狼攻击到智能型的靶向对抗,复旦白泽智能团队来了!近日,复旦白泽智能发布大模型靶向式安全评测平台JADE之后,收到包括华为、百度、阿里、荣耀、vivo、理想、中信等众多知名企...