恶意查询的伪装变化多端,如何保障大模型不被欺骗,识别其「法西斯」本质?复旦白泽智能团队全新发布了JADE 4.0 - JADE安全规约RAG,通过提炼人类社会的通用安全规约构建RAG,帮助大模型如同人...
【论文速读】| JADE:用于大语言模型的基于语言学的安全评估平台
本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models基本信息原文作者:Mi Zh...
大模型安全性与有用性难两全?复旦团队说:鱼和熊掌可兼得!
首个集内生安全性和有用性于一身的中文大模型安全对齐策略!过往研究通常认为:大模型安全对齐会导致模型遗忘已经学会的知识,从而导致模型在有用性上下降。OpenAI将这一损失称为对齐税(Alignment ...
成果分享 | 基于靶向变异的大语言模型安全通用基准测试集JADE-DB
JADE-DB:基于靶向变异的大语言模型安全通用基准测试集张谧,潘旭东,杨珉《计算机研究与发展》DOI: 10.7544/issn1000-1239.202330959摘要本文提出大语言模型安全通用基...
JADE DB v2.0来袭—复旦白泽智能发布大模型安全通用测试集
大模型安全评测:从黑客式的独狼攻击到智能型的靶向对抗,复旦白泽智能团队来了!近日,复旦白泽智能发布大模型靶向式安全评测平台JADE之后,收到包括华为、百度、阿里、荣耀、vivo、理想、中信等众多知名企...