jade | CN-SEC 中文网

安全新闻

JADE安全规约RAG开源，识别大模型恶意输入的法西斯本质

恶意查询的伪装变化多端，如何保障大模型不被欺骗，识别其「法西斯」本质？复旦白泽智能团队全新发布了JADE 4.0 - JADE安全规约RAG，通过提炼人类社会的通用安全规约构建RAG，帮助大模型如同人...

11月26日110 views评论

人工智能安全

本次分享论文：JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models基本信息原文作者：Mi Zh...

07月03日21 views评论

安全闲碎

首个集内生安全性和有用性于一身的中文大模型安全对齐策略！过往研究通常认为：大模型安全对齐会导致模型遗忘已经学会的知识，从而导致模型在有用性上下降。OpenAI将这一损失称为对齐税（Alignment ...

06月30日11 views评论

人工智能安全

JADE-DB：基于靶向变异的大语言模型安全通用基准测试集张谧，潘旭东，杨珉《计算机研究与发展》DOI: 10.7544/issn1000-1239.202330959摘要本文提出大语言模型安全通用基...

05月08日50 views评论

安全闲碎

大模型安全评测：从黑客式的独狼攻击到智能型的靶向对抗，复旦白泽智能团队来了！近日，复旦白泽智能发布大模型靶向式安全评测平台JADE之后，收到包括华为、百度、阿里、荣耀、vivo、理想、中信等众多知名企...

11月20日59 views评论