谷歌实践：大模型中如何避免性别偏见？

2024年5月15日23:45:55评论157 views字数 1609阅读5分21秒阅读模式

文末附有用于避免性别偏见的数据集：“翻译的维基百科传记”数据集

谷歌实践：大模型中如何避免性别偏见？

如果我们对法语、西班牙语有了解的话，这些语言有语法性别。尤其是，西班牙语是一种“省略主语”的语言。

谷歌翻译团队的研究人员最近根据AI原则＃2“避免不公平偏见”，开发了一个新的数据集，用于研究和预防机器学习中的性别偏见。这项研究探讨了英语与西班牙语、英语与德语之间的性别翻译。

该研究利用不同语言使用性别标记的方式，来研究翻译模型中潜在的性别偏见。西班牙语是一种“省略主语”的语言，这意味着主语代词是可选的。西班牙语和德语都有语法性别，因此它们会在修饰人和物体的形容词上标记性别。西班牙语有一个代表“他的”，“她的”和“他们的”的单一所有格代词，但是英语和德语则有各自不同的代词。跨语言的这些语法性别差异可能会对机器翻译系统构成挑战。当从一个不需要主语代词（如西班牙语）翻译到需要特定性别主语代词（如英语）的语言时，这个挑战尤为困难。

传统的神经机器翻译（NMT）方法通常是逐句翻译，但性别信息经常并不在每个句子中明确表达。为了应对这一挑战，研究人员构建了一种新的“上下文感知”模型，该模型整合了周围句子或待翻译段落的上下文信息，以提高在翻译个人代词时的性别准确性。

在具有和不具有语法性别的语言之间进行翻译时，负责的人工智能挑战在于训练机器学习（ML）系统选择适当的代词或在整个内容中保持性别一致。性别翻译错误可能会是特别有害的错误，因为性别标记通常传达一个人的性别认同。Translate团队的新数据集旨在测试这种上下文感知模型的性能，利用英语、西班牙语和德语之间的性别差异，来“挑战”模型正确翻译跨多个句子的人物性别。

方法

研究人员申请了AI原则审查其数据集，并积极要求进行公平性测试。审查人员和测试人员评估了团队使用维基百科传记作为数据来源的理由。研究人员选择维基百科传记，因为这些条目写得很好，地域多样，包含多个句子，并且以第三人称提到主题，使用了许多代词。审查人员和测试人员还审查了研究人员优先考虑在数据集中平衡地呈现女性和男性身份的策略，同时承认维基百科上非二元人士的传记并不多。研究人员使用关于群体的文章（在英语中使用性别中性的“it”或“they”来指代）来训练机器学习模型，以避免错误生成性别化的代词。此外，审查人员和测试人员还审查了研究人员决定通过获取来自世界90个不同国家的人物的维基百科传记来调查非西方姓名的性别翻译准确性的决定。

结果

结果是“翻译的维基百科传记”数据集，可用于评估翻译模型中的性别偏见。这个数据集可以实现一种新颖的评估方法，有助于减少机器翻译中的性别偏见。由于每个实例都涉及具有已知性别的人，研究人员可以使用该数据集计算涉及该人的性别特定翻译的模型准确性。这个数据集为新的上下文感知模型提供了有用的性能测量；使用这个数据集，研究人员发现上下文感知模型比以前逐句翻译的模型少出现了67%的性别翻译错误。您可以在关于这项研究的博客文章中找到上下文感知模型展示的改进类型的示例。

谷歌实践：大模型中如何避免性别偏见？

改进前模型的翻译结果

谷歌实践：大模型中如何避免性别偏见？

改进后模型的翻译结果

根据AI原则第四条“对人们负责”的原则，AI原则审查人员建议研究人员发布数据卡，这是一个结构化文档，提供了有关数据集创建和测试方式的详细信息。关于AI原则第六条“坚持科学卓越的高标准”，研究人员决定公开分享数据集，以支持长期改进专注于代词和性别翻译的ML系统。研究人员明确表示，数据集专注于与性别偏见相关的特定问题，并不旨在涵盖所有NMT的挑战，也不旨在确定解决性别偏见的最佳方法。该数据集及其背后的研究旨在促进全球研究社区在这一挑战上的进展。

——————————

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

原文始发于微信公众号（数据合规与隐私设计）：谷歌实践：大模型中如何避免性别偏见？

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

ChatGPT官方网络安全类GPTs推荐清单，及提示词破解

让主流大模型集体破防的回音室攻击

人工智能（AI）在城镇作战中的应用及对我启示

AI产业的版权危机：Meta大模型完整记忆了《哈利·波特》

【论文速读】|LLM vs. SAST：GPT4 代码缺陷检测技术分析——高级数据分析

本文由 admin 发表于 2024年5月15日23:45:55
转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出)：
谷歌实践：大模型中如何避免性别偏见？https://cn-sec.com/archives/2745140.html
免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉.

目录

在线咨询

13688888888

8888 QQ在线咨询

微信
本页二维码