《大模型训练数据白皮书》学习笔记

admin 2024年6月5日23:50:04评论64 views字数 1398阅读4分39秒阅读模式

2024年5月24日,阿里研究院发布了《大模型训练数据白皮书》

有基础知识的科普,也有一些有趣的观点,摘录分享一下。

这篇没有用AI,手工摘录的。

《大模型训练数据白皮书》学习笔记

01

模型训练阶段

《大模型训练数据白皮书》学习笔记

第一阶段预训练(Pre-training)海量输入,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“广”。

第二阶段督微(SFT)问答对,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。

第三阶段基于人类反馈的强化学习(RLHF),人工反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道" 怎么说更好"。

第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“”。

如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的语料特征是“”。

《大模型训练数据白皮书》学习笔记

02

常见误解

(一)大模型训练并不依赖用户个人信息
为保证生成内容与人类价值观对齐,业界往往利用强化学习,通过纳入人工标注等机制优化表达,使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖,而对专业化、高质量语料的知识性内容依赖大。
过量的个人数据会负面影响大模型的能力,而过于个性化的应用也将增加大模型的运算负担。
在大模型的推理阶段,如果用户恶意诱导,尽管有相应的模型安全机制,仍不能完全避免个人信息泄露的问题。但可以明确的是,大模型在训练阶段并不依赖个人信息。

(二)中文语料短缺不是制约我国大模型发展的重要因素

中文预料少问题不大,因为:

一是世界知识的积累有的属于客观事实,用英文或中文表达,其原理是一致的。或者说,在机器翻译质量有保障的前提下,可以弥补这部分中文语料的缺少。

二是在训练技术上引入新方法也可以弥补语料供给不足的问题。例如通过合理安排不同语言类型的训练顺序,也能让模型学习到供给相对较少语言的丰富特征。

但是问题最大的是:中式价值观类语料缺乏训练中加入更多代表中式价值观的语料,有助于大模型更好地理解和反映中文使用者的文化背景和价值取向,从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补,因为即使翻译质量有保障,仍会引入源语言的偏见,体现的仍是语言的价值观

《大模型训练数据白皮书》学习笔记

03

高质量数据不足及解决

高质量数据应具有真实性、准确性、客观性、多样性。

高质量的语料,可以大幅降低模型结果产生幻觉的概率,但并不能完全避免。

并不是语料规模越大越好,而是高信息密度的语料规模越大越好。

由于高质量训练数据不足,合成数据是解决新方案。(这句是我概括的)

《大模型训练数据白皮书》学习笔记

04

思考

在个人信息方面,模型训练阶段不依赖个人信息,对已公开个人信息的使用属于合理使用

用版权类数据对模型进行训练,不应被视为“复制式拷贝” 的版权侵权行为,而应属于转换性使用的范畴,并应构成“合理使用” 或“法定许可”。

此外,模型训练已经尽可能地采取了相关合规方案,来减少生成式人工智能造成知识产权侵权的风险,具体包括:
(1)从真实权利人处购买具有知识产权权利的数据库;
(2)使用有合法授权的开源数据集;
(3)避免跨越技术措施的爬取。

原文始发于微信公众号(数据何规):《大模型训练数据白皮书》学习笔记

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年6月5日23:50:04
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   《大模型训练数据白皮书》学习笔记https://cn-sec.com/archives/2819987.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息