2024年5月24日,阿里研究院发布了《大模型训练数据白皮书》。
有基础知识的科普,也有一些有趣的观点,摘录分享一下。
这篇没有用AI,手工摘录的。
01
模型训练阶段
第一阶段预训练(Pre-training),海量输入,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“广”。
第二阶段监督微调(SFT),问答对,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。
第三阶段基于人类反馈的强化学习(RLHF),人工反馈,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道" 怎么说更好"。
第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“齐”。
如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的语料特征是“专”。
02
常见误解
(二)中文语料短缺不是制约我国大模型发展的重要因素
中文预料少问题不大,因为:
一是世界知识的积累有的属于客观事实,用英文或中文表达,其原理是一致的。或者说,在机器翻译质量有保障的前提下,可以弥补这部分中文语料的缺少。
二是在训练技术上引入新方法也可以弥补语料供给不足的问题。例如通过合理安排不同语言类型的训练顺序,也能让模型学习到供给相对较少语言的丰富特征。
但是问题最大的是:中式价值观类语料缺乏。训练中加入更多代表中式价值观的语料,有助于大模型更好地理解和反映中文使用者的文化背景和价值取向,从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补,因为即使翻译质量有保障,仍会引入源语言的偏见,体现的仍是源语言的价值观。
03
高质量数据不足及解决
高质量数据应具有真实性、准确性、客观性、多样性。
高质量的语料,可以大幅降低模型结果产生幻觉的概率,但并不能完全避免。
并不是语料规模越大越好,而是高信息密度的语料规模越大越好。
由于高质量训练数据不足,合成数据是解决新方案。(这句是我概括的)
04
思考
在个人信息方面,模型训练阶段不依赖个人信息,对已公开个人信息的使用属于合理使用。
用版权类数据对模型进行训练,不应被视为“复制式拷贝” 的版权侵权行为,而应属于转换性使用的范畴,并应构成“合理使用” 或“法定许可”。
原文始发于微信公众号(数据何规):《大模型训练数据白皮书》学习笔记
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论