扫码订阅《中国信息安全》
邮发代号 2-786
征订热线:010-82341063
文 | 中国太平洋保险集团数智研究院大数据专家 史春奇;中国太平洋保险集团数智研究院创新孵化专家 吴顺洁;中国太平洋保险集团数智研究院院长 王磊
自2022年底以来,ChatGPT的问世引发了全球大语言模型的爆发式增长,不到两个月的时间内用户数就突破了1亿。英伟达CEO黄仁勋在一次高校演讲中表示,人工智能产业的“IPhone时刻”已经到来。2023年上半年,类ChatGPT大模型技术呈现出百花齐放的局面,产品上也出现百模大战。然而,当通用大模型应用于垂直领域时,由于缺乏领域内的专业知识,其表现往往不尽如人意。彭博推出的大模型BloombergGPT,使得金融业成为大模型率先落地的垂直领域之一。
对于资管领域来说,哪些方向值得优先探索类ChatGPT大模型的应用?可以投入何种细分的大模型相关技术?达到何种预期效果?围绕上述问题,本文基于现阶段大模型的不同发展阶段,分析了资管领域的潜在应用点,以及大模型所带来的效果提升。
大模型发展的六个阶段
为了更清晰的理解上述发展历史,同时借鉴类比人类发展的历史,可以将其大体划分成六个阶段。就人类自身进化而言,从类人猿开始,经过南方古猿、能人、直立人、尼安德特人,最终进化到智人的六个阶段。从第三个阶段,即直立人开始进入旧石器时代,脑容量突飞猛进,也经历了类似于“涌现”的阶段,人类脑容量在能人阶段之后快速突破(图1)。
图1 人类发展史与大模型发展史的类比
下表展示了六个发展阶段在参数大小、训练成本、典型技术等特点上的不同(表2)。
表2 大语言模型发展的六个阶段
大模型的定义及其特点
图2 基础大模型与对话式大模型关联关系
1.基础大模型主要特征。一是海量参数预训练:通常在十亿级以上,甚至达到万亿级。二是语言理解和生成能力:理解和生成人类语言,但任务视角生成的内容精度欠佳。三是零样本学习和跨任务迁移:通过预训练获得的语言能力,而不需要额外的任务专有数据训练,并且理解能力可迁移至多种语言和多种任务。
2.对话式大语言模型主要特征。一是数据集和训练方法差别:类ChatGPT模型训练需要使用对话记录、客服对话或特定领域的问答式文本数据,以更好地适应对话任务。并会使用标注数据进行监督学习,尤其是使用基于人类反馈的强化学习(RLHF)方法和参数高效微调(PEFT)方法。二是对话生成和交互差异:更加注重对话相关功能,如对上下文的敏感性、上下文追踪、生成回复的连贯性等。
ChatGPT的出现使得机器与人类智能的比较越来越有争议,使得接近人类大脑规模的通用人工智能(AGI,Artificial General Intelligence)的研究迈出一大步。人类大脑的神经元总数达近千亿(约1011),而且神经元类型达数百种,神经元间的突触联接达到百万亿(约1014),目前大模型发展已接近这个规模。随之爆发的关于“智能涌现(Intelligent Emergence)”与“幻觉(Hallucination)”的研究与讨论备受关注。
“智能涌现”是指由较简单的交互单元通过复杂的互动,在集体层面上出现智能行为或特征的现象。实现智能涌现需要庞大规模的参数,这与强大算力支持密不可分。黄氏定律描述了当前算力硬件发展的经验规律,指出GPU硬件发展将推动AI性能实现逐年翻倍增长,10年后增长约1000倍,这是智能涌现的算力保障。
“幻觉问题”是指大语言模型规模庞大之后生成内容出现失真的现象,可能生成表面上看似合理但实际上虚假的信息,并且无法评估信息的可信度或准确性。为应对幻觉问题,有建立审核链条、采用标签插入抑制提示词和闭环输出等方法。
垂直领域中大模型的解决方案与特点
实际应用场景中的方案选择
表3 不同解决方案的比较
选择何种方案进行落地需要综合考虑数据、成本、隐私等因素。从资源消耗角度来看,垂直领域基础大模型的投入成本最高,其次是垂直领域对话式大模型,CVP模式投入最少。同样地,就模型效果而言,垂直领域对话式大模型要优于CVP模型。从垂直领域数据角度出发,基础大模型依赖海量的垂直领域数据,而对话式大模型依赖标注数据,CVP模式仅需要小规模数据即可实现。从部署时效性来看,CVP模式可适应快速上线迭代,而基础大模型需要耗费较长时间训练。
资管领域的应用及案例
大模型在资管领域的应用展望
(来源:金融电子化)
《中国信息安全》杂志倾力推荐
“企业成长计划”
点击下图 了解详情
原文始发于微信公众号(中国信息安全):前沿 | 类 ChatGPT 大语言模型技术在资管领域应用展望
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论