小布虚拟人与多模态技术演进

admin

142269
文章

117
评论

2023年5月22日14:37:10评论51 views字数 3044阅读10分8秒阅读模式

导读今天的分享题目是《虚拟人、多模态和通用智能之间的联系》。

主要包括以下四大部分：

1. 小布虚拟人技术进展

2. 小布多模态技术进展

3. 通用智能之我见

4. 三者之间的联系

分享嘉宾｜郑志彤 OPPO 多模态学习负责人

编辑整理｜kiki 时尚星

出品社区｜DataFun

小布虚拟人技术进展

1. 虚拟人语音驱动

这个场景主要是支持小布在手机端侧的虚拟人驱动，我们自研了 Audio2Lip 和 Sing2Lip。

Audio2Lip 的端侧算法，支持了小布 7 个 AVATARs 形象，满足了业务的需求，在能耗、实时性、唇形精度、MOS 等相关指标上达到了行业前沿水平。Sing2Lip 也实现了端侧和云侧两种算法。端侧，在 Audio2Lip 的基础上，加入了一些音乐的节奏信息，这样驱动的点位就会更准确。云侧，实现了 Audio2Mesh 的版本，通过语音直接驱动整个人脸，包括人脸的微表情。

对于比较简单的卡通形象的端侧级别的驱动算法，我们采用的是一对一的算法。在云侧如果驱动类真人形象，其面部表情会更丰富，就不能用一对一的算法，而是用多对多，有上下文的这种算法来实现，这样才能够驱动一些微表情。

2. 虚拟人 RGB 驱动

虚拟人 RGB 驱动，是用一个摄像头来拍一个本人，再来驱动 AVATAR。

最初的想法比较简单，先检测到人，然后做人脸重建，人手重建，人体重建。但是跑起来之后发现了两个问题：人体飘移和穿模。后面通过一些物理模型，一些端到端的算法，以及一些人体 Motion 的 retargeting 来解决这两个问题，最后达到了一个不错的效果。

3. 虚拟人创建

在虚拟人创建方面，我们走通了 4D 扫描创建类真人的流程，同时做了一些算法的加速，使得时间可以接受。最后还需要美工加一些细节的修饰，才能达到一个可用的程度。

4. NERF

我们还探索了一些 NERF，去创造了一些环境的素材，调研了 NERF 的一些最新的实时算法。之前 NERF 的主要问题是实时性差，而且效果上面有很多瑕疵。

小布多模态技术进展

1. CETNETs

我们发表了一篇 ECCV 的论文，在 CV 的 VIT 主干网络上面做了一些创新。目前可以达到 SOTA 的水平。

创新主要有两点：一个是宏观上的创新 Convolutional Embedding，另一个是 Transformer blocks 里面的微创新。这两个创新也可以用在其它的 VIT 架构上。

2. 跨模态匹配

我们把这个创新用到了多模态训练上面。目前我们的多模态训练采用了双塔的架构，主要是用在跨模态检索的场景。一些算法能够在同样参数量的情况下超过 Wukong。除了前面讲的两点创新，在数据增强和 label smoothing 上也做了微创新。

3. AIGC

在 AIGC 方面，基于 GANs、VAEs 和 Diffusion Models 构建了一个适用于多种场景的 AIGC 算法库。在具体落地上，我们用 AIGC 算法生成了一个 2D 的数字员工的照片。最近又用 Diffusion Models 做了一些孵化的项目。在局部还做了一些微创新，比如生成一个人体，脸部经常会有一个恐怖谷的效应。我们采用了局部再生成的技术，大幅提升了脸部的生成效果。

通用智能之我见

接下来分享一些个人在通用智能方面的看法。

首先，AI 发展到当前，进入了一个瓶颈期。AI 工程与原来的软件工程是不一样的。比如，在 AI 工程中可能做了很多补丁，还做了大量的实时监控来监测模型是否飘移，大量的数据标定，最后发现数据标定占 60% 以上的成本。上线之后依然需要收集更多的信息不断地去更新。

AI 工程化主要是在真实场景中实现以人为中心的可重复扩展的健壮且安全的人工智能应用的开发工具、系统和过程，它是系统工程、软件工程和计算机科学的交叉学科。在健壮方面，大家都看好大规模预训练，然后再到小场景去做 finetuning。在可重复扩展上面，大家比较看好模型自动化模型压缩技术，比如基于 NaaS 实现一体化的模型压缩。在以人为中心的角度，大家提出了 AI 伦理的设计，有些信息的采集必须经过用户的同意，并且要保证用户信息的安全。

现在，模型出的越来越大，这些特别大的模型就形成了托勒密体系。

托勒密体系认为，地球位于宇宙中心附近的一点上，月亮、太阳和恒星都在以宇宙中心为圆心的圆轨道上运行，五大行星在绕以某一几何点为圆心的本轮上做匀速圆周运动。开始有 34 个本均轮，后来为了提高天文的观察精度，提高到了 80 多个，甚至更多。它能够把观察到的数据拟合得很好。但它和实际的物理规律没有太多关系。类似于现在的超大模型，尽管拟合数据方面特别好，但是在物理规律揭秘的程度上面偏离了很多，在实际部署上也存在很大问题。

要突破瓶颈，AI 需要遵循物理理解+逻辑理解。

比如当一个数据表征满足一个因果图时，因果关系、不变性和 OOD 泛化是等价的。OOD 就是同样一个物理体系产生出来的数据，有可能是跟原来积累的数据分布式是不一样的，但它是同样一个物理体系产生的。理论上要求以前的模型在同样物理体系产生的 OOD 上也应该是 work 的。但现在的超大规模的预训练模型可能无法解决这个问题。必须要在数据表征上面，网络框架上面，还有一些训练技巧上面，更加贴近物理的理解和逻辑的理解，这样才能用更少的样本、更少的参数来实现数据的拟合。从而使 OOD 泛化性能更好。

三者之间的联系

最后谈一下虚拟人、多模态和通用智能三者之间的联系。

小布以前是语音助手，后来发展出虚拟人，具备多模态感知和多模态对话能力。又发展到机器人，后面机器人使用某些工具。

虚拟人是多模态认知的一个方面，相当于小布给大家展示一个门面出来，多模态感知就是给小布助手输入各种各样的信息，输出各种各样的图片出来。

多模态是实现通用人工智能的关键之一，分为多模态对齐、多模态融合、多模态生成。

最后，将三者之间的联系总结如下：

（1）虚拟人是人体外形模态信息的抽取和再创造，它是一种 3D 模态信息，虚拟人语音控制和 RGB 控制本身就是多模态对齐，是通用智能的门户之一。

（2）多模态是实现通用智能的关键技术之一，多模态对齐和多模态融合是通用智能感知鲁棒的必由之路，和人的感知一样，眼见和耳听都能对上，信息才有可能是真的。多模态生成天然成了通用智能数据增强的一种手段。

（3）通用智能必然要达到物理理解和逻辑理解，虚拟人和多模态是物理理解的关键环节。

今天的分享就到这里，谢谢大家。

分享嘉宾

郑志彤

OPPO

多模态学习负责人

OPPO 高级算法架构师，现任数智系统机器学习 TMG 主任、小布智能中心多模态学习负责人，促进小布从语音助手进化成多模态助手。2020 年 8 月加入 OPPO，参加商业算法软件商店首页攻坚，贡献了千 6AUC 提升和 2 点多 ARPU 值提升；随后调入数智系统机器学习部，负责了端云协同的 StarFire 项目；之后又调入小布智能中心，负责多模态学习，短时间搭建了虚拟人算法团队和 StarLite 项目团队，启动了多模态预训练项目。在机器学习领域有十几年经验，对 CV、NLP、音频、推荐系统等算法有深刻认知，对 AI 工程化有实操经验，十分关注通用智能的发展，多模态预训练是通用智能的关键一环。硕士毕业于清华大学，本科毕业于人民大学。

END

About AndesBrain

安第斯智能云

OPPO 安第斯智能云（AndesBrain）是服务个人、家庭与开发者的泛终端智能云，致力于“让终端更智能”。作为 OPPO 三大核心技术之一，安第斯智能云提供端云协同的数据存储与智能计算服务，是万物互融的“数智大脑”。

原文始发于微信公众号（安第斯智能云）：小布虚拟人与多模态技术演进

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

小布虚拟人与多模态技术演进

Netgear-JGS516PE-GS116Ev2-交换机中多个高危漏洞

CrushFTP 警告用户立即修补未经身份验证的访问漏洞

电商平台WooCommerce疑被入侵，超440万用户数据遭泄露

新型选择劫持攻击：恶意充电器可入侵安卓与iOS设备

【已复现】Vite 任意文件读取漏洞(CVE-2025-32395)安全风险通告

【已复现】Vite 任意文件读取漏洞（CVE-2025-32395）

微软发布紧急更新修复 Office 2016 崩溃问题

Linux USB 音频驱动漏洞正被恶意 USB 设备在野利用

Foxmail远程代码执行漏洞风险通告

WordPress插件身份验证漏洞披露数小时后即遭利用

发表评论

在线咨询

微信