多模态大语言模型｜SPP第139期

2025年7月7日23:38:11评论3 views字数 941阅读3分8秒阅读模式

多模态大语言模型是一类能够同时处理文本、图像、音频等多种模态信息，并进行统一理解与生成的人工智能模型。本期SPP将简要回顾过去一年该领域的技术进展与代表性成果，涵盖模型架构演进、跨模态能力提升、开源生态动向等，并结合当前发展趋势，探讨未来面临的挑战与潜在机遇。欢迎关注本期SPP：7月9日（本周三）19:30—21:00。

本期直播你将收获哪些

1、了解多模态大语言模型的概况；

2、了解多模态大语言模型当下的挑战和机遇；

3、了解大模型方向的科研方式。

演讲嘉宾

傅朝友

CCF专业会员，南京大学智能科学与技术学院研究员

傅朝友，南京大学智能科学与技术学院研究员、助理教授、博导，入选中国科协“青年人才托举工程”。研究方向为多模态大模型、大语言模型、生物特征识别，谷歌学术累计引用4千余次，一作单篇引用破千次，作为Owner的GitHub开源项目累计获得2万余次Stars，代表性工作包括VITA多模态大模型系列（一作VITA-1.0/-1.5，通讯Long-VITA、VITA-Audio），MME多模态评测基准系列（一作MME、Video-MME，通讯MME-RealWorld）和Awesome-MLLM社区等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、2022年“阿里星”计划、2022年腾讯“技术大咖”计划、小米青年学者-科技创新奖、南京大学紫金学者、CVPR杰出审稿人等。

开课时间

2025年7月9日（本周三）19:30-21:00

如何报名

SPP为免费直播。点击“阅读原文”立即报名，报名可在活动当天15:00前邮件获取到腾讯直播间链接，可与老师线上即时交流，也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧！