基于多模态的视频高能点提取技术

admin

140350
文章

117
评论

2023年10月13日22:22:20评论19 views字数 4818阅读16分3秒阅读模式

本期作者

李亘杰

哔哩哔哩算法工程师

张雅君

哔哩哔哩高级算法工程师

成超

哔哩哔哩资深开发工程师

1. 业务背景

当用户在浏览B站时，首页所呈现的视频内容以卡片形式依序展示，这些视频卡片的封面大多数是与视频相关的静态图像。在制作视频时，up 主通常会选取视频中的某一帧并加上较为醒目的文案来制作封面；而电影和记录片则倾向于选择具有代表性的精彩帧画面作为封面展示。这种策略通过简洁、直观的封面设计，让用户在页面浏览的时候能迅速捕捉到视频的主题。

^{图1.静态视频封面}

与仅能展示单帧画面的静态封面相比，动态视频封面会具有更多的优点，包括：

更具吸引力和生动性：视频动态封面可以展示动态的画面、动作和效果，相比于静态图像更能够引起观众的兴趣。这种动感和活力可以让封面更生动，使用户倾向于点击卡片继续观看视频。
更真实地体现视频内容：动态视频封面能够以实际片段展示视频内容，为用户提供更贴近真实的预览，避免了一些“标题党”，封面图文与视频内容割裂的现象。
更好地传达故事情感：视频动态封面可以通过运动、表情、情节等更好地传达故事或内容的情感和氛围。这有助于在短暂的时间内让观众了解到视频的主题和情感，吸引用户进一步点击观看。

^{图2.流浪地球动态视频封面}

目前，B站对部分高人气的视频已经采用了动态封面的展示方式。然而，动态封面的生产过程主要依赖于人工或者一些需要依赖用户数据积累的相关技术。人力成本的投入以及用户数据的积累，都一定程度局限了动态封面的使用场景。

为了解决这一问题，我们设计了一套基于多模态的视频高能点自动提取技术。它可以自动地基于视频的多元信息，快速定位到视频的多个高能点，并通过一些筛选策略从中选取出最适合作为动态封面的一个高能片段。无论是对于平台up主的自制视频，还是动漫番剧和电视剧电影等不同题材的视频，该技术都可以快速且精准地提取出对应的高能片段，不需要过多的人工干预以及额外的用户数据积累。这无疑是对动态封面制作的一次突破，不仅提高了动态封面的实用性，降低了成本，而且将极大提升用户浏览体验和视频的吸引力。

2. 技术方案

多模态是一种将不同类型的数据或信息结合在一起，以提供更丰富、更全面的信息表达和分析的方法。在视频领域，多模态涉及将视频数据与其他类型的数据（如文本、音频、图像等）进行融合和关联，充分利用不同数据类型之间的互补性增强数据的价值和实用性，从而产生更丰富的应用。

这里我们基于不同模态间的协作实现了高效且通用的视频高能点提取技术。对于视频字幕提取部分，针对不同的场景分别采用了定制化的光学字符识别（Optical Character Recognition，OCR）技术和自动语音识别（Automatic Speech Recognition，ASR）技术；对于视频内容理解和分析部分，采用了自然语言处理中的大语言模型（Large Language Model，LLM）；对于视频画面分析部分，采用了动态分析，美学评判等评估算法。

^{图3. 视频高能点提取流程图}

图3中展示了视频高能点提取的具体流程：

首先，采用字幕获取模块对所涉视频进行解析，以获得其中所包含的字幕信息。对于已经附带外挂字幕的视频，可以直接利用这些外挂字幕进行分析。而对于那些缺乏字幕信息的视频，可以根据各个视频的具体特征，通过OCR或者ASR等技术将视频中的字幕快速地提取出来。
随后，经过特定的预处理操作，所提取的视频字幕将被输入到大语言模型中，模型会根据上下文语境快速输出预选的n个高能字幕，并根据这些字幕索引出对应的高能点（即对应时间戳信息），从而生成预选出的高能片段。
接着，借助先前筛选得出的n个视频片段，对这些片段进行美学特征分析和动态场景评估。同时，可以将数据库中所存储的高能弹幕相关信息纳入考量，以准确定位该视频最终的高能片段。
此外，所挑选出的最终视频片段，可借由类似的方法，衍生出相应的文本总结与描述。

3. 关键技术

3.1 字幕提取模块

字幕提取模块的主要作用是获取各类视频的字幕信息。对于视频内容理解这一大类的任务来说，基于视频画面的计算机视觉方案在处理效率方面可能远不如基于视频字幕的自然语言处理方案。所以，在我们所提出的方案中，获取精准的视频字幕是关键的第一步。

对于那些附带外挂字幕的视频，可以直接利用外挂字幕进行分析。对于没有外挂字幕的视频可以通过OCR或ASR技术来实现视频字幕的提取。基于OCR的字幕识别技术主要包括视频分帧、帧区域图像提取、文本检测、文本识别、后处理、时间戳对齐、格式转换七个步骤；基于ASR的字幕识别技术主要包括音频提取、音频预处理、语音识别、后处理、时间戳对齐、格式转换六个步骤。两种方法可以根据具体的应用场景灵活选择。例如：下一步中的大语言模型对中文的支持更好，视频是日语视频，这时候可以通过OCR的方案获取它的中文字幕，以获得更好的效果。

3.2 大语言模型微调

在生成式人工智能领域，大语言模型展现出不俗的实力，无论是撰写文章、编写代码、还是开放式问答，都展现出无限的潜力。我们也基于大语言模型强大的理解能力，通过将视频字幕处理成格式化的文本，输入给模型，让它结合上下文语境，挑选出最精彩的部分。通过提示工程（Prompt Engineering），大语言模型在视频高能点的选取上也有很高的准确度。

此外，结合具体应用场景，我们对模型也进行了一定的调整。在深度学习领域，微调（Fine-tuning）是使得预训练模型适用于特定任务和领域的常用策略。它的目的是在初始模型的基础上，通过在目标任务数据上进行相对较低成本的训练来调整模型参数，以便使它在特定任务上表现更好。然而，对于大型语言模型而言，微调并非理想的解决方案。其主要挑战包括：

1）大型语言模型在训练过程中需要海量数据的支持；

2）模型训练所需的计算资源是巨大的，百亿级或千亿级的参数难以全部加载到有限的 GPU 中；

3）对大型语言模型进行微调需要较长时间。

^{图4. 用户提示微调（P-tuning）示意图}

因此，在处理视频高能点提取任务时，如图4所示我们采用了用户提示微调（P-tuning）方法，以替代传统的Fine-tuning技术。P-tuning 的核心思想是，预设大语言模型已经掌握了充足的先验知识，只需要通过调整用户提示语的编码器，帮助大语言模型更好地理解用户指令，从而执行相关任务。在调整大语言模型时，我们冻结了语言模型的主体参数，对提示的编码器进行优化和参数调整，这样便可实现大语言模型与视频高能点任务的适配。

实验中，我们采用了数万条经过人工筛选和标记的精彩片段数据，构建了高能点提取的专用数据集。经过P-tuning后的大语言模型，与参数量相当的通用大语言模型相比，只需要更新大语言模型千分之一的参数，就能在视频高能点提取任务上表现出如下特点：

对视频精彩内容的把握更加准确，能够避开一些通用网络重点关注的广告片段。
能够实现预先设定的格式化输出，一定程度上抑制了大语言模型的幻想问题。

通过上述大语言模型的加持，我们可以基于视频字幕快速定位到视频中的精彩点，并选出若干个高能片段；然后基于多元的评估策略，选出最终片段。

3.3 场景动态分析

在评估视频的精彩程度时，场景的动态性能扮演着至关重要的角色，观众通常更容易被充满动感的画面所吸引。特别是对于二次元视频，动态的对战画面常常更能抓住观众的注意力。因此，这里我们通过采用场景切换的频率来评价视频段的画面动态性。

^{图5. 基于Scenecut算法的场景切换}

基于阈值的场景分割（Scenecut）方法是一种简单且常见的场景切换检测技术。它通过计算连续帧之间的像素差异，并基于合适的阈值来判断视频中是否发生了场景切换。然后根据单位时间内场景切换的次数来评判场景的动态性，筛选出动态性较强的视频片段。图5展示了一段视频中该算法识别出的场景转换。在效果展示中，示例1是着重根据画面的动态筛选出的《雾山五行》中的高能片段。

^{图6.视频场景动态分析}

然而，并非所有场景都适用画面动态分析。例如《孤独的美食家》这类三次元的纪录片，如图6所示，其整体场景切换密度相对较低。在这种情况下，通过画面动态性筛选可能并不能得到非常精彩的片段，得到的视频片段反而显得有些杂乱。因此，在视频处理时，我们配置了不同的筛选方案，来针对不同类别的视频进行调配。在整体动态性不高的视频场景中，可以将场景动态分析的策略从择优转化为去劣，以筛去动态性过低的片段。

3.4 画面美学评分

视频画面的美学评分是评估视频精彩程度的另一个维度。杂乱或灰暗的视频画面给人的整体视觉体验较差，不适合作为推荐给用户的部分。为了避免这些画面被筛选出来，对视频段进行整体的美学评估。

具体的操作是从视频段连续帧中等间距抽出用于美学评估的关键帧，并通过训练好的美学模型对这些关键帧进行0~10的评分，最后可以剔除掉包含极低分数的视频段，并通过算取平均分来选取综合美学效果较好的片段。图7是实验过程中一些关键帧的得分，可以看到模糊、灰暗、构图不佳的关键帧得分都不是很高。在视频高能点提取任务中，经过实验验证，设定评分低于4分的关键帧为低质的，应该舍弃这些低质帧。

^{图7. 基于美学算法的关键帧评分}

为了保证整个流程的鲁棒性，目前的美学评估仅充当去劣的角色。因为算法是基于图像美学来进行评分的，没有考虑到视频时域上的特征，所以择优能力还有所欠缺。面向视频段的美学算法正在迭代开发中。

3.5 高能弹幕

高能弹幕，即用户弹幕数据分析是对用户在平台上发送的弹幕进行数据分析，以了解用户的情感、互动行为等信息。这是一个目前已经上线的功能。对于一些比较热门的视频来说，它已经积累了一定量的用户数据。基于这些数据可以分析出视频中比较精彩热门的部分，从而帮助决策出最终的高能片段。

^{图8. 用户弹幕数据}

4. 效果展示

如下，示例1~3展示了根据所提出技术生成的视频高能片段。

^{示例1. 雾山五行（BV1VD4y1D788）高能片段}

^{示例2. 超凡动物奇观（BV1SM4y1h7Vp）高能片段}

^{示例3. 人生一串（BV1kL4y1v7xN）高能片段}

5. 总结与展望

基于多模态的融合，我们实现了一种高效且通用的视频高能点提取技术。该技术能够基于视频字幕迅速定位视频中的多个高能点，并通过一系列筛选策略从中挑选出最适合用作动态封面的高能片段。目前各个模块的算法都在不断优化当中，期望能够获得更加稳健与高效的结果。

此外，我们还在积极探索相关技术在其他业务形态下的应用场景，如：

视频章节拆分：对于时长较长的视频，基于相似技术可以准确、高效地将它拆成多个内容片段，从而方便用户快速了解视频的主要内容以及快速定位到感兴趣的内容进行观看。

直播带货大纲：对于直播带货视频，可以使用相似技术提取出up主介绍的每件商品的关键信息，如产品材质、使用场景、促销信息等，生成带货视频的大纲，方便用户快速了解该产品，提高up主带货的转换率。

因此，视频高能点提取的相关技术不仅仅能在视频动态封面制作上发挥作用，在其他相关业务中也能够挖掘出较大的应用价值。

哔哩哔哩多媒体实验室是一支技术驱动的年轻队伍，具备完善的多媒体技术能力，以清晰流畅的极致视频体验为目标，通过对自研视频编码器、高效转码策略、视频图像处理、画质评价等技术的持续打磨和算法创新，提出了画质可控的窄带高清转码算法、视觉无损视频前处理、超实时4K60FPS直播超分、高效视频图像处理引擎、BILIVVC编码器、视频画质评价等诸多高质量、低成本的多媒体解决方案，从系统尺度提升了整个转码系统的性能和效率, 助力哔哩哔哩成为体验最好的互联网视频社区。

以上是今天的分享内容，如果你有什么想法或疑问，欢迎大家在留言区与我们互动，如果喜欢本期内容的话，欢迎点个“在看”吧！

往期精彩指路

原文始发于微信公众号（哔哩哔哩技术）：基于多模态的视频高能点提取技术

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

基于多模态的视频高能点提取技术

开源情报技巧：解构环境犯罪背后的金融网络

美国议员批评英国对苹果的后门命令，并警告网络犯罪风险

TransparentTribe针对阿富汗监狱管理局的鱼叉式钓鱼邮件攻击

关于MCP最值得看的一篇：MCP创造者聊MCP的起源、架构优势和未来

G.O.S.S.I.P 阅读推荐 2025-05-08 IPvSeeYou

以色列NSO集团因攻击WhatsApp用户被判赔偿逾1.67亿美元

打穿系统是风险，那打垮人呢？——年年演练零误报，年年有人没能等到尾款和复盘

美国警告：黑客瞄准油气行业工业控制系统与监控数据采集系统

【戏说我在甲方做安全】聊蜜罐合作，结果甲方被乙方骂了

Panabit VLAN这样玩才高效：从透明网桥到网关模式的实战踩坑指南

发表评论

在线咨询

微信