专题解读｜分子图多模态代表性工作介绍

2023年12月15日18:37:29评论94 views字数 2260阅读7分32秒阅读模式

引言

近期很多工作都在探索AI在制药领域的潜力。但是这些方法都主要关注分子的化学结构，而很少关注分子的其他模态的表示，这与人类对分子的学习过程不同。人类通常是通过化学结构及其对应的相关文字一起来理解分子的。同时利用多种模态的信息可以让模型更好地去理解分子，并且多模态的训练也可以让模型能更好地引用于不同的下游任务，甚至是多模态任务。因此，近期有一些工作对分子图多模态训练做了一些探索。接下来我们就介绍一些代表性工作。

相关工作

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing (NMI 23)

这篇工作提出了一个新的结构-文本数据集，PubChemSTM。在该数据集中，每个分子都有一个与其对应的文本描述。而作者提出的模型MoleculeSTM也是在该数据集上做训练的。

专题解读｜分子图多模态代表性工作介绍

如上图中（a）所示，MoleculeSTM是一个理解分子的多模态基础模型。该模型有两条分支：化学结构分支和文本描述分支。这两条分支分别用于处理分子的结构和文本数据，得到它们的embedding，然后通过对比学习的方法将同一个分子的结构和文本的embedding拉近，把不同分子的结构和文本的embedding拉远，从而让同一分子的结构和文本embedding对齐。

专题解读｜分子图多模态代表性工作介绍

模型预训练之后可以应用在许多下游任务上，比如零样本的结构-文本检索，分子性质预测，以及基于文本的分子编辑任务。在基于文本的分子编辑任务上分为两阶段训练。第一阶段将预训练好的生成模型和MoleculeSTM的表征空间对齐，第二阶段是想要找到同时和输入分子表征以及输入文本表征接近的latent code，然后其通过生成模型的decoder来得到最终的分子。

在这些下游任务上MoleculeSTM都取得了比较好的效果，证明了模型的高效性。

A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language（arXiv）

这篇文章提出了一个分子的图-文本数据集，包含了分子的结构图以及其对应的一篇和该分子相关的文档。

专题解读｜分子图多模态代表性工作介绍

文章提出了模型MoMu。如上图所示，在预训练过程中，MoMu通过不同的encoder得到分子的结构图和对应的文本的embedding，然后通过对比学习的方式将不同模态的embedding对齐。

专题解读｜分子图多模态代表性工作介绍

如上图所示，预训练之后，作者在许多下游任务上测试了预训练模型的性能，比如图-文本检索，文本-图检索，分子性质预测，并且在这些下游任务上，MoMu都取得了不错的性能。此外，作者还基于 MoMu 开发了一种零样本文本到图的分子生成方法，利用该模型的跨模态能力，为预训练的生成模型学习与特定文本描述相关的生成种子。分子生成器能够高效探索的空间越广泛，这一方法就越有可能定位到与文本中指定条件相关的分子区域。由于任何条件都可以在输入文本中描述，我们方便地自定义分子设计。

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter（arXiv）

专题解读｜分子图多模态代表性工作介绍

这篇文章作者指出来之前的分子图多模态预训练任务适用于检索的下游任务，但是对于分子到文本的生成任务是不足够的。这是因为分子到文本的生成任务是一个条件生成任务，需要LM能够理解分子图，但是对比学习的预训练方法并不能做到这一点。为了让LM能够理解分子图，如上图所示，作者用一个跨模态的projector将分子图的embedding映射到LM的输入空间。这个projector使用Q-Former来实现的。然而，因为LM参数量巨大，很难将其高效地引用于下游任务。因此，作者将LM和一个单模态的adapter，即LoRA结合起来，从而更高效地适应于下游任务。

专题解读｜分子图多模态代表性工作介绍

MolCA的训练分为三个阶段。第一阶段的目标是让Q-Former学到和文本表征最接近的分子表征。如上图所示，在这一阶段作者同时用了三个跨模态的预训练任务，包括分子-文本对齐，分子-文本匹配，以及分子描述。

专题解读｜分子图多模态代表性工作介绍

如上图所示，第二阶段将跨模态projector的输出输入到LM中，让LM生成分子对应的描述。这样就可以让LM理解跨模态projector的输出。

专题解读｜分子图多模态代表性工作介绍

第三阶段用一个单模态的adapter来实现高效的下游任务适应。如上图所示，作者在分子表征之后加上了对于任务描述的prompt，然后对模型做微调。

MolCA在多个下游任务上，如分子描述生成、IUPAC名称预测和分子文本检索，都取得了不错的效果，证明了其高效性。

总结

这些分子图多模态的相关工作让模型同时通过分子图结构和文本来学习分子的信息，来做预训练，并且将模型应用于各种下游任务上，都取得了不错的效果。这类工作对于AI在生物、化学、材料、环境和医学等领域的应用具有广泛影响。分子图多模态工作还有许多值得探索的方向，比如将分子多模态工作从化学信息学（小分子）扩展到生物信息学任务（蛋白质和基因组），并考虑基于结构的药物设计问题，如蛋白质-配体结合亲和力和片段设计，合并小分子和聚合物的3D几何信息，以及设计更为高效的分子多模态预训练模型。

本期责任编辑：杨成

本期编辑：刘佳玮

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成、王啸

编辑：刘佳玮

长按下图并点击“识别图中二维码”

即可关注北邮 GAMMA Lab 公众号

专题解读｜分子图多模态代表性工作介绍

原文始发于微信公众号（北邮 GAMMA Lab）：专题解读｜分子图多模态代表性工作介绍

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

专题解读｜分子图多模态代表性工作介绍

相关工作

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing (NMI 23)

A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language（arXiv）

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter（arXiv）

总结

清华大学 | 实网中多选项卡网站指纹攻击

基于hashcat工具获取iTunes加密备份密码

探析315晚会窃取手机号、微信号案例技术手法

关于最近研究成果被转载的几点说明

鲜为人知的Windows技能：Server完整SSH配置与应用场景

底层牛马谈辞职

诸子云｜甲方：高危基线允许加白吗？

教你如何免费激活 Windows 和 Office

深度剖析DeroMiner：Golang构筑的蠕虫级挖矿魔爪如何通过失陷Docker API野蛮生长，技术细节与防御策略

网络安全行业，聊一聊中年危机

发表评论

在线咨询

微信