单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

2024-05-23 阅读 45 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

方法

该研究利用Foldseek将蛋白质进行编码，生成了一维的3Di结构序列（使用了Foldseek的结构词表，每种3Di token代表不同的局部结构），这样的结构序列与氨基酸序列是等长的。

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

因此研究人员使用了一种简单而有效的结构嵌入方式：将结构词表和氨基酸词表计算笛卡尔积（即两两组合），形成新的结构感知词表。

这样对于蛋白质的每个位点，其氨基酸类型和对应的局部结构都能组合成新词表中的某个元素，从而让模型同时考虑到蛋白质的序列与结构信息。

本文使用Bert架构进行掩码语言建模（Masked Language Modeling ）预训练（关于训练的更多细节请参考原论文）。

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

实验

方法对比

一个可能令人疑惑的问题就是为什么需要这样编码结构？论文展示了使用不同的结构编码方式进行预训练的结果图：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

不同结构模型训练的loss曲线图

图左和图中是两种经典的蛋白质结构建模方式，即将结构信息编码成bias后添加到transformer的attention map中（如Evoformer，Uni-Mol），或者使用图神经网络的方式建模蛋白质的空间关系（如MIF，GearNet等）。

然而从loss图中可以发现，当上述两种建模方式在AF2结构上使用MLM的训练目标进行预训练时，模型会非常迅速地过拟合（表现为在AF2预测结构上预测loss非常低，但在PDB真实结构上loss停滞甚至上升）。

作者推测这是由于AF2预测出来的蛋白质结构带有一些隐藏的模式（patterns），由于前两种方式是直接对蛋白质的三维坐标进行建模，这些隐藏的pattern可能很轻易地就被模型识别出来，从而造成了信息泄露的问题，让模型无需真正学习到蛋白质的进化信息就能轻松地完成训练目标。

而结构感知词表通过将蛋白质结构编码成一维的结构序列，在尽可能保留结构模式的情况下忽略了精细的坐标数值，因此模型能够有效地利用结构信息而不受到隐藏pattern的影响。

Zero-shot测试

作者在蛋白质突变数据集（ProteinGym）上和真实人类临床疾病数据集（ClinVar）上测试了SaProt的zero-shot能力，结果如下：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

SaProt在两个数据集上都超越了以往的所有结构和序列模型，证明了其在zero-shot预测突变上具备优异的能力。

监督微调测试

本文还涵盖了各种下游任务来测试模型表现，结果如下：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

SaProt在各个下游任务上都超越了以往的序列和结构模型，展示出了其强大且通用的表征能力。

结构信息测试

SaProt在4000万的蛋白质结构上进行训练，获得了强大的表征能力。一个可能的疑问是如何确定SaProt学到了更多的结构信息而不是模型被训练得更好？论文对SaProt和ESM-2在残基接触预测任务（Contact Prediction Task）上进行了测试。作者冻住了模型的backbone，只训练一个线性分类层。

实验结果如下：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

从结果可以看到，由于结构token的嵌入，SaProt的表现大大超越了ESM-2，这表明SaProt蕴含了非常丰富的结构信息，使其能够在结构预测任务上获得十分优异的结果。

同时，论文在SCOPe数据库上对alpha蛋白质和beta蛋白质进行了可视化，结果如下：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

SaProt的可视化结果非常清晰地将alpha蛋白质和beta蛋白质区分开来，而ESM-2的可视化结果却将两种蛋白质混杂在一起，这说明了SaProt对结构的变化有很强的感知能力。

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

不同结构预测方法的比较

除了AF2，目前还存在许多其他的单序列结构预测方法（如ESMFold），因此本文额外测试了其他方法预测出来的结构对SaProt性能的作用。

结果如下：

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

从测试结果可以看出，虽然SaProt在AF2结构上的表现最好（模型本身也是基于AF2结构进行训练的），但其他的结构预测方法也能让SaProt与ESM-2等模型性能相当。

这意味着考虑到计算与时间成本，单序列结构预测模型也能作为替代方法输入到SaProt中。

局限

虽然SaProt经过训练展示出了优异的性能，但依然还有一些可以改进的地方，例如：

1. Foldseek默认的结构词表大小只有20，如果有更加精准的结构编码模型，扩大结构表征的词表大小，是不是能进一步提升模型利用结构的能力？

2. 由于计算能力的限制，SaProt只在650M上完成了训练。如果能够继续扩大模型规模，是否可以进一步地提升模型表现？

3. 论文虽然已经测试了很多的蛋白质任务，但还有一些其他任务可以应用探索，例如蛋白质序列设计（给定backbone预测氨基酸序列）等。

参考资料：

https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4

文章来源于：微信公众号新智元

克雷研究所100万美元奖金要归AI了数学界规则大改，未来数学家如何应对「海量猜想」

关联网址

关联标签

#大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

方法

实验

方法对比

Zero-shot测试

监督微调测试

结构信息测试

不同结构预测方法的比较

局限

克雷研究所100万美元奖金要归AI了数学界规则大改，未来数学家如何应对「海量猜想」

百川新模型冲顶中文测试基准！首款AI助手“百小应”同时发布，“最懂搜索”

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

单模型斩获「蛋白质突变预测」榜一！西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight

方法

实验

方法对比

Zero-shot测试

监督微调测试

结构信息测试

不同结构预测方法的比较

局限

克雷研究所100万美元奖金要归AI了数学界规则大改，未来数学家如何应对「海量猜想」

百川新模型冲顶中文测试基准！首款AI助手“百小应”同时发布，“最懂搜索”

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿