中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

2024-09-30 阅读 35 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

引言

图广泛应用于许多重要领域，例如引文网络、商品网络和蛋白质相互作用网络。在许多实际应用中，图中的节点具有丰富且有用的属性信息。例如，引文网络中的节点（论文）、商品网络中的节点（商品）以及蛋白质相互作用网络中的节点（蛋白质）分别包含着标题/摘要、商品的文本描述和蛋白质序列等重要信息，这些信息对下游任务只管重要。而近年来兴起的许多强大的预训练模型是从这些复杂属性中捕获节点特性的重要工具之一。

为了同时编码这些属性和图结构，一个常见的架构是将预训练模型与图神经网络GNN（Graph Neural Network）串联集成在一起，其中预训练模型作为节点编码器NE（Node Encoder）对属性进行编码。如下图所示，该架构通过节点编码器将这些复杂的节点属性变成定长的低维嵌入，再将其作为节点特征输入到图神经网络以结合图结构信息。

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

然而，作为NE的预训练模型本身大量参数且GNN的邻居爆炸问题（neighbor explosion），两大训练难题的叠加让直接端到端联合训练NEs和GNN在实际中并不可行的。研究者们开始研究分离NEs和GNNs分离训练的范式，即先固定NEs的参数训练GNNs一定步数（GNN的训练阶段），再固定GNNs的参数训练NEs一定步数（NE的训练阶段），两步交替迭代进行。

本工作对现有的NEs和GNNs分离训练的范式进行研究，指出了现有工作在NE训练阶段，它们没有考虑GNN中的特征卷积，导致它们提出的近似损失函数与原始联合训练的目标函数并不等价，存在显著的学习偏差，进而无法收敛到最优解（详见原论文举的反例）。

为了应对这一挑战，我们提出了一种有效的标签正则化技术，即标签反卷积LD （Label Deconvolution），通过对GNN逆映射得到一种新颖的、可扩展性强的近似标签。逆映射有效地将GNN纳入NE的训练阶段以克服学习偏差，进而产生了与联合训练等效的目标函数。于是我们也进一步证明了LD收敛到了最优目标函数值，为提出的LD方法提供了理论保证。通过实验验证，LD显著优于当下最先进的方法，在国际顶级图学习标准OGB（Open Graph Benchmark）挑战赛的蛋白质功能预测任务上斩获「第一名」，该记录从2023年9月27日起保持至今。

背景介绍

大规模属性图上的节点表示学习

可扩展的图神经网络结合预训练节点编码器的难点

大多可扩展的图神经网络可分为基于数据采样和基于模型结构的两类思想。

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

图采样

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

从GNN中分离特征卷积

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

GNNs的训练阶段（优化β）

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

NEs的训练阶段（优化β）

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

标签反卷积

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

基于频谱设计的GNNs

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

标签反卷积

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

NEs不同损失函数的比较

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

实验结果

团队对广泛使用的开放图基准数据集OGB（Open Graph Benchmark）中的ogbn-axiv、ogbn-product和ogbn-protein进行实验，其图数据分别为引文网络、协同购买网络和蛋白质关联网络。

如下所示，LD在不同GNN backbone的三个数据集上的表现都显著优于所有的baseline。

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

逆标签分析

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

作者介绍：

石志皓，2020年获得中国科学技术大学电子工程与信息科学系学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读博士研究生，师从王杰教授。研究兴趣包括图表示学习和AI4Science。他曾以第一作者在 TPAMI、ICLR等期刊、会议上发表论文，曾受邀在ICLR 2023做接受率约为8%的Spotlight报告。

路方华，2023年获得上海大学机械设计与自动化专业学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读硕士研究生，师从王杰教授。研究兴趣包括图表示学习和自然语言处理。

论文地址：https://www.computer.org/csdl/journal/tp/5555/01/10678812/20b3hKWQ3Ru

代码地址：https://github.com/MIRALab-USTC/LD

参考文献：

[1]Zhao J, Qu M, Li C, et al. Learning on large-scale text-attributed graphs via variational inference[J]. arXiv preprint arXiv:2210.14709, 2022.

[2]Wang X, Zhang M. How powerful are spectral graph neural networks[C]//International Conference on Machine Learning. PMLR, 2022: 23341-23362.

文章来自于微信公众号“量子位”，作者“MIRA Lab”

靠fork开源代码获350万融资，创始人自诩“开源版Cursor”，网友追着质疑

关联网址

关联标签

#AI

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

引言

背景介绍

大规模属性图上的节点表示学习

可扩展的图神经网络结合预训练节点编码器的难点

图采样

从GNN中分离特征卷积

GNNs的训练阶段（优化β）

NEs的训练阶段（优化β）

标签反卷积

基于频谱设计的GNNs

标签反卷积

NEs不同损失函数的比较

实验结果

逆标签分析

作者介绍：

靠fork开源代码获350万融资，创始人自诩“开源版Cursor”，网友追着质疑

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

中科大成果斩获图学习“世界杯”单项冠军，霸榜蛋白质功能预测任务超1年 | TPAMI 2024

引言

背景介绍

大规模属性图上的节点表示学习

可扩展的图神经网络结合预训练节点编码器的难点

图采样

从GNN中分离特征卷积

GNNs的训练阶段（优化β）

NEs的训练阶段（优化β）

标签反卷积

基于频谱设计的GNNs

标签反卷积

NEs不同损失函数的比较

实验结果

逆标签分析

作者介绍：

靠fork开源代码获350万融资，创始人自诩“开源版Cursor”，网友追着质疑

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿