A Meta-Learning Approach for Graph Representation Learning in Multi-Task Settings

2021-06-28

字数统计: 2.2k | 阅读时长≈ 9 分钟

https://arxiv.org/pdf/2012.06755

A Meta-Learning Approach for Graph Representation Learning in Multi-Task Settings，2020，NIPS workshop

总结：本文是2020年NIPS workshop上分享的一篇文章，角度很新颖，跳出了用元学习解决小样本问题这个圈子，利用元学习跨任务学习这一特性，来解决多任务图学习问题。文章算法很简单，基本和MAML模型完全一致，但是切入角度值得借鉴。

1.简介

1.1 摘要

Graph Neural Networks (GNNs) are a framework for graph representation learning, where a model learns to generate low dimensional node embeddings that encapsulate structural and feature-related information. GNNs are usually trained in an end-to-end fashion, leading to highly specialized node embeddings. However, generating node embeddings that can be used to perform multiple tasks (with performance comparable to single-task models) is an open problem. We propose a novel meta-learning strategy capable of producing multi-task node embeddings. Our method avoids the difficulties a rising when learning to perform multiple tasks concurrently by, instead, learning to quickly (i.e. with a few steps of gradient descent) adapt to multiple tasks singularly. We show that the embeddings produced by our method can be used to perform multiple tasks with comparable or higher performance than classically trained models. Our method is model-agnostic and task-agnostic, thus applicable to a wide variety of multi-task domains.

GNNs是图表示学习中非常重要的框架之一，图表示学习通过同时捕捉结构和特征信息，为节点生成低维节点嵌入。GNNs通常采用端到端的训练方式，导致生成的节点嵌入过于specialized（即不够泛化，比如只能用于节点分类或者链路预测，不能两者兼顾）。但是，生成可用于多种任务（与单任务模型具有可比性）的节点嵌入任然是一个开放的问题。我们提出了一种新的元学习策略，可以生成用于多任务的节点嵌入。我们的方法避免了同时学习多个任务时产生的困难，通过学习可以快速（即只需少量梯度步骤）适应多个任务。和传统方法相比，我们的方法生成的嵌入可以用于多个任务中，并取得相当的或者更好的性能。我们的方法是模型无关以及任务无关的，因此可以广泛用于各种多任务领域。

1.2 本文工作

背景： GNNs作为图学习中非常重要的深度模型之一，得到了很多研究。图学习中研究最多的三个任务是：节点分类、链路预测和图分类。现有的GNNs大多都是围绕节点表示学习，并且遵循同样地架构模式：encoder-decoder结构。encoder部分学习低维的节点嵌入，decoder部分利用节点嵌入执行下游任务。

动机： 大多数GNNs模型都采用端到端方式训练，得到的节点嵌入都是高度specialized，无法同时用于多个不同的任务。

如图1所示，如果将某个任务中学习到的节点嵌入迁移到其他任务中，会导致模型性能下降。但是在实际应用中，许多机器学模型都是在资源受限的环境中使用，这种环境下不同任务之间参数是十分重要的。

本文工作： 本文作者基于元学习，具体来说基于MAML，提出了一种新的 $model-agnostic$ and $task-agnostic$ 多任务学习模型，只需要少量的梯度下降就能将模型迁移到新的任务中，并取得比较好的效果。

2. 方法

下面主要从三个部分介绍作者提出的方法：（1）Episode Design（Episode，元学习里面的一个概念，可以理解成和batch类似的一个东西）；（2）Model Architecture Design；（3）Meta-Training Design。

一、Episode设计

如图2a所示，作者定义multi-task episode $\mathcal E_i^{(m)}\sim p(\mathcal E^{(m)})$ 为一个三元组： $\mathcal{E}_{i}^{(m)}=\left(\mathcal{L}_{\mathcal{E}_{i}}^{(m)}, \mathcal{S}_{\mathcal{E}_{i}}^{(m)}, \mathcal{T}_{\mathcal{E}_{i}}^{(m)}\right)$ ，并且有：

\begin{array}{l} \mathcal{L}_{\mathcal{E}_{i}}^{(m)}=\lambda^{(G C)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{GC})}+\lambda^{(N C)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{NC})}+\lambda^{(L P)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{LP})} \\ \mathcal{S}_{\mathcal{E}_{i}}^{(m)}=\left\{\mathcal{S}_{\mathcal{E}_{i}}^{(\mathrm{GC})}, \mathcal{S}_{\mathcal{E}_{i}}^{(\mathrm{NC})}, \mathcal{S}_{\mathcal{E}_{i}}^{(\mathrm{LP})}\right\}, \quad \mathcal{T}_{\mathcal{E}_{i}}^{(m)}=\left\{\mathcal{T}_{\mathcal{E}_{i}}^{(\mathrm{GC})}, \mathcal{T}_{\mathcal{E}_{i}}^{(\mathrm{NC})}, \mathcal{T}_{\mathcal{E}_{i}}^{(\mathrm{LP})}\right\} \end{array}

其中 $\lambda^(·)$ 为平衡系数， $\mathcal L^{(m)}_{\mathcal E_i}$ 表示内循环中损失函数， $\mathcal S_{\mathcal E_i}^{(m)}$ 和 $\mathcal T_{\mathcal E_i}^{(m)}$ 表示支持集和查询集。这样模型的meta-objective定义为：

\mathcal{L}_{\text {meta }}^{(m)}=\sum_{\mathcal{E}_{i}^{(m)} \sim p\left(\mathcal{E}^{(m)}\right)} \lambda^{(G C)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{GC})}+\lambda^{(N C)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{NC})}+\lambda^{(L P)} \mathcal{L}_{\mathcal{E}_{i}}^{(\mathrm{LP})}

注：这里和MAML中episode的设计基本没变，只不过MAML的 $\mathcal S$ 和 $\mathcal T$ 中包含的是同一类型任务。

二、模型架构设计

采用一个多头架构的encoder-decoder模型，骨架采用3层GCN，decoder由3个头组成（分别对应三个任务）：

节点分类头：一个带Softmax的单层神经网络。
图分类头：首先有一个单层神经网络对捡点钱如作线性转换，然后跟一个ReLU激活操作，再将所有节点嵌入做平均后传入最终带有softmax的单层神经网络。
链路预测头：一个带ReLu的单层神经网络对节点嵌入做转换，然后用另一个单层神经网络以两个节点嵌入为输入，输出这两个节点之间存在边的概率。

三、元训练设计

和MAML的训练方式基本一样，下图展示了本文模型的伪代码：

对比下图MAML算法伪代码，作者基本没有做改动，采用二次梯度更新来学习，内循环称之为Adaptation，外循环称之为Updation：

整个模型参数 $\theta$ 可以分成四部分： $\theta_{GCN}$ ， $\theta_{NC}$ ， $\theta_{GC}$ ， $\theta_{LP}$ 。作者将模型命名成SAME（Single-Task Adaptation for Multi-Task Embeddings），如图2b、c两部分所示，SAME有两种变体：

implicit SAME（iSAME）：adaptation阶段（内循环），所有参数 $\theta$ 都参与更新。
explicit SAME（eSAME）：adaptation阶段只更新 $\theta_{NC}$ ， $\theta_{GC}$ ， $\theta_{LP}$ 三个参数， $\theta_{GCN}$ 不更新。