一.什么是PyG?
PyG全称是Pytorch Geometric,它是一个基于Pytorch构建的库,可以帮助用户快速构建和训练自己的图神经网络模型。
PyG中实现了很多先进(state of the art)的GNN模块,例如GCN
、GraphSage
、GAT
、SGC
、GIN
等等。此外,PyG中还包含了大量的benchmark图数据集、丰富的图数据操作方法、支持多GPU。
二.PyG的安装
关于PyG的安装,推荐使用pip
命令的方式:
pip install torch-scatter -f https://data.pyg.org/whl/torch-${TORCH}+${CUDA}.html
pip install torch-sparse -f https://data.pyg.org/whl/torch-${TORCH}+${CUDA}.html
pip install torch-geometric
其中${TORCH}
和${CUDA}
分别表示Pytorch版本和CUDA版本的占位符,即需要根据你的环境中两者的版本来对其进行设置,例如你本地的Pytorch和CUDA版本分别为1.10.0
和cu113
,则使用如下命令即可:
pip install torch-scatter -f https://data.pyg.org/whl/torch-1.10.0+cu113.html
pip install torch-sparse -f https://data.pyg.org/whl/torch-1.10.0+cu113.html
pip install torch-geometric
若用官网的
conda
命令装的话,则要确保你的Pytorch版本别太低,否则会出问题。
从零开始配置PyG可以参见:torch_geometric安装笔记。
三.PyG框架概述
PyG的架构如下图所示:
其主要分为四大模块:Models、Opeartors、Storage和Engine。
Models
PyG架构的最上层是Models,正如前面所介绍的,PyG实现了丰富的GNN模块来供用户直接使用(就像使用Pytorch中的CNN和RNN模块一样方便)。另外,用户可以灵活自由的构建符合自己需求的GNN模型。
Operators
PyG的Operators模块包含了构建图神经网络的基本API,例如图池化。通过该模块的各种组件,用户可以自由的构建自己的GNN模型。
Storage
PyG的Storage模块主要用来对图数据进行处理、转换(Transform,类似与torchvision
中的transform
)和加载管道(pipeline)。通过它可以处理大尺度(large-scale)图数据集。此外,该模块还为异构图(heterogeneous graphs)提供了有效的解决方案。
异构图:包含两种及以上类型的节点和边的图。
Engine
PyG的Engine模块集成了Pytorch深度学习框架、以及高效的CUDA库来操作稀疏数据,例如torch_scatter
、torch_sparse
和torch_cluster
。
由于现实世界中的图非常大,因此通常采用稀疏格式来对这些大图进行存储,而PyG能支持对稀疏数据的操作表明PyG可以在大图上进行操作,这也是该框架的一个巨大优势。
三.结语
PyG的官方优质资料(本文参考):
- PyG Github
- PyG官方文档
知己知彼,方能百战不殆。本文主要是对PyG框架有一个稍微深入点的了解,这能有助于我们更加深刻的掌握该框架。