跳到内容

🗂 图形学习索引器:用于图形学习基准测试的一个贡献者友好且元数据丰富的平台。数据加载、基准测试、标记等!

许可证

通知 您必须登录才能更改通知设置

图形学习基准/gli

图形学习索引器(GLI)

Pycodestyle(Pycode样式) Pydocstyle公司 皮林特 Pytest公司 arXiv公司

图形学习索引器(GLI)是图形学习的基准管理平台。

设计目标

与以前的图形学习库相比,GLI强调了两个设计目标。

  • GLI旨在提供更好的服务数据集贡献器通过最小化贡献和维护数据集的工作量。
  • GLI旨在创建知识库(而不是简单的集合)的基准富超信息关于数据集。请参阅GLI meta-info页面了解详细信息。

突出显示的功能

基于文件的数据API

GLI定义了一个基于文件的标准数据集API,它在存储方面效率高,并且对于各种图形结构来说很灵活。与常见的基于代码的数据集API相比,基于文件的设计可以显著减少数据集贡献器所需的维护工作量。

数据和任务的显式分离

GLI明确区分了数据存储和任务配置。对于图学习,通常可以在同一数据集上定义多个任务(例如,节点分类和链接预测),或者可以对同一任务进行多个设置(例如,随机分割或固定分割)。

数据和任务的明确分离提供了许多好处:

  • API对新任务的扩展性更强。
  • 自动化测试可以按任务分开,并变得更加模块化。
  • 它允许为每个任务实现通用数据加载方案。

自动化测试

GLI为新数据集提交实现了广泛的自动化测试,为数据集贡献者提供了及时而丰富的反馈,并使贡献过程更加顺畅。

丰富的元信息

GLI还提供了计算图形属性(如聚类系数或亲同比)的工具,并为新提供的数据集测试流行模型,这可以用丰富的元信息扩充新数据集。

快速入门

这是希望使用GLI中托管的现有数据集的用户的快速入门。对于希望贡献新数据集的用户,请参阅我们的贡献指南.

安装

目前,我们支持从源代码安装。

git克隆https://github.com/Graph-Learning-Benchmarks/gli.git网站光盘格利pip安装-e.

注:wget公司需要下载数据集。

要测试安装,请运行以下命令:

python example.py--graph cora--task节点分类

输出应该如下所示:

>图形加载需要0.0196秒,使用0.9788 MB。>任务加载需要0.0016秒,使用0.1218 MB。>图形和任务组合需要0.0037秒,使用0.0116 MB。数据集(“CORA数据集.NodeClassification”,num_graphs=1,save_path=~/.dgl/CORA数据集.NoteClassification)**

数据加载API

要从远程数据存储库加载数据集,只需使用获取gli_dataset()功能:

>>> 进口 格利
>>> 数据集 = 格利.获取gli_dataset(数据集=“科拉”,任务=“节点分类”,装置=“cpu”)>>> 数据集
数据集(“CORA数据集.NodeClassification”,num_graphs数=1,存储路径(_P)=/用户/吉米/.dgl公司/CORA公司 数据集.节点分类)

或者,也可以通过获取gli_graph()此外,GLI为各种任务提供了抽象(GLI任务)并提供一个函数获取gli_task()以返回任务实例。将这两个实例合并,以获得与前一个案例相同的打包数据集。

>>> 进口 格利
>>>  = 格利.获取gli图形(数据集=“珊瑚”,装置=“cpu”,冗长的=False(错误))>>> 
图表(num个节点=2708,边数(_E)=10556,数据架构(_S)={“节点功能”:方案(形状=(1433,),数据类型=火炬.浮动32),“节点标签”:方案(形状=(),数据类型=火炬.整数64)}edata_方案={})>>> 任务 = 格利.获取任务(数据集=“科拉”,任务=“节点分类”,冗长的=False(错误))>>> 任务
<格利.任务.节点分类任务 对象  0x100eff640>
>>> 数据集 = 格利.组合图形和任务(,任务)>>> 数据集
数据集(“CORA数据集.NodeClassification”,num_graphs数=1,存储路径(_P)=/用户/吉米/.dgl公司/CORA公司 数据集.节点分类)

返回的数据集继承自DGL数据集因此,它可以无缝地并入DGL的基础设施:

>>> 类型(数据集)< 'gli.数据集。节点分类数据集'>
>>> isinstance公司(数据集,dgl公司.数据.DGL数据集)真的

贡献

新数据集、功能请求、错误修复或更好的文档。

欢迎各种改进!请参考我们的贡献指南了解详细信息。

引用

注释:如果使用托管在中的数据集数据集/,请引用的README.md中列出的相应数据源那个数据集.

如果您发现GLI对您的研究有帮助,请考虑引用我们的论文。

图形学习索引器:一个面向贡献者且元数据丰富的图形学习基准平台.

马嘉琪*、张行健*、范和成、金黄、李天岳、李廷伟、屠一文、朱晨淑和梅巧珠。日志2022。(*同等出资。)

BibTex公司:

@正在进行{ma2022图形,title={图形学习索引器:一个面向贡献者且元数据丰富的图形学习基准平台},author={马嘉琪、张行健、范和成、金煌、李天岳、李廷伟、屠一文、朱晨淑和乔竹梅},booktitle={首次图形学习会议},年份={2022},网址={https://openreview.net/forum?id=ZBsxA6_gp3}}

关于

🗂 图形学习索引器:用于图形学习基准测试的一个贡献者友好且元数据丰富的平台。数据加载、基准测试、标记等等!

话题

资源

许可证

行为准则

星星

观察者

叉子

发布

未发布任何版本

包装

未发布包