数据包:用于传输和操作数据及相关资源的灵活容器
这个数据包R包提供了一个抽象,用于将数据对象和元数据的异构集合整理成一个包,该包可以传输并加载到单个复合文件中。此包中的方法提供了一种方便的方法,可以将数据从通用存储库(如DataONE)加载到R环境中,并将R中的数据记录、序列化和保存到全球数据存储库中。
请注意,此包(“datapack”)与名称类似的rOpenSci包“DataPackageR”无关。DataPackageR github存储库中的文档说明“DataPackage R用于将原始数据重新处理为打包的分析就绪数据集。”
安装注意事项
这个数据包R包需要R包红土地。如果要在Ubuntu上安装,则必须在安装红土地和数据包可以安装软件包。如果要在Mac OS X或Windows上安装,则不需要安装这些库。
以下说明说明了如何安装数据包及其要求。
在Mac OS X上安装
在Mac OS X上,可以使用以下命令安装数据包:
安装.包(“数据包”)
图书馆(数据包)
这个数据包此时,R包应可用。
注意:如果您希望构建所需的红土地安装之前从源代码打包数据包,请看红地安装说明.
在Ubuntu上安装
对于Ubuntu,通过在终端窗口中输入以下命令来安装所需的Redland C库:
更新源sudo apt-get安装librdf0 librdf0-dev
然后从R控制台安装R软件包:
安装.包(“数据包”)
图书馆(数据包)
这个数据包此时,R包应可用
在Windows上安装
对于windows,所需的redland R包是以二进制版本分发的,因此不需要安装任何其他系统库。
要从R控制台安装R软件包:
安装.包(“数据包”)
图书馆(数据包)
快速入门
有关文档,请参阅完整手册,但安装后,可以使用以下方法在R中运行软件包:
图书馆(数据包)
帮助(“数据包”)
创建数据包并向其中添加元数据和数据DataObjects:
图书馆(数据包)
图书馆(乌伊德)
dp(差分) <- 新的(“数据包”)
md文件 <- system.file(系统文件)(“extdata/sample-eml.xml”,程序包=“数据包”)
mdId(mdId) <- 粘贴(“urn:uuid:”,UUID生成(),9月="")
医学博士 <- 新的(“数据对象”,id=mdId(mdId),格式=”eml://生态信息学.org/eml-2.1.0”,文件=mdFile(mdFile))
添加数据(dp(差分),医学博士)
csv文件 <- system.file(系统文件)(“extdata/sample-data.csv”,程序包=“数据包”)
科学ID <- 粘贴(“urn:uuid:”,UUID生成(),9月="")
科学对象 <- 新的(“数据对象”,id=科学ID,格式=“文本/csv”,文件名=csv文件)
dp(差分) <- 添加数据(dp(差分),科学对象)
身份证 <- 获取标识符(dp(差分))
向DataPackage添加一个关系,以显示元数据描述或“文档”科学数据:
dp(差分) <- 插入关系(dp(差分),主题ID=mdId(mdId),对象ID=科学ID)
关系 <- 获取关系(dp(差分))
创建包中关系的资源描述框架表示:
序列化ID <- 粘贴(“资源地图”,UUID生成(),9月="")
文件路径 <- 文件路径(把格式数据写成串(“%s/%s.rdf”,临时目录(),序列化ID))
地位 <- 序列化包(dp(差分),文件路径,id=序列化ID,解析URI="")
使用BagIt打包格式将数据包保存到文件中:
bagit文件 <- 序列化为BagIt(dp(差分))
请注意数据通R包可用于使用上传数据包方法。请参阅文档了解数据通R包,例如:
渐晕(“上传数据”,程序包=“数据中心”)
致谢
此包的工作得到了以下方面的支持:
- NSF-ABI拨款#1262458致C.Gries、M.B.Jones和S.Collins。
- NSF-DATANET拨款#0830944以及#1430508致W.Michener、M.B.Jones、D.Vieglais、S.Allard和P.Cruse
- NSF DIBBS拨款#1443062致T.哈伯曼和M.B.琼斯
- NSF-PLR拨款#1546024致M.B.Jones、S.Baker-Yeboah、J.Dozier、M.Schildhauer和A.Budden
- NSF-PLR拨款#2042102致M.B.Jones、A.Budden、J.Dozier和M.Schildhauer
国家生态分析与合成中心为工作组合作提供了额外支持,该中心由加州大学圣巴巴拉分校和加利福尼亚州资助。