跳到目录

作者: 托马斯·克莱贝尔
许可证: GPL v3.0

R-CMD检查 AppVeyorBuild状态 覆盖率状态 生命周期 CRAN状态 CRAN_下载_标签 rOpenSci徽章 JOSS徽章 Zenodo内政部

工具研究数据(DfR)JSTOR是引文分析和文本挖掘的宝贵资源。jstor公司提供了从DfR导入数据集的功能并提出了工作流建议。它是为了处理需要协议的超大数据集而开发的,但也可以用于较小的数据集。

注释:截至2021年,JSTOR已经改变了向一个名为星座.包装jstor公司尚未适应此更改,因此可能仅用于从旧的DfR平台选择的遗留数据。

最重要的功能集是一组jst获取_*功能:

  • jst_get_文章
  • jst_get_authors(jst_get_authors)
  • jst_get_引用
  • jst_get_footnotes
  • jst_get_book
  • jst获取章节
  • jst_get_full_text(jst_get_full_text)
  • jst_get_ngram

与元数据有关的所有函数(因此不包括jst获取完整文本jst_get_ngram)按照相同的路线操作:

  1. 使用读取文件xml2::read_xml().
  2. 文件的内容是通过XPATH或CSS表达式提取的。
  3. 结果数据返回到易怒的.

安装

要安装软件包,请使用:

安装.包(“jstor”(jstor))

您可以通过以下方式从GitHub安装开发版本:

#install.packages(“远程”)
遥控器::安装github(“ropensci/jstor”)

用法

为了使用jstor公司,首先需要加载它:

基本用法很简单:提供jst获取_*-函数,它将返回带有提取信息的tibble。

jst_get_文章(jst示例(“article_with_references.xml”)) %>% 针织物::可操作的()
文件名 日志doi 日志jcode 日志_子id 日志_标题 文章_目录 文章_订阅id 文章j代码 文章类型 文章_标题 体积 问题 语言 公共日 公共_月 公共年度 第一页(_P) 最后一页 页面范围(_R)
有参考文献的文章 不适用 tranamermicrsoci公司 不适用 美国微观学会会刊 10.2307/3221896 不适用 不适用 研究论文 青蛙寄生原生动物的研究 41 2 发动机 1 4 1922 59 76 59胜76负

jst_get_authors(获取作者)(jst示例(“article_with_references.xml”)) %>% 针织物::卡布尔的()
文件名 前缀 给定名称 字符串名称 后缀 作者编号
有参考文献的文章 不适用 R。 库多 不适用 不适用 1

在小插曲中可以找到更多的解释,特别是关于如何使用jstor函数导入许多文件的解释。

入门

为了使用jstor公司,您需要来自英国国防部的一些数据。主页您可以通过搜索术语并限制有关时间、主题和内容类型的搜索来创建数据集。创建帐户后,可以下载您的选择。或者,您可以下载样本数据集1923年之前的文件适用于美国,1870年之前的所有其他国家。

支持的元素

在他们的技术规范,DfR列出了所有文章和书籍中应可靠存在的字段。

下表概述了支持哪些元素jstor公司.

文章

xml格式-字段 可靠存在 支持于jstor公司
日志id(type=“jstor”) x个 x个
journal-id(type=“publisher-id”) x个 x个
journal-id(type=“doi”) x个
issn公司 x个
新闻标题 x个 x个
出版商名称 x个
文章id(type=“doi”) x个 x个
文章id(type=“jstor”) x个 x个
文章id(type=“publisher id”) x个
物品类型 x个
体积 x个
问题 x个
物品类别 x个
物品标签 x个 x个
控制组 x个 x个
公开日期 x个 x个
fpage(帧) x个 x个
液化石油气页面 x个
页面范围 x个
产品 x个
自uri x个
kwd组 x个
自定义元数据组 x个 x个
fn-组(脚注) x个
参考列表(参考) x个

xml格式-字段 可靠存在 支持于jstor公司
book-id(type=“jstor”) x个 x个
学科 x个 x个
呼叫号码 x个
lcsh公司 x个
书架 x个 x个
图书副标题 x个
控制组 x个 x个
公开日期 x个 x个
印度标准银行 x个 x个
出版商名称 x个 x个
发布者位置 x个 x个
权限 x个
自uri x个
计数 x个 x个
自定义元数据组 x个 x个

书籍章节

xml格式-字段 可靠存在 支持于jstor公司
book-id(type=“jstor”) x个 x个
部件id x个 x个
零件标签 x个 x个
部分标题 x个 x个
部分副标题 x个
控制组 x个 x个
fpage(帧) x个 x个
摘要 x个 x个

行为准则

请注意,此项目发布时带有贡献者行为准则。参与此项目即表示您同意遵守其条款。

引用

引用jstor公司,请参阅引文(package=“jstor”):

克莱贝尔(2018). jstor公司:导入和分析科学文本中的数据。第页,共页
开源软件,3(28),883,https://doi.org网站/10.21105/乔斯.00883

致谢

从事jstor公司得益于奥地利科学基金会(FWF)对项目“社会学和经济学领域的学术精英”的财政支持,项目编号为“P29211 Einzelprojekte”。

有关文件路径和示例文件的一些内部函数是根据包改编的阅读器.