作者: 托马斯·克莱贝尔
许可证: GPL v3.0
工具研究数据(DfR)JSTOR是引文分析和文本挖掘的宝贵资源。jstor公司
提供了从DfR导入数据集的功能并提出了工作流建议。它是为了处理需要协议的超大数据集而开发的,但也可以用于较小的数据集。
注释:截至2021年,JSTOR已经改变了向一个名为星座.包装jstor公司
尚未适应此更改,因此可能仅用于从旧的DfR平台选择的遗留数据。
最重要的功能集是一组jst获取_*
功能:
jst_get_文章
jst_get_authors(jst_get_authors)
jst_get_引用
jst_get_footnotes
jst_get_book
jst获取章节
jst_get_full_text(jst_get_full_text)
jst_get_ngram
与元数据有关的所有函数(因此不包括jst获取完整文本
和jst_get_ngram
)按照相同的路线操作:
- 使用读取文件
xml2::read_xml()
.
- 文件的内容是通过XPATH或CSS表达式提取的。
- 结果数据返回到
易怒的
.
安装
要安装软件包,请使用:
您可以通过以下方式从GitHub安装开发版本:
#install.packages(“远程”)
遥控器::安装github(“ropensci/jstor”)
用法
为了使用jstor公司
,首先需要加载它:
基本用法很简单:提供jst获取_*
-函数,它将返回带有提取信息的tibble。
有参考文献的文章 |
不适用 |
tranamermicrsoci公司 |
不适用 |
美国微观学会会刊 |
10.2307/3221896 |
不适用 |
不适用 |
研究论文 |
青蛙寄生原生动物的研究 |
41 |
2 |
发动机 |
1 |
4 |
1922 |
59 |
76 |
59胜76负 |
有参考文献的文章 |
不适用 |
R。 |
库多 |
不适用 |
不适用 |
1 |
在小插曲中可以找到更多的解释,特别是关于如何使用jstor函数导入许多文件的解释。
入门
为了使用jstor公司
,您需要来自英国国防部的一些数据。从主页您可以通过搜索术语并限制有关时间、主题和内容类型的搜索来创建数据集。创建帐户后,可以下载您的选择。或者,您可以下载样本数据集1923年之前的文件适用于美国,1870年之前的所有其他国家。
支持的元素
在他们的技术规范,DfR列出了所有文章和书籍中应可靠存在的字段。
下表概述了支持哪些元素jstor公司
.
文章
日志id(type=“jstor”) |
x个 |
x个 |
journal-id(type=“publisher-id”) |
x个 |
x个 |
journal-id(type=“doi”) |
|
x个 |
issn公司 |
x个 |
|
新闻标题 |
x个 |
x个 |
出版商名称 |
x个 |
|
文章id(type=“doi”) |
x个 |
x个 |
文章id(type=“jstor”) |
x个 |
x个 |
文章id(type=“publisher id”) |
|
x个 |
物品类型 |
|
x个 |
体积 |
|
x个 |
问题 |
|
x个 |
物品类别 |
x个 |
|
物品标签 |
x个 |
x个 |
控制组 |
x个 |
x个 |
公开日期 |
x个 |
x个 |
fpage(帧) |
x个 |
x个 |
液化石油气页面 |
|
x个 |
页面范围 |
|
x个 |
产品 |
x个 |
|
自uri |
x个 |
|
kwd组 |
x个 |
|
自定义元数据组 |
x个 |
x个 |
fn-组(脚注) |
|
x个 |
参考列表(参考) |
|
x个 |
书
book-id(type=“jstor”) |
x个 |
x个 |
学科 |
x个 |
x个 |
呼叫号码 |
x个 |
|
lcsh公司 |
x个 |
|
书架 |
x个 |
x个 |
图书副标题 |
|
x个 |
控制组 |
x个 |
x个 |
公开日期 |
x个 |
x个 |
印度标准银行 |
x个 |
x个 |
出版商名称 |
x个 |
x个 |
发布者位置 |
x个 |
x个 |
权限 |
x个 |
|
自uri |
x个 |
|
计数 |
x个 |
x个 |
自定义元数据组 |
x个 |
x个 |
书籍章节
book-id(type=“jstor”) |
x个 |
x个 |
部件id |
x个 |
x个 |
零件标签 |
x个 |
x个 |
部分标题 |
x个 |
x个 |
部分副标题 |
|
x个 |
控制组 |
x个 |
x个 |
fpage(帧) |
x个 |
x个 |
摘要 |
x个 |
x个 |
行为准则
请注意,此项目发布时带有贡献者行为准则。参与此项目即表示您同意遵守其条款。
引用
引用jstor公司
,请参阅引文(package=“jstor”)
:
克莱贝尔(2018). jstor公司:导入和分析科学文本中的数据。第页,共页
开源软件,3(28),883,https://doi.org网站/10.21105/乔斯.00883
致谢
从事jstor公司
得益于奥地利科学基金会(FWF)对项目“社会学和经济学领域的学术精英”的财政支持,项目编号为“P29211 Einzelprojekte”。
有关文件路径和示例文件的一些内部函数是根据包改编的阅读器
.