安装.包( " LexisNexis工具 " )
遥控器 :: 安装github( " JBGruber/LexisNexisTools公司 " )
图书馆( " LexisNexis工具 " )
lnt_sample()
直接在工作目录中运行lnt_rename(),不带x参数,这将提示扫描当前工作目录中的TXT文件的选项:
报告 <- lnt_rename()
提供文件夹路径(并设置 递归=真 如果要递归扫描文件):
报告 <- lnt_rename(重命名)( x个 = 获取(), 报告 = 真的 )
提供具有文件名的字符对象。 使用 list.files()列表.files() 搜索特定路径中的文件。
我的文件(_F) <- 列表.files( 图案 = " .txt文件 " , 路径 = 获取(), 完整名称 = 真的 , 递归的 = 真的 , 忽略.案例 = 真的 ) 报告 <- lnt_rename(重命名)( x个 = 我的文件(_F) , 报告 = 真的 ) 报告
start_关键字 :英文默认值为“\d+of\d+DOCUMENTS$”,它代表例如“1/112 DOCUMENT”。 它用于将TXT文件中的文本拆分为单独的文章。 除了使用当前支持的语言以外的其他语言处理文档外,您不必在此处更改任何内容。 end_keyword(结束关键字) :此关键字用于删除文章末尾不必要的信息。 通常,这是“^LANGUAGE:”。 如果找不到关键字,则附加信息将出现在文章文本中。 长度关键字 :此关键字通常只是“^LENGTH:”(或其他语言中的等效词),用于查找有关文章长度的信息。 然而,由于这始终是元数据的最后一行,所以它用于分隔元数据和文章文本。 似乎只有一种情况缺少此信息: 如果文章仅由图形组成(“LexisNexis”无法检索)。 来自的最终输出 lnt_read() 具有名为的列 图解的 ,指示是否缺少此关键字。 然后,文章文本也包含所有元数据。 在这些情况下,您应该在检查完整个文章后将其删除。 (使用 查看( LNToutput@文章 $文章[ LNToutput@meta $Graphic]) 在类似电子表格的查看器中查看这些文章。)
LNT输出 <- lnt_read(读入)( x个 = 获取()
##正在从1个文件创建LNToutput。。。 ## ... 加载的文件[0.0016秒] ## ... 物品分割[0.0089秒] ## ... 提取的长度[0.0097秒] ## ... 提取的报纸[0.01秒] ## ... 提取的日期[0.012秒] ## ... 作者提取[0.013秒] ## ... 提取的部分[0.014秒] ## ... 提取的版本[0.014秒] ## ... 提取的标题[0.016秒] ## ... 转换的日期[0.023秒] ## ... 提取的元数据[0.026秒] ## ... 提取的文章文本[0.029秒] ## ... 提取的段落[0.041秒] ## ... 从文章中删除多余的空白[0.044秒] ## ... 从段落中删除多余的空白[0.046秒] ##经过时间:0.047秒
元数据 <- LNT输出 @ 元
文章_df <- LNT输出 @ 条款
段落_df <- LNT输出 @ 段落
# 打印元数据以了解数据 头部( 图元_df , n个 = 三 )
元_项目_ df <- lnt_convert(转换)( LNT输出 , 到 = " 数据帧 " ) # 或者保留段落
元段落.df <- lnt_convert(转换)( LNT输出 , 到 = " 数据帧 " , 什么 = " 段落 " )
rDNA_文档 <- lnt_convert(转换)( LNT输出 , 到 = " rDNA " ) 数量_ corpus <- lnt_转换( LNT输出 , 到 = " 夸特达 " ) t珊瑚 <- lnt_convert(转换)( LNT输出 , 到 = " 企业工具 " ) 整齐的 <- lnt_转换( LNT输出 , 到 = " 潮汐文字 " ) 语料库 <- lnt_convert(转换)( LNT输出 , 到 = " tm(tm) " ) 数据库位置 <- lnt_convert(转换)( LNT输出 , 到 = " 数据库 " )
# 提供LNToutput
复制_df <- lnt_相似性( LNT输出 = LNT输出 , 门槛 = 0.97 )
# 或者将重要部分分开
复制_df <- lnt相似性( 文本 = LNT输出 @ 条款 $ 第条 , 日期 = LNT输出 @ 元 $ 日期 , 标识 = LNT输出 @ 条款 $ 身份证件 , 门槛 = 0.97 )
##正在检查4个日期内10篇文章的相似性。。。 ## ... 用于相似性比较的quanteda dfm[0.063秒]。 ## ... 处理日期2010年1月8日:发现0个重复[0.064秒]。 ## ... 处理日期2010年1月9日:发现0个重复[0.064秒]。 ## ... 处理日期2010年1月10日:发现0个副本[0.25秒]。 ## ... 处理日期2010年1月11日:发现5个副本[3.05秒]。 ##阈值=0.97; 处理4天; 发现重复5次; 在3.05秒内
lnt差异( 复制_df , 最小值 = 0 , 最大值 = Inf公司 )
复制_df <- 复制_df [ 重复_df $ 关系列表(_D) < 0.2 ] LNT输出 <- LNT输出 [ ! LNT输出 @ 元 $ 身份证件 %单位:% 复制_df $ 重复ID(_D) , ]
LNT输出 [ 1 , ] # >“LNToutput”类的对象:
# >1篇文章
# >5段
# >#A台:1×10
# >ID Source_File报纸日期长度部分作者
# ><int><chr><chr><date><chr
# >1 1 SampleFile_2009…卫报。… 2010年1月11日355 w.…<NA>安德鲁…
# >#…还有3个变量:版本<chr>、标题<chr>,
# >#图形<lgl>
# >#A台:1×2
# >ID文章
# ><int><chr>
# >11 Lorem ipsum dolor sit amet,献祭祭祀精英。 埃蒂…
# >#A台:5×3
# >Art_ID Par_ID段落
# ><int><int><chr>
# >11 Lorem ipsum悲哀坐在amet,神圣的祈祷…
# >2 1 2 Duis eleifend ipsum vehicula nunc luctus前庭。…
# >3 1 3 Sed ut ex-quis nisi interdum ornare quis velit。…
# >4 1 4 Aliquam ut consectetur urna,et dignissim turpis。 Ut…
# >5 1 5 Fusce坐在aliquet lorem,id faucibus nisl。 空…
# '生成没有高度相似重复的新数据帧
元数据 <- LNT输出 @ 元
文章_df <- LNT输出 @ 条款
段落_df <- LNT输出 @ 段落
# 打印例如meta以查看数据如何更改 头部( 元数据 , n个 = 三 )
lnt_lookup(查找)( LNT输出 , 图案 = " 统计计算 " ) # > $`1`
# >空
# >
# > $`2`
# >无效
# >
# > $`3`
# >无效
# >
# > $`7`
# >空
# >
# > $`8`
# >空
# >
# > $`9`
# >[1]“统计计算”
# >
# > $`10`
# >空
LNT输出 @ 元 $ 统计数据 <- lnt_lookup(查找)( LNT输出 , 图案 = " 统计计算 " ) LNT输出 <- LNT输出 [ ! 愚蠢的( LNT输出 @ 元 $ 统计数据 , 是不完整的 ), ] LNT输出
# >“LNToutput”类的对象:
# >1篇文章
# >7段
# >#A台:1×11
# >ID Source_File报纸日期长度部分作者
# ><int><chr><chr><date><chr
# >1 9 SampleFile_20…Sunday Mi…2010-01-10 446 wo…新闻… 罗斯·I…
# >#…还有4个变量:版本<chr>、标题<chr]、,
# >#Graphic<lgl>,统计数据<named list>
# >#A台:1×2
# >ID文章
# ><int><chr>
# >19R是一种编程语言和自由软件环境,用于…
# >#A台:7×3
# >Art_ID Par_ID段落
# ><int><int><chr>
# >1 9 67 R是一种编程语言和自由软件环境…
# >2 9 68 R是一个GNU包。 R软件的源代码…
# >3 9 69 R是S编程语言的一个实现…
# >4 9 70 R由Ross Ihaka和Robert Gentleman在…
# >5 9 71 R及其库实现了多种统计…
# >6 9 72 R的另一个优点是静态图形,它可以…
# >#…还有一行
lnt_lookup(查找)( LNT输出 , 图案 = " 统计*? " ) # > $`9`
# >[1]“统计”“统计学家”“统计”
# >[5]“统计”、“统计”“静态”
表格(未列出(lnt_lookup( LNT输出 , 图案 = " 统计+? \\ b条 " ))) # >
# >静态统计统计学家
# > 1 5 1