利用语料库分析为博客中的意见检测研究提供信息

Osman,D.、Yearwood,J.和Vamplew,P。

    意见检测研究依赖于标记的文档来获取培训数据,可以通过基于文档来源的假设,也可以使用人工评估员对文档进行分类。近年来,博客已成为观点识别研究的来源(TREC Blog06)。本研究分析了不同语料库中的部分发言比例和使用的词汇,确定了在准备进行观点认同研究时有用的关键差异和相似性。对不同语料库的特征进行了详细的比较和讨论。特别是,有意见和无意见的Blog06文档显示出高度的相似性,这表明在文档级别评估的博客文档不能用作意见识别研究中的训练数据。
引用为:Osman,D.、Yearwood,J.和Vamplew,P.(2007年)。利用语料库分析研究博客中的观点检测.进行中。第六届澳大利亚数据挖掘大会(AusDM 2007),澳大利亚黄金海岸。CRPIT公司,70Christen,P.、Kennedy,P.J.、Li,J.、Kolyshkina,I.和Williams,G.J.,编辑ACS。65-75.
pdf格式(来自crpit.com)pdf格式(如果可用,则为本地)BibTeX公司 尾注 GS公司