鹦鹉螺会员享受无广告体验。立即加入.

“我文学是数据的反义词,”小说家斯蒂芬·马奇在《《洛杉矶时报》书评2012年10月。他引用了莎士比亚的最爱麦克白马奇继续问道:“光线变浓了,乌鸦对松木长出了翅膀。”“乌鸦和乌鸦有什么区别?什么都没有。光线变浓是什么意思?谁知道?”尽管这些词很管用,但它们作为纯粹的数据没有任何意义。

有很多人不同意他的观点。随着数字技术的兴起,人类直觉和解释在人文知识中的首要作用受到前所未有的挑战,科学方法正悄悄进入英语系。一些人文主义者急切地采用这些新工具,而其他人则发现它们存在问题。数字人文学科的迅速崛起引发了激烈的争论,争论的焦点是它对专业意味着什么,以及量化像人类直觉这样难以捉摸的东西的尝试是否只是被误导了。

鹦鹉螺会员享受无广告体验。登录立即加入.

今天,世界上大量的文学作品已经数字化,学者只需单击鼠标即可访问。对关键字搜索进行简单的修饰可以对这些数据产生迷人的见解。以谷歌的N-gram服务器为例,该服务器于2011年首次亮相。服务器允许您跟踪GoogleBooks数据库中单词或单词组合(“bigrams”、“trigrams”或“N-grams”)的频率。例如,你可以看到单词是如何改变意思的。直到1965年,“黑色”只是一种颜色,出现的频率与“红色”差不多,比“白色”少很多。但在1965年至1970年间,“黑人”一词突然有了新的含义,其频率跨越了“红色”和“白色”之间的鸿沟。N-gram频率图很诱人;看着它,你会觉得历史好像被拍到了x-y图上。

乌鸦和乌鸦有什么区别?没有什么。

鹦鹉螺会员享受无广告体验。登录立即加入.

内布拉斯加州大学(University of Nebraska)英语教授马修·乔克斯(Matthew Jockers)表示,对于数字人文学科而言,N-gram就像一种“网关药物”。真正强大的东西是主题建模。关键词搜索可以在书中找到一个“债券”,但它无法告诉你所讨论的债券是一种金融工具、一种化学结构还是一种约束囚犯的手段。所有这些含义都被人类语言的歧义所混淆,人类语言对我们来说很自然,但对计算机来说却是一个难以理解的代码。

主题建模不仅着眼于单词,还着眼于单词使用的上下文。它可以推断出每本书中讨论的主题,揭示出人类学者无法发现的文学体系中的模式。主题建模算法使我们能够像通过望远镜一样查看文学作品,扫描大片文本并搜索意义星座——“远距离阅读”,这是斯坦福大学的弗兰科·莫雷蒂(Franco Moretti)发明的一个术语。这种方法已经被广泛应用于各种主题,例如19世纪爱尔兰人对美国奴隶制的看法,美国早期社会中妇女和黑人的角色,甚至是在社交信息服务上发帖的青少年的态度。

主题建模克服了N-grams的一个基本限制:您不知道单词出现的上下文。哪些文档使用“黑色”表示颜色,哪些文档使用它表示种族?N克不能告诉你。因此,除非你已经知道,否则很难解释单词或短语频率的突然变化可能意味着什么。主题建模算法为文档中的每个单词推断出该单词所指的主题。在没有人为干预的情况下,它会自动判断“黑色”是指种族还是颜色。至少在理论上,它超越了单词来捕捉意思。

MacKenzie_SIDEBAR-图像

当今数字人文学科中占主导地位的主题建模算法是潜狄利克雷分配。该算法基于人类如何撰写文档的简化概率模型。根据该模型,您可以从随机选择文档的主题开始。例如,可能有50%关于基因组学,30%关于计算机,20%关于糖尿病。你文章中的主题及其百分比都是从一个称为“狄利克雷特”分布的概率分布中提取出来的,该分布旨在概括你所处时代的时代精神——你同龄人中所有作家写作的倾向,例如基因组学,而非炼金术。

要编写每个单词,您需要滚动一个加权骰子来决定该单词的主题。假设死亡出现在“基因组学”上。现在你打开这个话题,它只不过是一个附带概率的单词包。例如,在“基因组学”主题中,单词“DNA”的出现概率可能为1/50,单词“序列”的出现几率为1/100。你掷一个不同的骰子,一个骰子的重量刚好达到1/50的几率降落在“DNA”上,1/100的几率降落到“序列”上,等等。骰子告诉你写哪个单词,然后你继续写下一个单词。

你的文档的读者,无论是人类还是计算机,都不知道你的文章50%是关于基因组学的,30%是关于计算的——这些百分比是隐藏的,或者说是“潜在的”,读者必须倒退:尝试计算哪些主题和百分比最有可能产生文档中出现的单词。我们可以通过解开上面描述的写作模型来教计算机做到这一点。

考虑到大量文档的存档,计算机首先在第一个文档中查找倾向于出现在一起的单词,然后将其分组为“单词包”。然后对下一个文档执行相同的操作。它可能会再次出现一些分组,这将增加它对这些确实是主题的信心。其他分组可能不会再次出现,计算机对它们的信心将减弱。最终,它将大致了解主题是什么以及每个文档是关于什么的。经过数千次迭代后,该方法将收敛到一组良好的概率分布,并将能够生成与存档中的文档在统计上相似的文档集合。 

鹦鹉螺会员享受无广告体验。登录立即加入.

当应用于文本主体时,主题建模产生了属于一起的“袋”单词,例如“黑人奴隶dat plantation disoverrier mulatto……”或“物种全球气候二氧化碳水……”。然后,数字人文研究人员将解释这两个袋分别指代美国奴隶制和气候变化。每个包对应一个主题。

对于数字人文主义者来说,这种方法打开了一个充满可能性的世界。乔克斯说:“我们经常写下爱尔兰人对19世纪美国奴隶困境的同情。”。“以前,我们会坐在我的办公室交易簿上,说,‘这是一本关于奴隶制的爱尔兰书,没那么有趣。’”现在,他说,他可以告诉你250书籍是关于奴隶制的。主题建模还可以挖掘新的主题和主题。Jockers通过将主题建模应用于19世纪的英国小说,揭示了19世纪“下午茶”仪式的稳步兴起,这一练习引发了诸如“下午午餐-上午客厅课程-今天的访客茶……”之类的主题小组。有时,计算机甚至比人类用户表现得更好。当麻省理工学院的研究生卡蒂克·迪纳卡(Karthik Dinakar)使用主题建模研究青少年的社交媒体帖子时,计算机正确地解码了一条帖子,称“她强迫我放弃商品”是关于性交的,这是在印度长大的迪纳卡错过的一点美国俚语。

主题建模算法使我们能够像通过望远镜一样查看文学作品,扫描大片文本并搜索意义星座。

主题建模算法也可以在主题之间发现意外的联系。例如,加州大学欧文分校的历史学家莎伦·布洛克(Sharon Block)发现,“女人”和“黑人”这两个词主要出现在宾夕法尼亚公报布洛克的发现非常具体地证明了黑人和女性的边缘化:对于这家以商业为主的报纸(想想《华尔街日报》(减去两个世纪),黑人和妇女只作为财产存在。

鹦鹉螺会员享受无广告体验。登录立即加入.

通过在人文学科和计算机科学之间架起一座桥梁,数字人文学科正在改变每一个学科。对于受过是/否、真/假二元世界训练的计算机科学家来说,这座桥通向一个模糊的新世界,有许多灰色阴影——一个令人迷茫但令人兴奋的地方。相比之下,人文主义者“数百年来都知道没有正确的答案,”普林斯顿大学的计算机科学家、潜在Dirichlet分配的共同发明者David Blei表示,他们对此感到满意。潜在Diricwlet分配是目前数字人文学科中使用的主要主题建模算法。“相反,他们在寻找视角。”

在桥梁的另一边,主题建模将定量论据引入人文学科,这在许多人选择研究的领域是一件大事,因为它是定量。当Block主题模型从历史期刊上摘录50万篇摘要来追踪女性历史的演变时,她的论文的读者无法越过这些图表。“一位评论家说,这篇文章显然是由一位不了解我们领域的计算机科学家写的,”她说。接受她的论文的期刊试图将她限制在最多三张表格或图表。“我问他们,你读了吗?没有他们的文章,”她说。

对于人文学科来说,也是相对较新的东西,长期以来一直是科学方法不可或缺的要素:可证伪性。乔克认为,有一天人文主义者会在统计上检验并有时伪造他们的假设。他自己已经这样做了。在他自己的书中宏观分析Jockers使用主题模型认为,关注政治或宗教主题的作家比其他作家更可能使用假名。乔克斯和康奈尔大学的计算机科学家大卫·米姆诺(David Mimno)将这一假设进行了统计测试,多次运行主题模型,看看这种差异是否可以归因于偶然变化。尽管乔克的许多其他假设都成立,但这一个没有成立——事实证明,两篇离题的文章歪曲了结果。“烟枪的味道很快就消失了,”乔克写道。

对于受过是/否、真/假二元世界训练的计算机科学家来说,这座桥通向一个模糊的新世界,有许多灰色阴影。

鹦鹉螺会员享受无广告体验。登录立即加入.

也许令人惊讶的是,Marche这位数字人文学科的怀疑论者指出了主题建模的这一方面,以示赞扬。“在人文学科中有实际的可证伪问题……这太棒了,”他说。你几乎可以听到“但是”的声音。他说:“精神很好,但他们还没有准备好应对棘手的问题。”。“关于济慈的《夜莺颂》,你能问的一个可证伪的问题是什么?”

这也许是数字人文批评中最常听到的一句话:牛肉在哪里?伟大的见解在哪里?

支持者认为数字人文科学产生了新的见解,但它所产生的意义星座并不是人文主义者所习惯的见解。例如,伊利诺伊大学英语教授泰德·安德伍德(Ted Underwood)在1700年至1900年间创作了4275本主题书,他注意到文学的变化比我们想象的要缓慢得多。

例如,在那个时期的头一百年里,“旧”盎格鲁-撒克逊语的使用比例下降了。但在随后的一个世纪里,文学发生了三次分化。在诗歌中,“旧”词的使用显著增加。在小说中,“旧”字也变得更加流行,但不那么引人注目。然而,在非小说类作品中,“旧”词的使用频率与上个世纪保持不变。这些数据反映了一系列复杂的历史过程——小说和诗歌的出现,它们自觉地打破了经典主题,转而关注普通人的经历。这种变化通常被归因于浪漫主义学派,但数据显示,这种变化持续了更长的时间,并在浪漫主义者被认为已经过去很久之后继续存在。安德伍德说:“我们的词汇是所有的学校、运动、时期和文化转折。”。“如果你有一种持续一个世纪或更长时间的趋势,那真的很难应对。”

鹦鹉螺会员享受无广告体验。登录立即加入.

数字人文技术可以帮助我们看到文学或其他领域的渐进变化。人类很难理解人类生命周期内或更长时间内发生的变化。如果安德伍德的假设是正确的,我们需要用电脑来填补我们的盲点。主题建模不会颠覆或取代我们以前的观察方式;它增强了它们。加州大学洛杉矶分校信息研究教授Johanna Drucker说:“这不是人类阅读的替代品,而是我们能力的假肢延伸。”。

当然,要习惯假肢需要练习。传统的人文学科教会我们批判性地阅读,让我们明白意义往往隐藏在表面之下。现在,一个新的挑战出现了:如何将我们擅长的批判性阅读与计算机擅长的远程阅读结合起来。马修·K·戈尔德(Matthew K.Gold)观察到,我们已经开始通过Kindle、iPad和其他设备舒适地阅读书籍,纽约城市大学研究生中心的数字人文学科教授。“我们愿意让他们帮助我们阅读,并帮助我们进行批判性解读吗?”德鲁克认为我们会这样做。她预测,最终,数字人文学科“将成为普通读写能力的一部分。”

那么,电脑能测出莎士比亚的“粗木”吗?文学的意义是只存在于文字中,还是通过阅读文字在人脑中创造出来的?艾萨克·阿西莫夫的话来自I机器人回想起来:“人们说‘这和你脸上的鼻子一样普通。’但是,除非有人向你举着镜子,否则你能看到你脸上有多少鼻子?”

鹦鹉螺会员享受无广告体验。登录立即加入.

达娜·麦肯齐(Dana Mackenzie)是加利福尼亚州圣克鲁斯(Santa Cruz)的自由数学和科学作家。他最近的一本书是零言宇宙:通过方程式讲述的数学故事普林斯顿大学出版社于2012年出版。 

闭路电视 享受无限量的Nautilus文章,无广告,每月仅需4.92美元。 立即加入

! 没有与该电子邮件地址关联的活动订阅。

加入继续阅读。

通过成为Nautilus会员,可以访问无广告的无限文章,包括这篇文章。享受奖励内容、独家产品和活动等,同时支持独立新闻。

! 没有与该电子邮件地址关联的活动订阅。

这是你最后一篇免费文章。

不要限制你的好奇心。通过成为Nautilus会员,可以访问无限制的无广告故事,并支持独立新闻。