可搜索语音对您有何影响-Nautilus

W公司我们将开始录制并自动转录我们所说的大部分内容。大声说出的单词不会消失在记忆中，而是会变成文本，成为一个可供引用、搜索和挖掘的记录。这将通过我们意愿和允许的标准组合来实现。它会发生，因为它可以。这将比我们想象的更快发生。

这将使不可思议的事情成为可能。想想你通过电子邮件搜索的所有原因。突然间，你自己的演讲也会以同样的方式出现。“让我看看去年1月之前与迈克尔的所有对话……妈妈推荐的那家餐厅的地址是什么？……我第一次提到罗布的现世妻子是什么时候？……又是谁参加了那次会议？”罗宾·汉森是乔治·梅森大学的经济学家，也是即将出版的一本关于进化心理学的书的合著者，他推测，我们可能都会养成在演讲中添加关键词的习惯，以帮助我们稍后查找。或者，当你谈话时，软件代理可以搜索你的旧对话以获取相关材料。细节会在你需要的时候出现。

鹦鹉螺会员享受无广告体验。登录或立即加入.

大声说出的大部分内容将被发布并成为网络的一部分。一个深不可测的专业知识、观点、智慧和文化的群体——现在已经消失了——将像今天的任何文章或评论帖子一样容易获得。你可以随时收听航空公司飞行员、理发店和研究生院的公牛比赛。你可以搜索每一个提到你公司名字的地方。你可以阅读父亲对儿子讲的故事，或者同事对同事的解释。人们会因为善于交谈而成为网络名人。该记录将由广告商、律师和学者挖掘。可供筛选和品尝的单词数量会激增，这仅仅是因为人们说的比写的多。

在电脑的帮助下，你可以追踪演讲者之间的引号，或者突出显示你最常用的短语，或者找到联合国你比一般人说得更频繁的常用短语，看看还有谁和你说话的方式一样。你可以检测到其他人何时在音乐会或电视节目中录制了与你相同的内容，并自动整理你的评论。

鹦鹉螺会员享受无广告体验。登录或立即加入.

如果你今天听了全人类的记录语料库，你会觉得我们是一个奇怪的物种。

比尔·希利特（Bill Schilit）是一位早期从事谷歌图书语料库挖掘工作的谷歌人，他建议你甚至可以使用引语来寻找科学主题之间的联系。他说：“在科学领域，你会遇到这样一个问题，即同一事物被不同的人称为不同的名称；但引文往往会在学科之间架起一座命名桥梁。”。他描述了一个项目，谷歌在该项目中查看了不同领域研究人员使用的报价。在每一份文件中，他们会提取出引用语之前的句子——引述它的句子——然后比较这两种描述；这样他们就能知道报价是什么代表：这对不同的作者意味着什么，不同学科的作者称之为同一件事。

但这一切会帮助还是伤害我们？在他的书中浅薄尼古拉斯·卡尔（Nicholas Carr）认为，增强我们大脑的新技术实际上可能会让我们的大脑变得更糟。我们越是依赖工具，我们对自己大脑的依赖就越少。也就是说，大脑的某些部分似乎表现得像肌肉：你要么使用它（它生长），要么失去它。卡尔引用了一项著名的研究，该研究是关于伦敦出租车司机学习“知识”的，这是一项对街道图和兴趣点的严格测试，如果司机要获得正式的出租车执照，他们必须通过这项测试。当出租车司机摄取更多关于伦敦街道的信息时，他们大脑中负责空间信息的部分逐渐增多。更重要的是，这些增长的部分占据了其他灰质正式占据的空间。

矛盾的是，长期记忆似乎并不是这样工作的；它不会“填满”。因此，通过将更多的内存需求转移到Record上，我们可能不会为其他更重要的思考腾出空间。我们可能只是在剥夺我们大脑中有用的物质。卡尔写道：“当一个人无法在长期记忆中巩固一个事实、一个想法或一段经历时，他并没有“释放”大脑中的空间用于其他功能……当我们开始使用网络代替个人记忆时，绕过巩固的内部过程，我们就有可能清空大脑中的财富。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

因此，担忧是双重的：如果你停止了大脑中回忆言语或名字的部分，或者当你在足球比赛后的那一天用手指对他说话时，大脑中被称赞为“book-that-Brian”的部分，那么你的大脑可能会萎缩。更有害的是，当你越来越依赖记录作为事件和想法的存储库时，你会更少地决定将它们用于自己的长期记忆。这样你的大脑就会变得不那么有趣了。

如果这很可怕，还可以考虑一下生活在一个一切都有记录的社会里会是什么样子。英国科幻系列有一集黑色镜子背景是一个谷歌眼镜风格的语音和视频录制无处不在的世界。这是一种地狱。在机场安检处，特工要求你高速回放过去的24小时，这样他们可以清除所有与你互动的面孔。在聚会上，人们不再进行新的对话，而是仔细研究他们的“重做”，并要求见他们的朋友在孤独的时刻，人们不再像往常一样使用自己头脑中有缺陷、模糊、非线性的回忆装置来排练记忆，而是重播视频，放大他们第一次错过的部分。他们似乎生活在过去太多，以至于被它困住了。过去似乎被过于完美、过于公开的记录扭曲和折射了。在这一集最生动的黑暗时刻，我们看到一对情侣激情地做爱，但却意识到，伟大的性爱是在“重做”中发生的，他们都在植入式眼罩上观看；在现实生活中，他们无爱地躺在一张冷床上，两个吸毒的僵尸。

在这些天堂和地狱的景象之间，有一个可能的事实：当像《记录》这样的东西出现时，它不会改变我们生活和爱的基本方式。它不会让我们的大脑变得混乱，也不会让我们成为超人。我们将继续做我们一贯的无聊的自己，有时欺骗，有时天真。是的，我们将有新的能力-但我们希望将比我们所能做的更缓慢地改变。

鹦鹉螺会员享受无广告体验。登录或立即加入.

S公司peech识别一直是人工智能研究的圣杯。1969年，贝尔实验室的工程师J.R.皮尔斯写道：“这种吸引力可能类似于将水转化为汽油、从海洋中提取黄金、治疗癌症或登月计划的吸引力。”。他认为，我们攻克并资助这一问题，并不是因为它易于处理甚至有用，而是因为与计算机对话时会有一些精彩的东西。这就像科幻小说。这台机器似乎还活着。

事实上，语音识别问题似乎包含了人类理解的整个问题。毕竟，为了解析一个模棱两可的声音，我们不仅要学习语言知识，还要学习世界知识，这使它更具吸引力。语音识别的进步将更广泛地代表人工智能的进步。因此，它成为了一个基准和奖项。

最早的工作系统局限于简单的词汇表，数字“0”到“9”一次只能说一个，通过寻找声波中的特定特征来区分单词。正如你所料，当词汇量增加时，不同单词的声波之间的区别变得更加微妙。这一方法失败了。研究人员意识到他们需要更健壮的东西。

鹦鹉螺会员享受无广告体验。登录或立即加入.

他们在20世纪70年代得出的见解是，将言语同时建模为多个层次的序列。也就是说，在每一刻，他们都会想象自己的识别系统在声音级别、音节级别、单词级别、短语级别等方面处于某种状态。它的工作是预测每个级别的下一个状态。为此，它使用了大量的概率表，从本质上说，“如果你看到状态A，那么状态B在0.1%的时间内发生，状态C在30%的时间内出现，状态D在11%的时间内产生”，依此类推。这些表格是通过对系统进行标记数据（手工录制的记录，已知是正确的）的培训而制作的。诀窍是，如果由于环境嘈杂，或者说话人的声音被扭曲，单词级的预测就模棱两可，那么其他级别的预测可以用来排除可能性，并确定正确的选择。这是一个巨大的进步。这就像从试图一次解决一条线索的纵横填字谜到在网格上玩：每条线索都提供了关于其他线索的提示，从而简化和减少了谜题。

这种洞察力，再加上训练数据和计算能力的指数级增长，掩盖了过去四十年语音识别的大部分进展。正是因为这样，我们才有了可行但容易出错的听写软件，比如Siri的第一个版本Dragon Natural Speaking，以及那些让您说出自己选择的自动电话树（“账单查询”或“日程维护”）。但在2010年左右，进展似乎可能总是增量-就像语音识别中没有什么好主意一样。田地似乎已趋于平稳。然后，深入学习出现了。

人们将继续关注自己的外表而不是声音。他们更可能停下来自拍，而不是独白。

Geoffrey Hinton和他的合作者当时在多伦多大学，现在在谷歌，正在试验深层神经网络。神经网络是一种工作方式有点像大脑的计算机程序：它们由几层类似神经元的细胞组成，这些细胞接收其他神经元的输入，计算这些输入的一些简单函数（如总和或平均值），然后根据该函数的值激发或不激发，将激活传播到网络中更深的其他神经元。通过将输入输入到最底层，并查看最顶层的输出来训练网络；如果输出不是你期望的，你可以使用一个简单的学习算法来调整神经元之间的连接强度（“突触”），直到你得到你想要的。冲洗并重复数十亿个示例，您的网络可能会对手头问题的重要特征进行编码，并作为识别器工作良好。

鹦鹉螺会员享受无广告体验。登录或立即加入.

大多数神经网络都是无状态的，在某种意义上，给定意义上的输入的输出仅取决于该输入。这限制了它们对语音建模的有效性。但是，在辛顿实验室工作的亚历克斯·格雷夫斯（Alex Graves）想知道，如果你使用神经网络（称为“递归神经网络”，其输出可能取决于输入序列）解决语音识别问题，会发生什么。它们非常有效。格雷夫斯（Graves）的RNN——与那些长期以来一直是该领域支柱的多层次预测系统相比，它所提供的语言信息少得多——很快就匹配并超越了旧方法的性能。

当我和辛顿交谈，问他这样简单的程序如何能如此有效地识别语音时，他说，他想起了莱昂纳多·达·芬奇（Leonardo da Vinci）画的一些他喜欢的草图，这些草图描绘了湍急的水流经过一个水闸的情景。水流湍急、起泡、旋转，形成漩涡，一片混乱。但它的行为，Hinton说，“这一切都是用极其简单的Navier-Stokes方程来描述的。”一些简单的规则产生了所有的复杂性。他认为，当神经网络学会识别语音时，也会发生同样的事情。辛顿说：“你不需要在系统中手工设计许多复杂的语音现象。”。

在谷歌，辛顿和他的同事们正在进行计算机科学的基础研究，正如他所说的那样，研究“有效学习算法的空间”。他们的发现将有大量的应用。但语音仍然是首要任务，不仅仅因为它是他们算法的良好证明。辛顿告诉我：“演讲的关键在于，它是与事物互动的最自然的方式。”

谷歌、苹果、亚马逊和微软今天对记录和转录我们所说的一切都不感兴趣。他们对语音接口感兴趣。例如，Amazon Echo坐着等待您发出命令；对于播放音乐或查找一些琐事来说，交谈比打字更容易，尤其是当你可以在房间的任何地方进行时。随着计算机变得越来越小，移动到我们的手腕或鼻梁上，也许有一天会进入我们的耳朵，键盘不再实用了，但我们仍然需要一种方法来告诉计算机该做什么。为什么不直接告诉它呢？为什么不直接说，“好的，谷歌，指引我回家？”

鹦鹉螺会员享受无广告体验。登录或立即加入.

这就是发生的方式。语音识别技术的发展既受到人工智能基础研究的推动，因为这是一个模型问题，也受到谷歌及其同类公司为其新设备创建更好语音接口的感知需求的推动。不管是有意还是无意，这项技术很快就会达到一个临界点，即记者马特·汤普森所说的“演讲”，即“录制演讲的默认期望是它几乎在瞬间就能被搜索和阅读”。那么，唯一的问题就是我们决定录制什么。

你和我之间
詹姆斯·萨默斯

尼克慢条斯理地输入她的流代码，几乎是，好像每个角色本身就是一个奖品。有一分钟，他目不转睛地盯着屏幕，一半被代码迷住，一半害怕。当好奇战胜了谨慎，他按下了回车键。

萨姆的声音立刻传开了。她在和谁说话？

他调整了一下耳机。它们是一对旧的，但仍然是全息的，具有三维声学效果。他们给了他的头部一种以“或”为中心的感觉在里面-声音的点源：在这个例子中，是山姆的麦克风，它一定是一个植入物。尼克从她的脑海里听到了这个世界。他能听到她的呼吸声；他能听到元音在她舌头上的起伏。

通常，他对实时流毫无兴趣。他认为，就专业政策而言，“实时”太慢了。他没有耐心滔滔不绝地讲话，对未经编辑的演讲者的错误开始和充满停顿。

档案馆的效率更高。文本可搜索、可摘录。文本可以被大量浏览、扫描、解析、处理和模式匹配，无需重绕即可仔细检查。对尼克来说，阅读胜过倾听。

几乎每次都是这样。

山姆到底在做什么？这才是真正的讽刺。这不是同一个女孩吗？她对自己的名字大发牢骚-亲密话语的完整性? 谁如此明显地藐视他的工作？

尼克认为，没有比皈依者更狂热的人了。萨姆现在拥有一个设备，一个植入她的上颚的微型麦克风，可以自动记录她所说的一切，以及她周围的一切，并通过无线电将其发送给一群服务器，在那里记录、转录并流式发送给订阅者。谁有权访问取决于所有参与者演讲者的隐私设置的内容。

山姆的设置毫无意义。她关闭了最流行的选项，该选项将她的匿名加密流与经批准的机器人共享——字典、百科全书、地图应用程序、翻译服务、紧急调度员等等。这就是为什么大多数人首先登上唱片的原因。她关掉了抄本，离开了档案馆。但是，她已经将她的个人直播流提供给了任何有她的流代码的人。也许她有自己的脱口秀。多么像她：完全暴露在她信任的少数人面前，完全拒绝其他人。

再次听到她的声音是超现实的。萨姆是个可爱的演讲者；尼克无法否认这一点。即使是现在，她听起来也很不自觉。大多数亲说客在职业上都不真诚。萨姆听起来像她自己。

这使他感到不安。尼克从未见过卖萨姆流码给他的人。他在任务板上发现了他，在江湖郎中和垃圾邮件制造者的掩护下。还有跟踪者。“广告黑客需要streamcode来实现高度目标化、自助式参数化的操作报告，”Nick发布了这一消息。“愿意付款。”

至少第一部分是真的——他是广告黑客。非常好的一个。客户要求尼克，因为他以深度著称。没有像AI商店那样的厨师关键词分析。尼克会进行一次他妈的移情跳水：考虑到一群，比如说，22岁的虚拟现实恶魔，他会花几个星期仔细阅读他们存档的演讲。他不仅会接受他们说的话，还会接受他们的说话方式。通过阅读剧本，尼克可以告诉你谁迷恋上了谁，谁在欺骗谁。他了解社会传染病，他可以从语言抽搐传播的方式中退出一个等级制度。他可以得到软件仍然不能得到的东西：这些孩子需要.它们是什么害怕。高管们对他的服务进行了猛烈抨击。

现在他花钱买了山姆的流媒体代码。为什么？也许是封闭和好奇的混合，也许是怀旧和匮乏的混合。只是为了记住。

她现在正在争论。你可以看出她被激怒了；她把熟悉的轻快语调从声音中消失了。她从来没有像现在这样和他在一起。当然，这也是问题的一部分。有时他会对此暗笑：我以阅读别人的言论为生，但显然我不能和我自己的女朋友说话。

她会告诉他，他不是一个很健谈的人。她会说：“对话不是说有趣的事或吸收别人说的话。不是静静地坐在那里点头。当然也不是审查我说的每一件小事。这是关于成为一个能从一个人喜欢做的人身上引出话题的人。”在这一点上，尼克显然失败了。萨姆告诉他，她不喜欢她在他身边的声音，也不喜欢她自己说的话。

她说：“我将成为什么样的人，我将看到自己的部分。”。“这在很大程度上取决于谁在听。”

Y（Y）如果你今天听了全人类的记录语料库，你会觉得我们是一个奇怪的物种。你会发现那里有所有喋喋不休的电台主持人，还有许多配音演员，你会发现记者们在与他们的主题对话，飞行员们在与控制者对话，而这些都只是“为了质量而录制的”客户服务电话中最微小的一点你无法理解人类生活的真实面貌，也无法理解我们实际上在谈论什么。

鹦鹉螺会员享受无广告体验。登录或立即加入.

梅根·罗宾斯（Megan Robbins）是加州大学河滨分校（University of California，Riverside）的心理学助理教授，她比世界上几乎任何人都能经常听到谈话。她的研究依赖于一种称为EAR（电子激活记录器）的设备，该设备旨在“在自然环境中采样行为”。研究对象同意整天佩戴它。它以每小时五次的周期性间隔打开，并在大约30秒的时间内记录佩戴者所说所听的一切。在交给罗宾斯分析之前，受试者可以查看并删除任何他们喜欢的剪辑。

有了EAR，罗宾斯可以成为日常生活的科学家。例如，她可以听夫妻如何称呼自己：他们说“她和我”还是“我们”？她可以听人们笑，并试图找出原因。一项研究发现，“绝大多数笑都不是在有幽默刺激的情况下发生的。”总的来说，笑是社交的，用来表示一些事情，比如“我认为你的地位比我高”或“我想和你交往”

罗宾斯目前正在使用EAR研究夫妇如何应对癌症诊断。他们在谈论什么？他们谈论癌症吗？他们笑得更少吗？她说：“你永远不会想到进行一项关于乳腺癌患者笑的频率的重点研究。”。但随着数小时的笔录和磁带，一个关于我们基本行为的问题世界打开了。事实证明，癌症患者大约有7%的片段在笑，与大学生相比。他们谈论癌症的时间比例相同。罗宾斯解释说，即使你被诊断出患有癌症，日常生活似乎也很稳定。“人们很难做到不继续他们正常的日常活动。”

她解释说，人们平均会说很多话，大约占他们清醒生活的40%。她的本科生研究助理们来到她的实验室，兴奋地偷听人们的谈话，“有时会心碎地发现，日常生活有时很平凡。它包括看电视、谈论晚餐要吃什么。以及谈论电视。”罗宾斯说，她对普通人看电视的次数感到惊讶。“这是一个在心理上几乎完全被忽视的话题，但却出现在EAR研究中……这是仅次于癌症应对夫妇的话题。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

总的来说，人们不会谈论EAR本身。“自我报告表明对他们的生活没有影响。他们通常忘记自己戴着它。”事实上，人们可以追踪到抄本中提到的EAR。只需两个半小时，它们就会显著下降。“正常的生活在继续，”罗宾斯说。

当我们看到录制的想法时，我们可能会想象人们将无法进行正常的对话，因为他们将忙于表演。但是，任何一个曾经录制过别人讲话的人都知道，对自己讲话进行自我意识监控的精神成本太高，无法持续很长时间。罗宾斯的数据支持了一种直觉，即在一段时间后，你会恢复正常。

汉森还认为，一旦无处不在的语音转录到来，“normal”将成为关键词汇。他不相信这会像一些人认为的那样改变世界。他说：“当你看到我们的世界与1000年前有多么不同时，真的很难对此感到兴奋。”。

他解释说，1000年前几乎没有隐私。生活区很密集。房间很小，没有锁。没有走廊。其他人可能会无意中听到你做爱。当你旅行的时候，你几乎从来没有自己去过；你成群结队地四处游荡。大多数人都住在小镇上，在那里，大多数人都认识其他人，都在闲聊。从那时到现在，我们的生活方式差异很大。但我们还是适应了。他说：“相比之下，我想我们看到的变化很小。”。人们总是能够区分亲密的朋友和不那么亲密的朋友。他们总是能够决定信任谁，并且总是找到沟通亲密关系的方法。他们总是能够撒谎。

鹦鹉螺会员享受无广告体验。登录或立即加入.

他说：“即使是我们的觅食祖先也很有能力不告诉彼此一些事情。”。“牧羊人应该分享食物。但他们隐藏了很多食物。他们在回营地的路上吃了很多，在营地藏了一些，他们对给谁吃的食物有选择性。”即使是在30人的队伍中，普通人一生最多也会遇到6个其他队伍，每个人在晚上都呆在同一个营地里，即使在这样的环境中，我们的祖先也能够回避，并根据自己的优势调整他们的语言和手势。

拥有一个记录只会给我们一个新的维度，在这个维度上映射我们一直拥有的能力。不断被记录下来的人会适应这一事实，因为他们会成为了解笔录内容的专家。他们会像父母一样围着孩子说话。他们将成为似是而非的否认大师。他们会挖苦人，或者做鬼脸或咧嘴笑，或者把头往后仰或傻笑，或者直视对方，不言而喻。

这听起来很累人，但当然，我们已经很快适应了私人、小团体和公共对话的范围——只是去工作场所。或者去参加聚会。我们不断地询问和回答关于观众的微妙问题，并根据答案调整我们的演讲。（杰克在听吗？杰克的妻子在听吗？）

汉森辩称：“这不可能意味着我们所说的一切现在都是公开的。”。“有一个层我们所说的是公开的……但我们总是同时在几个层面上进行讨论。”

鹦鹉螺会员享受无广告体验。登录或立即加入.

W公司每当我们考虑一项新技术时，我们往往会着迷和固执，好像现在必须从这个角度来理解世界的每一个方面。我们是一个疑病症社会。但事实是，我们头脑中运行的硬件几乎没有变化，而软件只是在几代人的过程中缓慢变化。

这张唱片不会把我们的脑子搞糊涂。是的，我们可能会花费更少的精力来谈论我们的长期记忆。抄本将使我们不必追踪谈话中出现的某些细节。但我们不会因此失去能力追踪细节，就像我们发明日历时没有失去计划能力，也没有失去发明钢笔时记忆的能力一样。我们将以其他方式丰富我们的长期记忆（例如，通过阅读大量新近通过转录获得的材料）。我们的大脑适应了写作、图书馆和网络。他们将适应记录。无论如何，人们将继续不太关心他们的声音，而更关心他们的外表。他们更可能停下来自拍，而不是独白。

生活也不像黑色镜子每一个场景和台词都围绕着最新的技术展开。当然，唱片可能会增强我们的自恋、怀旧、急躁和偏执。它甚至可能会使我们集体腐败或麻木。但即使这样的事情以前也发生过，无论是智能手机、电视、镜子还是酒精，总之，我们最终还是成功了。

鹦鹉螺会员享受无广告体验。登录或立即加入.

詹姆斯·萨默斯（James Somers）是一名驻纽约的程序员和作家天才。

获取Nautilus时事通讯

尖端科学，由最聪明的在世思想家揭开。

可搜索语音对您有何影响

获取Nautilus时事通讯

聊天机器人可以进行有意义的对话吗？

人工智能如何拯救斑马

大型语言模型学习意外技能的速度有多快？

非法渔船如何藏匿

如何保证无人驾驶汽车的安全

可搜索语音对您有何影响

获取Nautilus时事通讯

聊天机器人可以进行有意义的对话吗？

人工智能如何拯救斑马

大型语言模型学习意外技能的速度有多快？

非法渔船如何藏匿

如何保证无人驾驶汽车的安全

! 没有与该电子邮件地址关联的活动订阅。

已经是会员了吗？ 登录

加入继续阅读。

! 没有与该电子邮件地址关联的活动订阅。

已经是会员了吗？ 登录

这是你最后一篇免费文章。

已经是会员了吗？登录

已经是会员了吗？登录