自主学习代理

在职学习-部署后的持续学习

交互式人工智能和终身学习和持续学习 自主学习：自我倡导的开放世界持续学习和适应

第二版："终身机器学习”作者：Z.Chen和B.Liu，Morgan&Claypool，2018年8月（2016年第1版）

增加了三个新章节，更新和/或重组了其他章节。
其中一章专门用于开放世界学习
在现实世界的开放环境中，任何无法在部署中学习（例如聊天和驾驶）的AI系统（例如聊天机器人和自动驾驶汽车）都不是真正智能的。

持续学习对话系统-模型部署后的在职学习.教程@IJCAI-2021年8月21日至26日，加拿大蒙特利尔。
模型部署后的持续交互式学习2021年6月18日，在艾伦人工智能研究所（AI2）受邀演讲。
持续学习对话系统-模型部署后的学习2021年5月7日，在ICLR-21神经对话人工智能研讨会上受邀演讲。
开放世界中的在职学习2020年9月11日，受邀在南加州大学信息科学研究所演讲。
开放世界中的在职学习。受邀演讲@ICML-2020持续学习研讨会，2020年7月17日。
终身机器学习教程标题：终身机器学习和计算机阅读网络，KDD-2016，2016年8月13日至17日，美国旧金山。
终身机器学习教程2015年7月25日至31日，IJCAI-2015，阿根廷布宜诺斯艾利斯。

自主学习动机：据了解，约70%我们人类的知识从“在职”学习。只有大约10%是通过正式学习教育，剩下的20%是通过观察他人学习的（模仿）。自主人工智能系统必须具备这一能力机器学习算法必须能够在工作中自主学习或在工作时模型部署后。就像现实世界一样太复杂和不断变化，不可能学到一切通过使用手动标记的数据进行离线培训。自主学习agent必须在现实世界中自己探索和学习，这是开放且不断变化-充满未知。AI代理必须能够通过它与人类、其他代理和现实环境的交互。它不应该使 封闭世界假设再。以下是两个令人鼓舞的例子：

酒店中的问候机器人：在任何时候，机器人学会了识别所有现有的酒店客人。当它看到现有的客人，它可以叫他/她名字并聊天（例如，你好，约翰，你今天怎么样？）。它还必须检测到任何新的访客以前从未见过。当看到一个新客人时，它可以打招呼，要求他/她的名字（例如，“欢迎光临我们酒店。先生，你叫什么名字？”）照片，并学会识别客人。下次当它看到又是新客人，它可以用他/她的名字称呼他/她并聊天就像一个老朋友。
自动驾驶汽车：我在自动驾驶汽车方面工作了一年。曾经我们在进行路试时，汽车突然停了下来，不肯动。道路完全畅通，我们看不到任何问题。在实验室调试后发现传感器检测到的道路。这让我想：为什么汽车不能告诉我们自然语言有什么问题？为什么我们不能告诉汽车用自然语言也可以吗？我们的指示提供了监督信息，使汽车能够学习，以便在未来当类似的情况发生时，它可以正确地表现。

自主学习：就像人类在职学习一样，它学习模型部署后或模型应用期间的学习（或测试）-在一个好的模型之后已在应用程序中构建和部署。在经典的机器学习中，一旦建立了模型部署在应用程序中。在应用过程中，模型保持固定或不变。自主学习（或在职学习）调查模型部署后的持续学习，包括以下步骤

不断发现新任务以供代理本身学习。这叫做开放世界学习或分发外检测.
通过与人类、其他代理和环境的交互，通过代理自己的积极努力收集“免费”培训数据。
在不中断应用程序的情况下，逐步学习新任务，从而变得越来越有知识。这是持续的学习。

在这里，我们强调与人类和环境的互动，以发现新的任务，并自然地标记训练数据（参见上面的两个激励示例）。

交互式人工智能：这也称为交互式自我监督第二步是在职的关键学习，即如何找到隐藏的类并获得标记的培训数据。这必须通过系统本身启动的操作来完成不会中断应用程序。也就是说，它必须积极学习其自身基于其先验知识，通过观察和与环境和人类获得显性或隐性反馈服务作为监督。与人类的互动应该通过自然语言对话。自治智能代理是不可能的仅仅依靠大量手动标记的训练数据被动学习永远离线。

出版物

教科书：陈志远和刘冰。终身机器学习摩根克莱普尔出版社，2018年（第2版），2016年（第1版）。

刘冰（Bing Liu）、萨希斯努·马祖姆德（Sahisnu Mazumder）、埃里克·罗伯逊（Eric Robertson）和斯科特·格里格斯比（Scott Grigsby）。人工智能自主：自我启动、适应和持续学习.arXiv:2203.08994[cs.AI]2022年3月17日。
Bing Liu和Sahisnu Mazumder。终身和持续学习对话系统：对话中的学习.显示在AAAI-2021会议记录. 2021.
Sahisnu Mazumder、Bing Liu、Shuai Wang和Sepideh Esmaeilpour。使用交互式连续学习构建面向任务的聊天机器人的独立于应用程序的方法.出现在NeurIPS-2020人在回路对话系统研讨会（HLDS-2020）. 2020.
Sahisnu Mazumder、Bing Liu、Nianzu Ma、Shuai Wang。验证对话中持续互动的事实知识学习.出现在NeurIPS-2020人与机器在环评估和学习策略研讨会（HAMLETS-2020）. 2020.
刘冰冰和处和美。基于规则的对话系统中的终身知识学习.arXiv:2011.09811[cs.AI]，2020年。
刘兵。在职学习：在线终身和持续学习.第34届AAAI人工智能会议记录（AAAI-2020）2020年2月7日至12日，纽约市。（这项工作是我在北京大学休假期间完成的）。
Sahisnu Mazumder、Bing Liu、ShuaiWang、Nianzu Ma。对话中事实知识的终身互动学习.显示在话语与对话特别利益小组年度会议记录（SIGDIAL-2019）2019年9月11日至13日，瑞典斯德哥尔摩。
胡旭、刘冰、雷书和P.Yu。开放世界学习及其在产品分类中的应用.显示在网络会议记录（原名WWW会议），旧金山，2019年5月13日至17日。
雷书，胡旭，刘冰。开放世界分类中的无形类发现.arXiv:1801.05609[cs.LG], 2018.
雷书，胡旭，刘冰。DOC：文本文档的深度开放分类.2017年自然语言处理实证方法会议论文集（EMNLP-2017，口头陈述短文）2017年9月7日至11日，丹麦哥本哈根。
格利菲、王帅和刘冰。2016累积学习，变得更加知识化.SIGKDD知识发现和数据挖掘国际会议论文集（KDD-2016）8月13日至17日，美国旧金山。
格利菲和刘冰。2016打破文本分类中的封闭世界假设.NAACL-HLT会议记录20166月12-17日，美国圣地亚哥。

创建于2020年7月15日刘冰（Bing Liu）.