Dialog policy optimization for low resource setting using Self-play and Reward based Sampling

使用Self-play和Reward-based Sampling优化低资源设置的对话策略

选集ID：: 2020.批准-1.21
体积：: 第34届亚太语言、信息和计算会议记录
月份：: 十月
年份：: 2020
地址：: 越南河内
编辑：: 民乐阮,Mai Chi Luong公司,桑豪·宋
地点：: PACLIC公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 178–187
语言：
网址：: https://aclantology.org/2020.paclic-1.21
内政部：
比比键：
引用（ACL）：: Tharindu Madusanka、Durashi Langappuli、Thisara Welmilla、Uthayasanker Thayasivam和Sanath Jayasena。2020使用Self-play和Reward-based Sampling优化低资源设置的对话策略.英寸第34届亚太语言、信息和计算会议记录，第178-187页，越南河内。计算语言学协会。
引用（非正式）：: 使用Self-play和Reward-based Sampling优化低资源设置的对话策略（Madusanka等人，PACLIC 2020）
复制引文：
PDF格式：: https://aclcollectory.org/2020.paclic-1.21.pdf