使用Self-play和Reward-based Sampling优化低资源设置的对话策略

塔林杜·马杜桑卡,杜拉西·兰加普里,蒂莎拉·威尔米拉,北洋鸡Thayasivam,萨纳特·贾亚塞纳


选集ID:
2020.批准-1.21
体积:
第34届亚太语言、信息和计算会议记录
月份:
十月
年份:
2020
地址:
越南河内
编辑:
民乐阮,Mai Chi Luong公司,桑豪·宋
地点:
PACLIC公司
SIG公司:
出版商:
计算语言学协会
注:
页:
178–187
语言:
网址:
https://aclantology.org/2020.paclic-1.21
内政部:
比比键:
引用(ACL):
Tharindu Madusanka、Durashi Langappuli、Thisara Welmilla、Uthayasanker Thayasivam和Sanath Jayasena。2020使用Self-play和Reward-based Sampling优化低资源设置的对话策略.英寸第34届亚太语言、信息和计算会议记录,第178-187页,越南河内。计算语言学协会。
引用(非正式):
使用Self-play和Reward-based Sampling优化低资源设置的对话策略(Madusanka等人,PACLIC 2020)
复制引文:
PDF格式:
https://aclcollectory.org/2020.paclic-1.21.pdf