英格玛·斯坦纳 科林·里士满 修身Ouni 使用多模态语音生成数据评估视听语音合成中的发音动画 http://arxiv.org/abs/1209.4982 2012 CoRR公司 abs/1209.4982 db/journals/corr/corr1209.html#abs-1209-4982