微软和浙大联合推出新型高速语音合成模型FastSpeech

2019-06-03  全球 来源:其他 领域:信息

关键词:

据Cnbeta网6月3日消息,微软公司和浙江大学联合推出一种新型高速语音合成模型FastSpeech,利用神经网络技术将语音合成效率大大提高。传统的基于神经网络的端到端文本语音转换模型,通常首先从文本生成梅尔频谱(mel-spectrogram),然后使用诸如WaveNet的声码器从梅尔频谱合成语音,但存在推理速度较慢、合成语音不稳健、缺乏可控性等缺点。研究人员提出了一种基于Transformer的新型前馈网络FastSpeech模型,将梅尔谱的生成速度提高了近270倍,几乎完全消除了合成语音中重复吐词和漏词问题,而且可以平滑地调整语音速度和控制停顿以部分提升韵律。

https://www.cnbeta.com/articles/tech/853169.htm