全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

微软和浙大联合推出新型高速语音合成模型FastSpeech

2019-06-03 全球来源：其他领域：信息

关键词：

据Cnbeta网6月3日消息，微软公司和浙江大学联合推出一种新型高速语音合成模型FastSpeech，利用神经网络技术将语音合成效率大大提高。传统的基于神经网络的端到端文本语音转换模型，通常首先从文本生成梅尔频谱（mel-spectrogram），然后使用诸如WaveNet的声码器从梅尔频谱合成语音，但存在推理速度较慢、合成语音不稳健、缺乏可控性等缺点。研究人员提出了一种基于Transformer的新型前馈网络FastSpeech模型，将梅尔谱的生成速度提高了近270倍，几乎完全消除了合成语音中重复吐词和漏词问题，而且可以平滑地调整语音速度和控制停顿以部分提升韵律。

https://www.cnbeta.com/articles/tech/853169.htm