テクノスピーチの音声合成に関する論文が、音声・音響処理分野で世界最大の国際学会である「ICASSP」に採択!

株式会社テクノスピーチは、当社の研究チームが手掛けた音声合成に関する論文が、音声・音響処理分野で世界最大の国際学会であるICASSP(International Conference on Acoustics, Speech, and Signal Processing)に採択されましたことをお知らせいたします。なお、本研究成果は国立大学法人名古屋工業大学 国際音声言語生成技術研究所との共同研究によるものです。

韻律のコントローラビリティを維持した高品質な音声合成の実現

テクノスピーチでは、テクノロジーの進化により日々変化する音声関連技術のニーズに応えるべく、継続的に研究および開発に取り組んでおります。
そしてこのたび、その成果がICASSPにおいて高く評価され、論文の採択を受けました。
論文の概要については、以下よりご参照いただけます。

● タイトル
EMBEDDING A DIFFERENTIABLE MEL-CEPSTRAL SYNTHESIS FILTER TO A NEURAL SPEECH SYNTHESIS SYSTE

● 論文PDF(プレプリント)
https://arxiv.org/pdf/2211.11222

● 試聴用URL
https://techno-speech.com/news-20230601a

論文の内容は、最新の深層学習技術と音声信号処理の統合により、音声合成タスクにおいてトレードオフの関係になりがちな「高い自然性」と「韻律のコントローラビリティ」を両立させる手法に関するものです。
論文内で、深層学習技術による合成音声の品質向上とともに、韻律制御に対する高い頑健性が示されています。
また、論文内では強調していませんが、GPU駆動ではなくCPU駆動でのリアルタイム性を意識した設計になっています。
本研究成果は2023年6月6日にICASSPの開催地であるギリシャのロードス島にて発表いたします。
また、実験に使用したコアモジュールはGitHub上 https://github.com/sp-nitech/diffsptk で公開しており、関連研究の一助となることを願っております。


<株式会社テクノスピーチ>
https://www.techno-speech.com/

関連記事