NTT、声を好みのスタイルに一瞬で変える「リアルタイム音声変換」技術

by 富岡 悠

NTT(持株)は、ある話者の声を、まるで他の話者が話しているかのような声に変換する、高音質と低遅延を両立した「リアルタイム音声変換技術」を開発した。

これにより、Web会議やライブ配信などでのリアルタイム音声変換が可能になり、今後はスマートフォンやVRデバイス上での利用など、さまざまな場面での応用が期待される。

たとえば、コールセンターでの利用場面においては、顧客の声を聞き取りやすく変換することで、さらに円滑なコミュニケーションに繋げることができる。

声質だけでなく抑揚やリズムなどを柔軟に変換できる「特徴量変換技術」と、音声特徴から音声波形を生成する「波形合成技術」の研究成果を融合させることで、今回の新技術が開発された。

この技術は、24日から開催される、コミュニケーション科学基礎研究所オープンハウス2024に出展される。

今後の展開として、ネイティブに近い流暢な英語の発音、説得力のあるスピーチ、緊張による声の震えの解消など、さまざまな場面での利用が期待される。

さらに、実環境使用を想定した対雑音性向上や安定性向上、なりすましへの対策などにも力を入れ、安心した好みの音声でコミュニケーションできる未来をめざすとしている。

© 株式会社インプレス