ブログ

Watson Speech to Text の Next-generation モデルの性能評価をしてみた

初めに

Watson Speech to Text では、現在Previous-generationモデル(BroadbandModel, NarrowbandModel)とNext-generation(Multimedia, Telephony)のモデルを提供中ですが、2022年9月15日をもって、日本語とアラビア語を除いてPrevious-generationモデルの提供が終了します。

Next-generationモデルは、Previous-generationモデルよりも認識精度、認識速度があがっているとのことです。
(引用)
IBM Cloud Docs(https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-ng)
「Next-generation models have higher throughput than the previous-generation models, so the service can return transcriptions more quickly. Next-generation models also provide noticeably better transcription accuracy.」

そこで、実際に認識精度があがっているのか調査してみました。

使用データと認識精度の結果

今回、アメリカ英語と日本語で試してみました。
また、Next-generationはMultimedia、Previous-generationはBroadbandModelを使用しました。
認識精度評価としては、WER(Word Error Rate)を用います。
WERの算出については、下記を参考にさせていただきました。
https://qiita.com/Kchan/items/7bba1f066234ba24898b

英語データ
LibriSpeechのtest-cleanデータ
http://www.openslr.org/12/

日本語データ
Common Voice Corpus 6.1 (日本語)
https://commonvoice.mozilla.org/ja/datasets
※一部数字だけの発言等があるため、それらは除外しました

認識結果

Next-generationPrevious-generation
英語7.7411.06
日本語19.4915.17

今回使用したデータでは、英語はNext-generationモデルの方が、精度が良かったですが、
日本語では、Previous-generationの方が、精度が良いという結果になりました。
日本語は、Previous-generationを使用続けることが可能なので、場合によっては、
Previous-generationの使用もご検討ください。

Previous-generation から Next-generation への移行について

いくつかの機能(オプション)は、Next-generationでは使用できません。
また、独自のカスタムモデルを使用している場合は、再度、Next-genearionで学習させる必要があります。
詳細については、下記ドキュメントをご参照ください。
[IBM Cloud Docs]
https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-models-migrate

pagetop