ブログ

Whisperの認識精度をプロンプト活用で向上させる

はじめに

Whisper音声認識はその高い認識精度で注目を集めていますが、専門用語などにはうまく対応できない場合があります。OpenAIの他の機能と同様にWhisperにもpromptパラメータがあり、これにより認識精度が向上することが確認できました。本記事では、promptの使用例とそれによる改善結果について紹介します。

Whisper APIのpromptパラメータ

promptに関するドキュメント(Prompting)の概要は以下の記載があります。
(1) モデルが音声で誤認識しがちな特定の単語やイニシャルを修正する
(2) 前回の文字起こし結果を参考に文字起こしをする
(3) 句読点の挿入を指示する
(4) フィラー除外せずに残す
(5) 文体の指示(簡体字中国語や繁体字中国語など)
プロンプトエンジニアリングという言葉が出現するほどプロンプト記述テクニックが重要になってきていますがWhisperも同様なようです。この記事では(1)と(3)を試した結果をご紹介します。

利用例1: プロンプトに専門用語を記述する

認識音声にはこえカラモジ-医療用語学習モデルのサンプル「医療サンプル1」を使用します(下記)。

技術の概要につきましてご説明させていただきます。こちらは急性期脳梗塞に対する血栓溶解薬として、現在アルテプラーゼという薬剤が使用されてございますがこちらは血栓再開通率が不十分であるなどの課題があるということでございます。今回の技術は新たな血栓溶解薬である、テネクテプラーゼという薬剤を使用するものでございまして、安全性を少数例で確認した後再開通効果や安全性等につきまして、既存のアルテプラーゼとの比較を行う試験となってございます。

認識結果は以下の通り。概ね良好な認識結果ですが、医療に特化した単語に誤認識が発生しています。

技術の概要につきましてご説明 させていただきますこちらは旧世紀濃厚促に対する血腺妖怪薬として現在アルテプラアゼという薬剤が使用されてございますがこちらは血腺再開通率が不十分 であるなどの課題があるということでございます今回の技術は新たな血腺妖怪薬 であるテネクテプラアゼという薬剤を使用するものでございまして安全性を少数例で確認した後再開通効果や安全性等につきまして既存のアルテプラアゼとの比較を行う試験となってございます

認識処理を実行する curlコマンドに以下のプロンプトを追加します。

-F prompt="急性期脳梗塞の血栓溶解薬にアルテプラーゼが有効"

認識結果は以下の通りです。誤認識があった単語の修正が実現しています。それに加え、「テプラーゼ」という表記が全体で使われるようになりました。

技術の概要につきましてご説明させていただきますこちらは急性期脳梗塞に対する血栓溶解薬として現在アルテプラーゼという薬剤 が使用されてございますがこちらは血栓再開通率が不十分である などの課題があるということでございます今回の技術は新たな血栓溶解薬であるテネクテプラーゼという薬剤を使用するものでございまして安全性を少数例で確認した後再開通効果や安全性等につきまして既存のアルテプラーゼとの比較を行う試験となってございます

利用例2: 句読点を付与する

上記の通り句読点は含まれていない結果となっていましたので。prompt文に句読点を含めました。

-F prompt="急性期脳梗塞の血栓溶解薬にアルテプラーゼが有効"

句読点が入りました。条件は未検証ですが、文章として入れるべきところに挿入されているように思えます。

技術の概要につきましてご説明させていただきます こちらは
    ***省略***
課題があるということでございます 今回の技術は新たな血栓溶解薬で
    ***省略***
につきまして既存のアルテプラーゼとの比較を行う試験となってございます

まとめ

Whisper音声認識においてもプロンプトが有効であることが確認できました。実際の利用ケースでどのような内容をプロンプトに記載すべきかは今後さらに検証していく予定です。

※当記事はChatGPTの生成文を利用/参照しています

pagetop