音声・動画データの文字起こし、テープ起こしサービスを提供しているデータグリーンを運営する株式会社アラジンは、新コンテンツ「ChatGPTと文字起こし」を公開いたしました。
ChatGPTと文字起こし
https://www.data-green.jp/chatgpt/ChatGPTは幅広いあらゆる分野の質問に対して、不自然さが感じられない詳細な回答をすぐに生成するため注目を集めています。
※内容については事実とは異なることもあり、その点は指摘されています。
ChatGPTはあくまでもテキストが主体のため、単独で文字起こし作業を代行することはできません。
Whisperのような別の音声認識システムを利用する必要があります。
ChatGPTと同じくOpenAIが開発したWhisperは、音声データを入力データとして受け取り、解析し、その結果をテキストデータに変換する音声認識モデルです。
ほかのAI音声認識でも同様ですが、自動音声認識での文字起こしは、句読点が入らない、複数人の対話だと発言者の区別がつけられないなど、非常に不自然なまるでお経のような文章が生成されることがよくあります。
【AIによる文字起こしについて】
https://www.data-green.jp/ai/
【トランスクリプトで文字起こし】
https://www.data-green.jp/transcript/
【音声認識と文字起こし】
https://www.data-green.jp/speech_recognition/
【方言と文字起こし】
https://www.data-green.jp/dialect/
そこで自然な言語生成に長けたChatCPTの出番となります。
Whisperによって文字起こしされた分かりにくい文章を丸ごと渡して、誤記の訂正や句読点の適切な挿入などを依頼すると、可読性のあがった文章に生成しなおしてもらえます。
Whisperを使用した文字起こしでは、Webから収集されたデータでトレーニングされているため、一般的な会話や話題に対して高い正答率を示します。
しかし、医療用語や大学の講義などの特定の専門用語やテクニカルな話題に対しては正答率が低下する傾向があるようです。
※専門用語に関しては、AIに特定の学習データを追加することで改善することはできるそうです。
比較テスト
非常に音質が良い場合は、Whisperを含め、他のAI音声認識でも文字起こしの正答率は悪くないため、自動文字起こしが難しい「音質が悪いデータ」「環境音などのノイズが大きい音声データ」を使って文字起こしをした結果を比較してみます。●文字起こし比較テスト その1(ノイズが多く音質が悪いデータ)
[Whisperによる文字起こし結果]
おはようございます。
以前コマックを破ってから、調子があまり良くない。
[データグリーンによる文字起こし結果]
ご無沙汰しております。
以前鼓膜を破ってから、調子があまり良くないので。
音質が悪いためはっきりと聞き取りできませんが、「ご無沙汰しております」と聞きとることができました。
「コマック」に関しては、「ま」と「く」の間にノイズが入っていたため、Whisperは誤った認識をしているようです。
●文字起こし比較テスト その2(周囲の環境音が大きい音声データ)
[Whisperによる文字起こし結果]
誰も一人で来てねえだろうみたいなのリーダーも
[データグリーンによる文字起こし結果]
誰もほめてくれないだろみたいなノリになって
周囲の声が大きく「ほめてくれない」「ノリになって」が聞き取りにくい状態で、Whisperでは誤認識しています。
このように音質の良くないデータ、ノイズ・環境音が混じってるデータをAI音声認識を利用して自動文字起こしをしても、不十分な品質になります。
やはり経験をつんだ人間の確認、修正作業が必須となります。
また ChatGPTによる補正を行うにしても、例えば一般化されていない専門用語や最新のニュース用語などになると対応できません。
文字起こしの精度を向上させるためには、専門知識やコンテキストを適切に扱うことも重要です。
特に専門的な話題においては人間の知識との組み合わせが必要となります。
【文字起こし、テープ起こしのデータグリーン】
https://www.data-green.jp/