複数言語コードを含む発話転写と話者分離:Whisper+Pyannote.audioによる自動音声認識の高度化

徐勤, 砂岡和子

Abstract: 生成系 AI を取り込んだ自動音声認識技術(Automatic Speech Recognition:ASR)は飛 躍的 進歩をとげつつあるが,頻繁に Code-switching(CS)が起きる自然発話の ASR はまだ課題が残る.本文は,CS 発話の典型である外国語授業の3 つのケースを素材とし,Whisper の最新版モデル large-v3 でテキスト転写を行い,更に Pyannote.audio を用いて多人数 CS 発話の話者分離(Speaker Diarization:SD)を行った.large-v3 適用のさいのパラメータ設定,および合成音による SD の結果,従来の手法に比べ,日本語と中国語 CS 発話の ASR 精度が大きく改善した.