北陸先端科学技術大学院大学 情報科学研究科 教授 赤木正人先生インタビュー「災害時に必要な情報を音声により確実に伝える」インテリジェント避難誘導音声呈示システムの研究開発(第1回)
これらを基準においたのはなぜでしょうか。
なぜならば、もともとの発した音声自体の了解度がどれくらい高いか、そして、雑音残響の影響によってその了解度がどれくらい減衰してしまうのか、その両方が耳に届く音声の了解度を決めるからです。
雑音残響があると了解度は減衰します。ですので、STI値を導出するための特徴で雑音残響による減衰特性を予め推定しておきます。そして、変調スペクトルを用いて耳に届く音声の了解度を推定しながら、減衰に打ち勝ち了解度を高めるように呈示する音声の変形を行うことで、音声の中身が「確実に伝わる」ようにします。
雑音残響があると了解度は減衰します。ですので、STI値を導出するための特徴で雑音残響による減衰特性を予め推定しておきます。そして、変調スペクトルを用いて耳に届く音声の了解度を推定しながら、減衰に打ち勝ち了解度を高めるように呈示する音声の変形を行うことで、音声の中身が「確実に伝わる」ようにします。
しかし、このSTI値は「現場の実測によって測定しなければならない」とも定められており、災害時の音環境を事前に測定しておくことは不可能ですね。
おっしゃるとおりです。
そこで、我々の研究グループが提案した方法が役に立ちます。私達の方法では、事前に実測することなく、リアルタイムで、その環境下で録音された音声のみからSTI値を「推定」することができます。
そこで、我々の研究グループが提案した方法が役に立ちます。私達の方法では、事前に実測することなく、リアルタイムで、その環境下で録音された音声のみからSTI値を「推定」することができます。
事前に実測する必要がなく、誰が話しても音声が適切に変換されるとは、まるで「夢のようなシステム」だと思います。
ありがとうございます。私達の研究は、アナウンサーが現場にいなくても、システムが自動で「どれだけ音声の中身が正確に伝わるか」を判断して、アナウンス音声を呈示することを目指しています。
それを実現するためには、まず既存の避難誘導アナウンスの中で、特に効果的にパラ言語情報を付与されているものと、我々の研究グループで用意したアナウンサーや声優の音声の了解度を分析することによって「どの発話方法が最も避難誘導に適した音声か」を収集し、分析・検討を重ねておく必要があるのです。
それを実現するためには、まず既存の避難誘導アナウンスの中で、特に効果的にパラ言語情報を付与されているものと、我々の研究グループで用意したアナウンサーや声優の音声の了解度を分析することによって「どの発話方法が最も避難誘導に適した音声か」を収集し、分析・検討を重ねておく必要があるのです。
東日本大震災の後、津波の危険があるとき「海岸にいる方は危険です。避難してください」と、テレビ局のアナウンサーが報じる声と、「明日の各地の天気予報」を淡々と読み上げる声は、私たちのような一般視聴者が聞いていても、まったく違った質のものを感じます。
そうですね。現場のアナウンサーは「ロンバード効果」と「パラ言語情報の付加」を自然に行い、対応しているのです。
余談ですが、後世に残るような科学研究とは、科学者同士の競争、たとえば「論文の数」だけを競うのではなく、必要なデータを「地道」に収集したり、分析したりという下積み的な作業が不可欠です。
そこで、私達の研究グループでは、NHKや民放各局を回り、災害発生時の録画データをいただけるようお願いしたりしています。
幸い、多くの放送局では、研究の趣旨に賛同してくださり、著作権などの問題もあるなか、積極的に録画データを提供してくださっています。ただ、各局からの膨大なデータを精密に解析し、研究を進めていくには、大変な忍耐と根気が必要になります。
余談ですが、後世に残るような科学研究とは、科学者同士の競争、たとえば「論文の数」だけを競うのではなく、必要なデータを「地道」に収集したり、分析したりという下積み的な作業が不可欠です。
そこで、私達の研究グループでは、NHKや民放各局を回り、災害発生時の録画データをいただけるようお願いしたりしています。
幸い、多くの放送局では、研究の趣旨に賛同してくださり、著作権などの問題もあるなか、積極的に録画データを提供してくださっています。ただ、各局からの膨大なデータを精密に解析し、研究を進めていくには、大変な忍耐と根気が必要になります。
赤木先生の研究体制について教えてください。
では、赤木先生は、音声変形を担当されているのですか。
はい。私は音声変形に関する論文2編で、音響学会論文賞1件、Journal of Signal Processing Best Paper Award1件受賞、さらに歌声合成コンクール世界大会(InterSpeech2007 Synthesis of Singing Challenge)において、あのVOCALOIDを抑えて1位(2007年)を獲得しています。この経験をもとに、明瞭度・了解度を向上させる音声変形法を確立します。
私の研究は「現場の音環境が雑音や残響によってどれだけ乱れているか」をリアルタイムで認識し、次に、その環境で最も聞こえやすいように音声を自動的に変形するシステムですから、たとえ災害にならなくても、通常時の地下鉄構内などで、音声の情報伝達が必要なときに応用が可能であり、その波及効果が非常に大きいのです。
私の研究は「現場の音環境が雑音や残響によってどれだけ乱れているか」をリアルタイムで認識し、次に、その環境で最も聞こえやすいように音声を自動的に変形するシステムですから、たとえ災害にならなくても、通常時の地下鉄構内などで、音声の情報伝達が必要なときに応用が可能であり、その波及効果が非常に大きいのです。