北陸先端科学技術大学院大学 情報科学研究科 教授 赤木正人先生インタビュー「災害時に必要な情報を音声により確実に伝える」インテリジェント避難誘導音声呈示システムの研究開発(第2回)



実測の結果、地下広場のSTI値(音声伝達指標)は0.28〜0.44、残響時間は3秒台後半とのことですが、これは音環境としてどのように判定できるのですか。

 悪いです。今回の実地実験は、ある意味「高雑音残響環境下である、災害現場の代替」ですので、音環境が悪ければ悪いほど、実験場として望ましいことになります。STI値は0からはじまり、1が最大値で、0〜0.45までは悪いと定められています。

もてなしドーム地下広場内は実地実験場として望ましいことが証明されたのですね。しかし、音環境が悪ければ、それだけ推定精度も落ちてしまいそうなイメージがあります。

 幸い、ある地点を例にとって今回の実測STI値と推定値を比較したところ、実測STI値が0.41、推定値が0.34〜0.39と非常に近い値を出すことができました。これにより、STI推定のアルゴリズムはほぼ確立したと言えます。

残響環境での聴取実験では「単語が聞こえるか」「どのくらい聞きづらいか」の2種類を確認されたと聞きました。

 聴取実験を通して、雑音残響環境での音声了解度を向上させるために、ヒトが無意識のうちに行っている優れた方法である、ロンバード効果について調べました。異なる雑音レベルの音環境で発話された音声は、それぞれ独自の特徴を持つことがわかっています。これらの違いが、雑音残響環境での音声知覚に対してどのように関与しているか調べることが目的です。

実験結果の図の見方を教えてください。

 横軸が、話し手が発話した時の雑音レベル、縦軸が聞き手の雑音レベルで、横軸なら右に、縦軸なら上にいけばいくほど雑音レベルが大きくなります。図の青からオレンジになっているグラデーションは了解度を表しており、色がオレンジに近づけば近づくほど、了解度が高いことを示しています。丸の大きさはAnnoyance(わずらわしさ)で、大きければ大きいほどわずらわしいという意味です。わずらわしいというのは、その場の雰囲気に合わない、例えば図書館内で、パチンコ屋で話す声を出した場合を想像していただけたらと思います。
 図をみると、静かな環境で発話した音声は、低雑音環境では了解度が高いですが、高雑音環境で聞くと了解度が低下します。逆に、話し手が発話した時の雑音レベルが高くても、聞き手の雑音レベルと同程度、もしくは静かであれば、了解度は高くなります。しかし、それだけわずらわしさも顕著になります。聞き取りやすい音声を作るためには、了解度だけではなく、わずらわしさを考慮することも重要だと考えています。