HOME > 研究者 > 猿渡洋先生 > 高次統計量制御スパース信号表現に基づく協創型音響センシング及びその社会システム応用(第1回)

それが、世界の学会から注目を浴びるようになったきっかけだったのですね。 

しかし、このマイクでスパース信号処理をすると、自然界の聞き慣れた音が、人工的で妙な音に変換されてしまうことがありました。大手動画サイトなどで、たまに機械的な音声が入ってしまっているものを聞かれた方は多いのではないでしょうか。私はなぜこのような音声が発生してしまうのか興味を持ち、音声を分析しました。結果、人間の音声より、雑音の分離を優先してしまっていることがわかりました。

2009年に開発した音源分離マイク

音質をそのまま向上させようとする研究者はいても、なぜ音質が悪くなるのかという本質について突き詰めていく研究者はいないと思います。

音源分離の新しい枠組みを作れたことによって、その後10年間、人間の音声を詳細に分解するための研究に時間を割くことができました。

その結果、「人工的な音」には、高次統計量(正規分布からのずれを知るための、統計学上の値)のなかでも、4次統計量に基づく「カートシス値の変化」が関係していることがわかりました。カートシスが上昇すると、音にトーン性が付与され、機械的に音が高くなったように聞こえます。カートシス値が上昇することは、自然界ではありえない現象のため、違和感を感じるのです。不特定多数のマイクから収集した音データのカートシス値がどれだけ変化しているかを分析し、その量を正確に把握できれば、それをオリジナルに近い音に戻すことも可能です。

本功績は、2015年度文部科学大臣表彰を受けたそうですね。

はい。そして、これら研究成果を数理プログラムに組み込み、私たちの研究グループ独自の技術である独立低ランク行列分析(independent low-rank matrix analysis:ILRMA)が誕生したのです。私たちはこれを略してイルマと呼んでいます。

イルマは、自己学習型の人工知能です。2008年に製品化したマイクでは、音源分離を全て自動化することができず、私達の経験と勘をプログラムに反映する必要がありました。しかし、現在の進化したイルマは、AIを使用し全自動で人間の自然な音声を抽出することができます。ただし、まだ実験段階ですので、災害現場での実地運用を重ねていく必要があります。 

音声分離は、平時は聴覚に障害がある人のコミュニケーションのサポート、災害時は人命発見・災害救助の補助など、さまざまな場面で応用できる技術であることがわかりました。次回はイルマの詳細なアルゴリズムについてお話を伺いたいと思います。

Copyright(C) SECOM Science and Technology Foundation