しかし、このマイクでスパース信号処理をすると、自然界の聞き慣れた音が、人工的で妙な音に変換されてしまうことがありました。大手動画サイトなどで、たまに機械的な音声が入ってしまっているものを聞かれた方は多いのではないでしょうか。私はなぜこのような音声が発生してしまうのか興味を持ち、音声を分析しました。結果、人間の音声より、雑音の分離を優先してしまっていることがわかりました。

しかし、このマイクでスパース信号処理をすると、自然界の聞き慣れた音が、人工的で妙な音に変換されてしまうことがありました。大手動画サイトなどで、たまに機械的な音声が入ってしまっているものを聞かれた方は多いのではないでしょうか。私はなぜこのような音声が発生してしまうのか興味を持ち、音声を分析しました。結果、人間の音声より、雑音の分離を優先してしまっていることがわかりました。
音源分離の新しい枠組みを作れたことによって、その後10年間、人間の音声を詳細に分解するための研究に時間を割くことができました。
その結果、「人工的な音」には、高次統計量(正規分布からのずれを知るための、統計学上の値)のなかでも、4次統計量に基づく「カートシス値の変化」が関係していることがわかりました。カートシスが上昇すると、音にトーン性が付与され、機械的に音が高くなったように聞こえます。カートシス値が上昇することは、自然界ではありえない現象のため、違和感を感じるのです。不特定多数のマイクから収集した音データのカートシス値がどれだけ変化しているかを分析し、その量を正確に把握できれば、それをオリジナルに近い音に戻すことも可能です。
はい。そして、これら研究成果を数理プログラムに組み込み、私たちの研究グループ独自の技術である独立低ランク行列分析(independent low-rank matrix analysis:ILRMA)が誕生したのです。私たちはこれを略してイルマと呼んでいます。
イルマは、自己学習型の人工知能です。2008年に製品化したマイクでは、音源分離を全て自動化することができず、私達の経験と勘をプログラムに反映する必要がありました。しかし、現在の進化したイルマは、AIを使用し全自動で人間の自然な音声を抽出することができます。ただし、まだ実験段階ですので、災害現場での実地運用を重ねていく必要があります。