HOME > 研究者 > 猿渡洋先生 > 高次統計量制御スパース信号表現に基づく協創型音響センシング及びその社会システム応用(第2回)

「解けない方程式」の数理モデル化に挑戦されたのですね。

世界中の研究者が、さまざまな方法を模索してきましたが、実用化には至っていません。その中で私は、スパース信号表現に着目しました。現象が疎に出現することを「スパース性」といい、多次元のデータから有用な情報を効率的に取り出すことを目的とする手法です。

実は、過決定条件(音源数≦観測チャネル数)のBSSにおいては、ICA(独立成分分析)やIVA(独立ベクトル分析)に基づく手法が主流であり、盛んに研究されてきました。モノラル信号等を対象とした劣条件設定(音源数>観測チャネル数)下では、非負値行列因子分解(Non-negative Matrix. Factorization:NMF)を応用した手法が注目を集め、このNMFは2011年に多チャンネルNMF(Multichannel NMF)へと進化しました。

私が昨年度の研究に導入した独立低ランク行列分析(Independent low-rank matrix analysis:ILRMA)は、このICA・IVAの流れと、NMFの流れを統合した音源分離理論です。NMFが持つ柔軟な音源モデリング能力と補助関数法(収束を保証した新しい最適化アルゴリズム)に基づく高速の分離行列計算を併せ持っています。

ILRMAは、ICA・IVA・NMFを統合した、新しい形の人工知能であると語る猿渡先生

少し難しいので、平易に解説していただけますか。

さまざまな音や声が混ざった、混沌とした音源の中から、個性あるものだけを抽出することができるアルゴリズムです。人間の手を借りず、ILRMAが自動で処理をしてくれます。

ILRMA は、AIと同じようなものと考えていいのでしょうか。

そう尋ねられたときは「そうです」とお答えするようにしていますが、皆さんが想像するAIとILRMA は、本質的に違うものです。

AIというと画像認識が一般的であり、たくさんの画像を見せて学習させることを前提とした「教師あり」の学習モデルです。私達のILRMAは「教師なし」のモデルであり、この点において決定的な違いがあります。「教師なし」モデルは「教師あり」モデルよりも新しい技術で、研究が進んだのもここ20年ほどです。音を「教師あり」モデルで研究しても、先述した「分離したい音源が判明している」限定的な状況でしか、効力を発揮することができないためです。

たしかに、音楽のライブ収録などにおいて「リアルタイムで起こる、再現不可能な音源」をあらかじめ学習しておくことはできませんね。話は変わりますが「低ランク」という表現が引っかかりました。最新技術であるにも関わらず「低ランク」という表現が使われるのは、なぜですか。

悪い意味に勘違いする人が多いのですが、数学的には有用な概念です。簡単にいうと、ILRMAは音のデータを「縦と横の線の数」だけで表現します。線として圧縮表現することにより、その本数の違いによって、それぞれ音の本質的な違いを明確にするのです。

また、以前は経験や勘に頼っていた部分がありましたが、現在は補助関数法により、圧縮された音源の重要な部分を推定し、確実に正解へと収束していくことが数学的に証明されています。このため、完全自動化による効率的な分析が可能になったのです。

「推定し、確実に正解へと収束していく」とは、どういうことですか。

音の伝わり方は、部屋の壁の角度や素材によって変化します。そのため、まずは「伝わり方による音の変化」を推定し、そこから低ランクの音源を推定します。その推定された低ランク音源から、さらに伝わり方による音の変化を推定する……この方法を繰り返すのです。これにより、確実に正解に近づいていくことができます。

Copyright(C) SECOM Science and Technology Foundation