世界中の研究者が、さまざまな方法を模索してきましたが、実用化には至っていません。その中で私は、スパース信号表現に着目しました。現象が疎に出現することを「スパース性」といい、多次元のデータから有用な情報を効率的に取り出すことを目的とする手法です。
実は、過決定条件(音源数≦観測チャネル数)のBSSにおいては、ICA(独立成分分析)やIVA(独立ベクトル分析)に基づく手法が主流であり、盛んに研究されてきました。モノラル信号等を対象とした劣条件設定(音源数>観測チャネル数)下では、非負値行列因子分解(Non-negative Matrix. Factorization:NMF)を応用した手法が注目を集め、このNMFは2011年に多チャンネルNMF(Multichannel NMF)へと進化しました。
私が昨年度の研究に導入した独立低ランク行列分析(Independent low-rank matrix analysis:ILRMA)は、このICA・IVAの流れと、NMFの流れを統合した音源分離理論です。NMFが持つ柔軟な音源モデリング能力と補助関数法(収束を保証した新しい最適化アルゴリズム)に基づく高速の分離行列計算を併せ持っています。

ILRMAは、ICA・IVA・NMFを統合した、新しい形の人工知能であると語る猿渡先生
そう尋ねられたときは「そうです」とお答えするようにしていますが、皆さんが想像するAIとILRMA は、本質的に違うものです。
AIというと画像認識が一般的であり、たくさんの画像を見せて学習させることを前提とした「教師あり」の学習モデルです。私達のILRMAは「教師なし」のモデルであり、この点において決定的な違いがあります。「教師なし」モデルは「教師あり」モデルよりも新しい技術で、研究が進んだのもここ20年ほどです。音を「教師あり」モデルで研究しても、先述した「分離したい音源が判明している」限定的な状況でしか、効力を発揮することができないためです。
悪い意味に勘違いする人が多いのですが、数学的には有用な概念です。簡単にいうと、ILRMAは音のデータを「縦と横の線の数」だけで表現します。線として圧縮表現することにより、その本数の違いによって、それぞれ音の本質的な違いを明確にするのです。
また、以前は経験や勘に頼っていた部分がありましたが、現在は補助関数法により、圧縮された音源の重要な部分を推定し、確実に正解へと収束していくことが数学的に証明されています。このため、完全自動化による効率的な分析が可能になったのです。