名古屋工業大学 大学院 工学研究科 創成シミュレーション工学専攻 博士後期課程修了
エジンバラ大学 滞在研究員
日本学術振興会 特別研究員(PD)
統計数理研究所 統計的機械学習センター 特任助教
名古屋工業大学 国際音声言語技術研究所 プロジェクト助教
首都大学東京(2020年度より東京都立大学) システムデザイン学部 助教
名古屋工業大学 国際音声言語技術研究所 プロジェクト准教授
統計数理研究所 客員准教授
近年、スマートフォンやスマートスピーカーを音声で操作して情報収集や買い物、スケジュール管理などを行う音声対話システムが急速に普及しています。
音声対話システムには、機械が話者を正確に認識できることが不可欠です。これを話者照合といい、あらかじめ登録されている話者に一致するのか、あるいは未登録の話者なのかを間違いなく判断する性能が求められます。
話者照合の鍵になるのが、声の個性ともいえる話者性です。ユーザの立場からは手軽に登録できるシステムが望まれるため、少ないデータで話者性を正しく把握することが重要になります。
音声対話システムは生活を便利にする一方、他人になりすまして対話システムを操作する「なりすまし攻撃」や、システムを介した個人情報の流出といった危険もあるため、これらを防ぐ技術開発は喫緊の課題です。
話者照合は当初、統計学の視点で行われていました。膨大なデータから統計的に作られた一般的な音声モデルと、話者性を反映した音声モデルを照合する方法です。
これに対して、話者照合の最先端技術として用いられている深層学習では、あるデータが母集団の中でどのような特徴を持つかをシステムが自動で学習します。話者性の効率的な抽出が可能になったのです。目下、2000人規模の音声を分類できる大きなネットワークを用いて深層学習を行っています。
ただし、深層学習は分類を得意とする学習法です。入力された音声に対して、一番近い登録データを示すことはできますが、「どの登録データとも一致しない」という判断はできません。そこで、深層学習に照合を任せるのではなく、深層学習がデータから抽出した話者性を利用して照合します。新しく入力された音声の話者性と、もともと登録してあった話者の音声から抽出した話者性とを比較して、最終的な照合を行うのです。
話者照合システムは、学習データが多いほど性能が向上します。英語圏には音声の巨大なデータベースがありますが、母語人口の少ない日本語には、充分なデータベースがありません。そこで、日本語の音声データを集めるところから研究が始まりました。
直接呼びかけて収集できるデータには限りがあるため、オープンメディアに公開されている日本語音声データの自動収集も行いました。大規模なデータ収集、クレンジング、そして整理には多大なコストがかかり、セコム科学技術振興財団の本助成に助けられました。おかげでこれまでに1700名程度の話者で構成された話者照合用のデータベースとして公開できました。
日本語のデータベース作成には、言語の性質を知る意義もあります。
話者照合は本来、言語に依存せず話者性だけを扱う機能ですが、英語の話者照合システムをアジア圏の言語の音声データで照合させると、精度が落ちることが知られています。言語の特性が話者照合に与える影響を理解し、学習を深めてその影響を抜くことができれば、最終的にはあらゆる言語に適用できる照合システムとなるでしょう。
同じ人間でも、体調や感情によって音声は変化します。朝起きてすぐや、元気のないときでも本人と認識されるために、認証の幅を広げる研究もしています。
具体的には、一つの音声データに対して、様々な種類のノイズを乗せたり、高い周波数の部分を削ったりといった信号処理を施して、「本人の声」のバリエーションを擬似的に増やします。
こうして深層学習のデータに幅を持たせることで、登録データの音声からある程度のブレを許容しつつ、正しく話者照合できるシステムを目指しています。データのどの部分をどのように拡張すればシステムに貢献するのか、試行錯誤の日々です。