「話者照合およびなりすまし検出のためのデータ生成と選択的システム構築に関する研究」

実発話か録音音声かを見極め、なりすまし攻撃から利用者を守る

固定された短いフレーズで話者登録や認証を行うケースが増えていますが、利用者にとっての手軽さの追求は、裏を返せばなりすましを容易にすることでもあります。

特に判別が難しいのが、登録者の音声を録音した音声データを使って話者照合を突破するものです。このなりすまし攻撃をブロックするために、実発話と録音再生音とを識別する手法を考案しました。

まず、実発話にしかない特性に注目しました。人は息を吐きながら話すため、マイクに近いと息が振動板を歪ませて「ポップノイズ」という特徴的なノイズが記録されます。これを録音してスピーカーで再生しても、ポップノイズは音として再生され、振動板の歪みは再現できません。

録音再生音の特徴からなりすましを見破ることもできます。通常の環境では、話者の声に加え、エアコンの音などのノイズが発生しており、音源が複数箇所あります。では、このノイズの入った音声を録音してスピーカーで再生すると、どう聞こえるでしょうか。今度はスピーカーが音源となるため、発話とノイズは同じ場所から聞こえます。話者が沈黙しているときのノイズを検出すれば、声の音源と同じかどうか、顕著にわかるのです。

生体認証には、指紋や顔などを利用する技術もあり、それぞれ特性が異なる。声を用いた生体認証は、音声対話システムとの親和性がよいことや非接触で利用できることが利点

相反する技術は、同時に進歩させることに意味がある

オリジナルの登録音声からのブレを許容して本人認識を目指す話者照合と、本人の肉声かどうかを厳密に見極めるなりすまし対策。相反する技術の追求に思われるかもしれませんが、これらは同時に進歩するべき技術であり、どちらか片方だけを追求することこそ片手落ちと言えるでしょう。

システムの利便性と安全性の両立のためには、認証技術を秘匿するのではなく、あえて高度な攻撃に晒して頑健性を強めることが必要です。それが技術発展の鍵であり、難しさとともにやりがいを感じるステップでもあります。

話すこと自体がプライバシーを脅かしている

音声対話システムの普及に伴い、音声のプライバシー保護が重要になってきました。音声から発話者が特定され、プライベートな話題が個人情報とともに流出する恐れがあるためです。

音声を加工して話者性を除けば、発話者の特定は防げます。ただ、話者性を完全に消してしまうのではなく、保護された音声であっても同一話者の発言かどうかは認識したい。「発言と話者は対応づけられるが、現実の人物とは繋がらない」という状態を目指して、加工法を模索しています。

話者照合は、音声の話者性を照合するもので、話の内容を認識する必要はありません。音声のプライバシー保護はそれとは逆に、話の内容だけを抜き出す技術です。プライバシーを適切に保護すれば、対話内容を市場データとして活用することもできます。このように、音声を利用する場面が増えるほど、音声への多面的なアプローチが必要になるでしょう。

システムデザイン学部のモダンな建築。先生のお気に入りの場所でもある

安全・安心な音声対話システムを利用者に届けたい

セコム科学技術振興財団の助成制度を知ったのは、共同研究者でもある高道慎之介先生からの紹介でした。すでにこの助成制度を経験しておられた高道先生に、自由度が高く研究遂行の助けになったと勧めていただき、応募に至りました。

実際に助成を受けてみて、助成金額が大きいことや3年という長い単位で評価していただけるところが大きなメリットと実感しています。メンタリングではこの分野の大御所の先生から貴重なご助言をいただけただけでなく、他分野の先生からも新しい視点を示していただき、視野が大きく広がりました。

助成を受けながら高道先生と連携して、なりすましの検出と話者照合の両方を同時に実験できるコーパスの構築、という新たな研究課題にも取り組んでいます。助成研究者どうしが協力して新しい研究成果が生まれるのも、研究者間の連携を大切にしておられるセコム財団ならではの魅力です。

音声対話システムは、これからますます生活に欠かせない存在になっていくでしょう。いつでも安心して便利に音声対話システムを使ってもらえるように、これからも技術開発に取り組みたいと思います。

コロナ禍で制限の多かった学会活動も、少しずつ対面方式が再開され始めた。ふとした会話に研究のアイディアが浮かぶこともあり、研究者どうしのコミュニケーションの大切さを実感している