「深層学習に基づく音声合成と音声なりすまし検出の敵対的構築に関する研究」

音声と機械認証、両方をアップグレードしていく

そこで私は、このふたつを両立させる音声合成の研究を考案しました。音声と、認証機械のふたつを用意し、音声が認証を突破すれば、突破された機械をアップグレードし、通過した音声を突破できないようにする、このルーティーンを繰り返します。この繰り返しはディープラーニングで制御します。音声と機械のやりとりを全自動で行うため、人の手を使わず、既存の音声よりクオリティの高いものを簡単に生み出すことができます。

この研究は、世界的に高く評価され、この分野の最高峰国際会議INTERSPEECHに採録され、Travel Grant Award を受賞しました。受賞時はさすがに報われた気持ちになりましたね。また、研究を発展させた学術論文は、最高峰の学術論文誌 IEEE Transactions に採録されまして、公開から数カ月経った現在まで継続して論文ダウンロード数1位になっており、注目して頂いていることが分かります。ただその背景では、ディープラーニングを扱うために、大規模の音声データベースを作成する必要があったため、収録に多大な人的コストを要しました。音声データベースを10時間分準備するためには、その10倍の100時間の音声収録を必要とします。AIに大量の音声データを与え、覚えさせないことには、AIが効率的に動かないからです。音声合成技術と認証技術が世界的に更に発展するよう、このデータベースを無償で公開しました。このデータベースは、無償で利用可能な同系統のデータベースのうち、世界最大規模のものであり、公開から1年弱で40か国からのダウンロードを頂きました。

今後は、機械認証側をより高度化することにより、さらなる音声合成のクオリティを上げ、音声処理一般に技術を拡張します。どんなにうるさい場所から電話をかけてもクリアな音声が聞こえ、機械に母国語を話すだけで、どの国の人とも、スムーズに異文化コミュニケーションできるようになる時代が、すぐそこまで迫ってきています。

音声側、機械認証側を全自動でやりとりさせることで、両技術の性能を同時に改善することができる音声側、機械認証側を全自動でやりとりさせることで、両技術の性能を同時に改善することができる

各分野第一人者からのアドバイスが受けられる

私が所属している研究室の室長である猿渡洋先生(東京大学教授)がセコム科学技術振興財団の一般研究助成を受けていたため、セコム財団自体を認知はしていたのですが、若手研究者には縁のないものと考えていました。そんなとき、私たち音声合成分野の第一人者である古井貞煕先生(東京工業大学名誉教授)に「セコム財団に、若手向けの助成制度ができた」とお教えいただき、挑戦的研究助成に応募しました。二次選考の面接では、審査員の方々が、各分野のお歴々だったので、かなり緊張しました。

採択後のメンタリングでは「審査を目的としているのではなく、研究を進展させるためのアドバイス」と聞いていたので、安心して受けることができました。担当は古井先生だったので、当該分野のエキスパートだからこそわかる、より効率的な研究方法のご指導をいただくことができました。

異分野研究者と交流して、さらなる発展を目指したい

音声合成は、ただ単に人間に近い音声を発声するだけなら、ほとんど完成に近づいてきている技術です。挑戦的研究助成に採択された後、贈呈式などを通して、異分野の研究者の方々と交流を深める機会が多くなりました。機械音声といえども、使用するのは人間です。専門分野に限らず、多くの分野の研究者と刺激しあうことによって、さらなる音声合成の進化を目指していくつもりです。

もともと、子どもが好きで先生になる予定だったが、研究が思ったより順調なので間をとって大学の先生になることにしたもともと、子どもが好きで先生になる予定だったが、研究が思ったより順調なので間をとって大学の先生になることにした

インタビュー内容と先生の経歴等は2018年7月現在のものです。