古井貞熙名誉教授(東京工業大学グローバルリーダー教育院・特任教授、豊田工業大学シカゴ校・学長)大川賞受賞記念インタビュー「コンピュータによる音声認識・理解手法の先駆的研究」

音声認識とは、私たちが会話する内容をコンピュータが解析し、文字データとして認識することです。近年スマホをはじめ、さまざまな日常生活のシーンでも欠かせないものになりつつあります。東京工業大学グローバルリーダー教育院・特任教授である古井貞熙先生は、現在の音声認識技術のルーツとなる研究を、30年ほど前から進められた先駆者であることから、その功績がたたえられ、2012年に大川賞&日本放送協会賞をダブル受賞されました。研究をはじめられた理由から、音声認識の未来像まで、古井先生にお聞きしてきました。

セコム科学技術振興財団・理事。
1968年東京大学工学部計数工学科卒業。1970年同大学院修士課程修了。同年NTT電気通信研究所に入社。1978年工学博士(東京大学)。1978-1979年米国ベル研究所客員研究員。1986年NTT基礎研究所第四研究室長。1989年NTTヒューマンインタフェース研究所音声情報研究部長。1991年同研究所古井特別研究室長。1997年東京工業大学大学院情報理工学研究科計算工学専攻教授。2007年同情報理工学研究科長。2009年同附属図書館長。2011年同名誉教授、グローバルリーダー教育院および大学情報活用センター特任教授。2013年より米国豊田工業大学シカゴ校(TTIC: Toyota Technological Institute at Chicago)学長。音声認識、話者認識、音声知覚、音声合成、マルチメディアインタフェースなどの研究に従事。科学技術庁長官賞、文部科学大臣表彰、NHK放送文化賞、紫綬褒章受章。IEEE、ISCA(International Speech Communication Association)、電子情報通信学会、日本音響学会などより功績賞、業績賞、論文賞、著述賞など受賞。IEEE、米国音響学会、ISCAおよび電子情報通信学会Fellow。ISCA、アジア太平洋信号情報処理学会(APSIPA: Asia Pacific Signal and Information Processing Association)および日本音響学会会長、国内外の学会誌の編集長など歴任。

2012年度大川賞の受賞おめでとうございます。

  大川賞は、情報・通信分野における研究、技術開発において顕著な社会的貢献をした研究者に送られる賞として有名な国際賞です。私が40年以上にわたって、世界中のいろいろな方々と協力して研究開発してきました音声認識・理解技術が、近年、コンピュータの性能向上に支えられて、グーグルの音声検索、アップルのSiri、NTTドコモの『しゃべってコンシェル』、テレビ放送の音声への字幕の自動付与など、いろいろな形で本格的に実用化されるようになってきたことが受賞理由と思います。このような栄えある賞を、米国MITのVictor Zue教授と一緒にいただけたことを心より嬉しく思っています。

国会では、国会議員の質疑応答が、コンピュータを用いた音声認識で議事録として自動作成されるまで進化しているそうですね。

  はい。まだ完全に誤りなく音声認識することはできませんので、人が最終的に誤りを修正し、議事録の形に編集することが必要ですが、聞くところによると、速記者を新規に採用し特殊な養成をする必要がなくなったので、トータルのシステムとしての経済化が図れることになったそうです。こう言ったら元も子もありませんが、タイピングできるなら、そうしたほうがまだ正確です(笑)。アルファベットを使用する欧米の国々は、文字が26文字しかありませんから、早いタイピストなら、ほぼ人間が話す速度でテキストを打ち込むことが可能です。このため、米国や英国では、テレビ放送の音声の字幕のほとんどは、タイピストがテキストを打ち込んで付けています。

日本語は、ひらがなだけでなく、カタカナや漢字があり、アルファベットが使われることもあります。リアルタイムでのテキスト化はどんなに早く打ち込むタイピストでも不可能です。日本でコンピュータによる音声認識の研究が発達した理由の一つはそこにあるのかもしれません。

 そうですね。音声認識にはいろいろな用途がありますが、大きく2つに分けることができます。「会議や講演などの音声の自動書き起こし」と「コンピュータやロボットとの音声による対話の実現」です。後者は話し手の意図が伝わればよく、必ずしもすべての音声が正しく文字に変換される必要はありません。近未来は、パソコンに向かって、対話するだけで、あらゆる情報が引き出せる時代がくるでしょう。


古井先生がこの世界を目指されたのは、なぜですか。

  大学の計数工学科を卒業したあと、大学院に進学したのですが、そのときに研究分野をはっきりさせねばならず、信号処理を選択しました。その処理の対象として音声を使っているうちに、音声そのものに興味を持ち、当時NTTの研究所で音声の研究をされていた板倉さん(元名古屋大学教授)の研究を目にして、これをメインにしようと思いました。そして板倉さんの弟子入りをするために、NTTの研究所に就職することを決意しました。
  NTTでは、もともとは「誰が」話しているのかを判定する話者認識から研究をはじめました。昔の言い方で言うと「声紋鑑定」です。これも音声認識の一部ですね。

五感とよばれる感覚器官はそれぞれの分野において、その生物学的な仕組みや、そこから派生した応用研究などが行われていますが、たとえば「視覚」と比較しても「聴覚」に対する研究は、少し想像しただけでも難しそうだと分かります。

  やはり、目に見えないものを研究対象に選ぶということは、ひじょうに難しいですね。最初は、どういうふうに数値化していいのかわからず、まったくの手探り状態から研究をしなければいけませんでした。音は時々刻々変化する性質をもっています。普段の会話では、アナウンサーが原稿を読むときのように、一音一音きっちり発音している場合でも、一つ一つの音が分かれているわけではなく、前の音や後ろの音に影響されたりして、ダイナミックに変動しています。普通の人の話し言葉では、それが特に顕著になります。どういうことかといいますと、いわゆるテープレコーダーを逆回しにするとよく分かります。「あ・い・う・え・お」を逆回しにすると「お・え・う・い・あ」に聞こえます。しかし通常の会話のなかで「あいうえお」と発音されたものを逆回しすると「おえういあ」とは聞こえず、何を言っているかわからない音に変化します。これは人間の声だけではなく、ピアノの音を逆回しにしても同じことが起こります。オルガンのように聞こえるのです。

私達の会話は、単純な一音一音の集積ではないと。

  はい。これが私どもの研究の難しいところであり、やりがいでもあるのです。
  さきほど、NTTで研究生活をスタートさせましたと言いましたが、そこは大学に比べて研究体制が大いに整っており、人も優秀で資金も豊富でした。とはいえ、1970年頃のことですから、一つの単語に対して周波数解析するのに10分以上かかりました。ですが当時、誰の声で、どのような内容かを自動的に判定させたい、さらにそれをコンピュータに合成させて話させてみたいと強く思ったのです。目標はコンピュータが人の言葉を人間並みに聞き、対話できるようにしようと。そこで1978年から1979年にかけて、アメリカのベル研究所にいき、それまで日本でやってきた研究とベル研究所の技術を融合させることによって、新しい音声の表現法を発明しました。

現在では、世界中の音声認識のほとんどで、先生が発明した方法によって、音声がコンピュータで使える形に変換されています。

  これを特徴抽出といい、その具体的な方法が“動的ケプストラム”です。“ケプストラム”は私が大学の研究室で学んで、NTTの研究所で話者認識に用いていた方法であり、“動的”な部分がベル研究所のものですから、さきほども申しましたように合作ですね。これが音声を表現する方法としてきわめて有効だと認められて、30年以上たったいまでも世界中の音声認識システムにおいて使われています。