民主制下における地方自治体の情報公開・オープンデータ化と情報セキュリティとの交錯に関する研究
木村 泰知 先生

小樽商科大学 商学部 社会情報学科 教授

助成期間:平成30年度〜 キーワード:地方議会会議録 情報抽出 自然言語処理 研究室ホームページ

2004年北海道大学大学院工学研究科電子情報工学専攻修了。博士(工学)。2005年小樽商科大学商学部社会情報学科助教授、2007年同学科准教授を経て、2018年に教授となり、現在に至る。地方議会会議録のコーパス構築および情報抽出に関する研究を行っている。2012年人口知能学会論文賞、2014年公益財団法人日本デザイン振興会グッドデザイン賞、2017年第33回ファジィシステムシンポジウムポスターデモセッション優秀賞受賞。

まずは、先生の専門分野について教えてください。

情報工学の自然言語処理です。10年ほど前から地方議会会議録のコーパス(発話をデータベース化した言語資料)プロジェクトに取り組んでいます。地方自治体の会議録は、住民が行政に参加するにあたり、正確な一次情報を入手することができる有用な行政文書のひとつです。しかし、会議録は会議中の発話を書き起こしただけであり、そのまま利用することが難しいと考えられていました。

そこで、私たちは、47都道府県のフォーマットを統一化し、発言者の表記揺れ問題を解決した都道府県議会会議録検索システム「ぎーみる」を立ち上げました。これにより、どの議員がどの程度発言しているのか、あるいは、自分の自治体は他の自治体とどのような点で異なるのかを比較することが可能となりました。地元である北海道から研究を開始し、現在では全国の会議録を対象としています。

ちなみに、住民本位型政治情報システムβ版というサイトも公開しています。サイト上の簡単な質問に数個答えるだけで、すぐに自分の考えに近い議員が表示される仕組みです。これも私の専門である自然言語処理の研究成果の一つです。

住民本位型政治情報システムβ版の画面

地方自治体の会議録は市民にとって有用であるにも関わらず、なぜ閲覧環境が整備されていないのでしょうか。

「どのような情報を公開すべきか」という議論と、情報セキュリティ面の整備が、共に遅れているためです。

公共データを二次利用可能な形でウェブ公開する取り組みを「オープンデータ」化といいます。自治体のオープンデータは、地域の人口データ、地理情報データなどに加えて、先ほどの自治体会議録のような文書もあります。オープンデータは、「小地域人口データを用いて、○歳以上の人が、この地域に□人住んでいます」といったように地域の特徴が明らかになるような、個人情報に迫るものが存在します。このため各自治体は、住民の個人情報漏洩を防ぐために、公開には慎重にならざるを得ません。東京都など大都市圏の自治体は予算が潤沢にあるため、ある程度の人的労力を投入し、漏洩してはいけない個人情報を目視でピックアップした後で公開できます。しかし、地方自治体の予算で同じことを実施するのは不可能です。

最近はSNSの普及によって、信憑性の低いフェイクニュースが蔓延し、客観的な事実に基づかない世論が形成されることも増えているそうですね。

はい。こうしたフェイクニュースは、フィルターバブル(自分が見たい情報しか見えなくなること)を生じさせるなど、地方自治体の政策形成に悪影響を及ぼしかねません。オープンデータ化が進み、正しい一次情報が地域住民に知れ渡れば、誤った世論誘導を未然に防ぐことができます。ですので、自治体の一次情報オープンデータ化はたいへん重要であり、その取り組みが推奨されていますが、いまだに公開するための議論や情報セキュリティ面の整備が遅れているのが現状です。

そこで、私は「オープンデータ化を阻害する要因」、そして「行政文書のオープンデータ化による実現可能な応用技術」の両方を明らかにし、住民が気軽にオープンデータを利活用できるLOD(Linked Open Document)を構築することを目標に、研究を開始しました。本研究では、データに加えて文書を対象とするため、Linked Open Data ではなく、Linked Open Documentと呼んでいます。

地方自治体の会議録は、住民が行政への民意を形成するうえで正確な一次情報を入手することができる有用な手段であると語る木村先生