民主制下における地方自治体の情報公開・オープンデータ化と情報セキュリティとの交錯に関する研究
木村 泰知 先生

小樽商科大学 商学部 社会情報学科 教授

LODとは、どのようなシステムでしょうか。

LODはウェブ上でデータを公開して共有するための方法の一つであり、誰でも自由に利用できるよう公開されている(オープンライセンス)のものを指します。簡単にいえば、たくさんの文章とデータが、同じフォーマットで結びつけられた資料です。

LODならば、会議録での「議員の発言内容をテキスト化した文章」と「実際に使用した使途明細」が同時に表示可能となり、発言内容に沿って正しい税金の使い方がなされているか、ひと目で判断できます。

たとえるなら、ウィキペディアのようなものです。LOD内のページは同じフォーマットで統一されており、リンクが貼られている部分にマウスをもっていくと、クリックして別ページに飛ばなくても内容の一部が表示されます。このため、いま調べている内容と、関連する内容を同時に閲覧しながら、理解を深めることができます。

オープンデータ化にLODを使用しなければ、どうなりますか。

もしLODがなければ、住民は自治体のホームページの中をうろうろしたり、会議録と政治資金収支報告書を別々に検索したりして、それぞれのページを発見せねばなりません。たとえ発見できたとしても、ワードファイル、エクセルファイル、PDFファイルであったりと、形式が異なっていることも考えられます。情報を比較するには、それらを逐一、印刷したり手書きでメモしたりするなど「面倒な作業」を強いられてしまうのです。

さらにLODの応用例としては、同じ議題に対する各党派の質問と答弁が、会議録の中で大きく離れてしまうことがありますが、それぞれの箇所で同じデータを表示させることにより、主張の異なる党派が特定の議案に賛成しているのか、それとも反対なのかといったことも、すぐに判るようになります。

たいへん便利だと思いますが、LOD上からウイキペディアのような場所にリンクを貼っていくとなると、手作業となり、コストがかかるのではないですか。

いいえ。Entitiy Linking(EL)という自然言語処理のタスク用いて、テキストとデータを自動的にリンクする手法を確立します。これにより“表記ゆれ”などに対して、混同することなく知識ベースと結びつけ、よりわかりやすい閲覧方法を提示できるようになるのです。地方自治体が扱える限られた予算内でも、コストを抑えることが可能になります。

自然言語処理だけでなく図書館情報学も研究されている

これらを研究されるにあたり、どのような課題設定をされましたか。

全国の地方自治体に対して、オープンデータ化の現状と課題を明らかにするため、現在の公開状況について質問シートを用いて調査します。この調査結果をふまえて、どのようなオープンデータを、どのぐらいの範囲で、どれくらいの職員数を専従させて公開していけばよいのか、その基準を定めることが目的です。

次に、情報の利活用を妨げる要因について調査を進めていきます。先ほど、個人情報漏洩を防ぐために、公開に際して自治体の動きが慎重になっているというお話しをしました。この他にも、法律面や、自治体の組織体制面の未整備などが公開を妨げる要因となっていないか、フィールド調査によって明らかにします。

今回の研究では、情報工学と政策学、それぞれの専門家を招聘し、チームを編成されたそうですね。

はい。質問紙調査に関しては、政策学チームの本田正美先生(東京工業大学 研究員)と河村和徳先生(東北大学 准教授)が担当します。全国のアンケート調査は河村先生が担当し、特徴的な自治体へのインタビュー調査は本田先生が担当しています。インタビュー調査では、高いインタビュー技術が必要であるため、専門家の先生方に担当してもらえるため、心強いものがあります。

情報工学チームはLODの構築を目的として、高丸圭一先生(宇都宮共和大学 教授)、内田ゆず先生(北海学園大学 准教授)とともに作業を進めています。内田先生は表記ゆれが含まれるテキストであっても適切に結びつけるための、異表記辞書を構築します。たとえば「働き方改革を推進するための関係法律の整備に関する法律」という法律名は、正式名称の「働き方改革関連法」という略称で記述されています。このような表記ゆれに対して、高丸先生はEntity Liking という技術を用いて関連文書を結びつける手法を考えており、私は、データの標準化と、地方自治体会議録への応用を担当します。

チーム別の役割分担と研究概略図