行政機関の公開データ形式が使いやすくなるかもしれない?

2020年11月25日に河野太郎 行政改革担当、国家公務員制度担当、内閣府特命担当大臣が各省庁がネット上で公開する統計を機械判読可能にするために、
データの表記方法を統一させる旨を

に投稿しました。この大臣の発言は公的機関の情報を扱う人々にとっては大きな朗報となります。

 なぜこの大臣発言が大きな反響を呼んでいるのかというと、各省庁がウェブ上で公開する統計情報が、とても利用しにくいことが多かったのです。

 例えば、Excelを利用する人が表の体裁を整えるために、何気なく利用するセル結合や半角スペースで文字の幅を整える行為は、自動的にデータを処理がしにくい形式の一つです。

 具体的にはこんなデータ形式です。
 統計表における機械判読可能なデータ作成に関する表記方法案からみてみましょう。

 いわゆるエクセルのセル結合、方眼用紙エクセル等が、この表記方法案には記載されています。

 この表記法案に記載された方式で作成されたデータは、そのままコンピュータに読み込ませることはできないことが多く、コンピュータにデータを読み込ませるために、セル結合を解除したり、半角スペース等を削除するなどの前処理をしたりする必要がありました。

 この前処理に手間がかかることが多く、前処理等でデータ解析業務全体の90%程度占めることもあります。

 この前処理部分の工程が大幅に改善されることで、データ解析部分に多くの時間を割けるようになり、データに基づく様々な試行錯誤をする時間を確保できるようになります。

 選挙に関する情報でいうと、ある選挙管理委員会が公開している選挙結果情報に、以前このようなものがありました。

 小数点以下を別のセルに記載する方式が採用されています。
 ここからは推測になるのですが、整数部分と小数部分を分割することにより、
得票数を人が見やすくしたものではないかと考えます。
 ただ、このようなデータ形式ですと数値の並び替え等が行えなくなりますので、データの利活用の点を考えると避けたい形式です。

 これまでは一般に人が見やすい形式でデータが作成され、それがそのままウェブ上でデータ公開されていましたが、今後はデータの利活用まで含めたデータ公開に政府としても動き始めたことになります。

 この統計表における機械判読可能なデータ作成に関する表記方法案は官公庁に限らず、民間企業等でもデータ作成の際には役立つ内容です。
 これらの資料をもとにご自身が所属する団体内、個人が作成するデータでも十分に参考にしてみてはいかがでしょうか?

 そして官公庁が公開する各種データでお願いしたいものとしては、郵便番号データを利活用しやすい方法で公開してもらいたいということです。
 さきほど紹介した河野大臣のTwitter書き込みの下に、あるかたの郵便番号の公開方法について検討してもらいたい旨が記入されています。

 この郵便番号問題はデータ処理、データ解析に関わる人は、だれでも一度は直面する大問題です。
 非常にデータが利活用しにくい形式で公開されているので、データを利活用しやすい形式に変換するために、いろいろなプログラムを作成したり、正規表現処理等を生み出したりしています。

 ただ、これらの作業は、日本郵便が最初利活用しやすい形式でデータ公開すれば、一切不要になります。
 多くの人が利用することが想定される公的機関等が保有するデータを公開する際は、データが利活用しやすい形式で公開されることが望まれます。

 そして、現状まだまだ多いPDF形式でデータ公開方式も、利活用しやすいCSV形式等で公開する流れになれば、よりデータ利用が促進されることと思います。

 今回のデータ公開形式についての取り組みは、非常に地味な内容で世の中に対してアピールしにくい内容に見えますが、データ利活用に対して大きな前進になるはずです。

 現在PDF形式で公開されている各種報告書、ウェブ上で情報公開されてはいるがデータがコピー&ペーストできないPDF形式、特定ブラウザーでのみ閲覧できるウェブサイト等がありますが、行政情報は公的財産でもあるので、
より利活用しやすい形式で公開されることを望みます。
 
 前回、今回と公的機関が公開するデータ形式について見てきました。

© 選挙ドットコム株式会社