東日本大震災の影響で今秋に選挙が多い東北地方 選挙管理委員会の選挙データを使いやすくする方法を考えてみた(データアナリスト 渡邊秀成)

2011年3月に東日本大震災がありました。この年の4月には統一地方選挙が予定されていたため東北地方での選挙は秋にズレ込みました。そのためその後の東北地方の選挙は秋に行われるようになりました。この秋の選挙に関して東北地方の選挙管理委員会のデータを閲覧する人も多いと思います。今回はこの東北地方の選挙管理委員会が公開するデータ形式について観察します。

地域は異なれど同じ選挙に関するデータにも関わらず表形式が都道府県別に統一性がないために、データの使い勝手については大きな改善点があります。

地方選挙といえば当該地域だけの行事というイメージがありますが、日本の一部を構成する地方という考え方を持てば、選管データも統一したほうが業務効率化等につながるはずです。(例えばの話になりますが都道府県ごとに自動車運転免許証に記載されている内容が別々だったり、記載順がバラバラであったとしたら多くの人が混乱すると思います。)

そこで今回は東北地方選管が公開する県議会議員選挙の投票率に関するデータで比較し、改善策を考えます。

ファイル名は表記統一、分かりやすく、が鉄則

まず最初に各選挙管理委員会が公開する直近知事選挙_投票率データのファイルについて比較をします。下の図をご覧ください。これらは全て直近知事選挙の投票率が記録されているデータです。

パッと見てPDF形式で公開されているもの、エクセルファイルで公開されているもの、2種類あることがわかります。そしてファイル名で投票に関するものであることがわかるもの、数値のみで表現されていて何のファイルであるかわからないものがあります。

そしてこれだけではどの県の投票率データであるかは判然としません。筆者の方でファイル名に都道府県名を振ったものがこちらになります。

筆者が都道府県名をつけたファイル名

都道府県名が付与されることでどこの選挙結果であるかわかります。地域は異なれど同じ選挙に関するデータを扱うわけですから、これらファイル名も統一してほしいと思います。

また、表記揺れとして

投票 tohyo,touhyou

知事 tiji,chi

全角数字半角数字の混在、

選挙執行日がファイル名から判断できるものできないもの

とあります。

データが蓄積されてくるとファイル名で並び替え等も出てきますので、ファイル名には和暦のみではなく西暦表記も必要だと考えます。またファイル名には半角数値を利用する必要があります。

例えば

20231001R05Tohyo_chi  (執行日和暦年投票結果_知事)半角数字を利用

20221001R04Tohyo_kengi  (執行日和暦年投票結果_県議会)

アンダーバーを利用しない方式を採用するのでしたら

20231001R05TohyoChiji  (執行日和暦年投票結果_知事)半角数字を利用

20221001R04TohyoKengi  (執行日和暦年投票結果_県議会)

という形式も考えられます

上記ファイル名があればデータをダウンロードしてからも日時もどのような内容が入っているかがわかります。

ウェブサイト上からデータをダウンロードする際にページにファイルの名前がついているから良いのではないか?データスクレイピングをする際にネームも取得するから大丈夫という意見もあるとは思いますが、大量にデータを扱っているとどれがどれだかわからなくなります。そのようなことを考えるとファイル名から中身が判断できるものであることが望ましいと思います。

集計を市ごと、郡ごとに分けると使い勝手が向上

続いて投票率データの表について観察をします。

東北6県では投票率に関するデータ形式に大きな違いはありません。

ここでは青森県の例を掲載します。

市町村名/選挙当日の有権者数/投票者数/棄権者数/投票率の項目がありそれぞれ男女別に記載されています。

東北6県で統一が取れていてとても良いのですが改善してもらいたい部分もあります。それは市部での集計、郡部での集計が分けてあるとよりデータの使い勝手が良くなると思います。

例えば青森県を例にすると、黄色の部分が市部、郡部の集計になります。この黄色の部分は、別シートに掲載するなど分離した方が見やすくなります。

そして市町村名コードをつけて他のデータとの連携をしやすくなります。例えばこのような感じです。

筆者が作成した改善案

このような細かい作業の積み重ねが大きな効率化を生み出します。ただ総務省が地方選挙を一括管理をするデータ登録サイトを用意して、そこに各都道府県、市区町村がデータ登録できるようにすれば、これらの問題は解決されます。

行政DX等が盛んに叫ばれますが、このような小さな積み重ね、国民、住民の使い勝手が良いデータの公開を官公庁にはお願いしたいと思います。

短期的にはファイル名、表形式を統一化することによるデータ流用の容易性、データメンテナンスの簡易性、職員業務負担の軽減化等のメリットがあります。

その一方、選挙からの時間が経過して、のちの人々がデータ検証したい場合に簡易にデータ内容を判別できるファイル名、利活用しやすい表形式であると、それらの人の利便性が向上します。

選挙管理委員会の職員もローテーション人事で数年ほど異動することが多いと思います。選管職員がデータを担当する時間はわずか数年でも、そこで記録されたデータは末長く利用されることになります。

そのようなことを考えると、正確に記録したデータを検索しやすいように保存しておくことは、選管職員の大きな役割の一つです。

自身でプログラムを書く人は理解していただけると思うのですが、各種プログラムを書く際には、3ヶ月後、半年後、1年後の自分が見返しても、どの行がどのような動作をするのかをすぐにわかるように記述することを意識します。それと同様に選管の各種データも単に記録を公開するだけではなく、可読性、そのデータの利活用を意識したデータ作成をすることが望まれます。

以上、改善点ばかりを書いてきました。

東北地方ではありませんが 北海道選挙管理委員会 のデータ公開形式に変化がありました。

以前はWebサイト上に選挙ごとにHTMLのテーブル形式で選挙結果が掲載されていました。現在は選挙データが選挙ごとに圧縮ファイルに入っており、一つのファイルをダウンロードすれば当該選挙に関するデータについては全て入手できる形式になっています。何度もファイルダウンロードをせずに済むのでとても便利になりました。あとは総務省形式で選挙結果データがあればさらにデータの使い勝手がとてもよくなります。

行政機関はなかなか行動様式が変わらない傾向にありますが、行政DXを迅速に進めるためにも、小さな改善点を積み上げて国民、有権者にとって使い勝手の良いデータ公開をお願いしたいと思います。

今回は東北6県の知事選挙データについて観察をしてみました。

© 選挙ドットコム株式会社