Kaggleとは? 参加方法やサイトの見方、ランク制度を機械学習初心者の方向けに徹底解説

INDEX

データサイエンスについての勉強を始めるとKaggleについてよく見聞きします。

「Kaggleで銀メダルを取りました!」といった報告を見てすごいな、自分もいつかは……、と思いつつも敷居が高く感じて参加できていないという方も少なくないのではないでしょうか。

本記事ではまだ参加したことのない“完全初心者向け”にKaggleとは何か、初心者はどのように利用すればいいのかといったポイントを解説します!

Kaggleとは?世界中のデータサイエンティストが腕を競い合うプラットフォーム

Kaggleとは13万人以上の参加者数を誇る世界最大の機械学習・データ分析コンペティションのためのプラットフォームです。Kaggleの参加者は「Kaggler(カグラー)」と呼ばれ、Kaggleに登録されたお題にチャレンジし、その成績を競います。

お題の内容は「クレジットカードの貸し倒れリスク予測」「画像によるクジラの識別アルゴリズム構築」「イヌ画像の生成」など多様。期間はおおむね2~3カ月程度で(5カ月など長いものもある)、成績によって参加者は「金メダル」「銀メダル」「銅メダル」「それ以外」にわけられます。

それぞれのメダルの取得条件は以下の通り、大会の参加チーム数によって異なります。

金メダル銀メダル銅メダル0-99チームトップ10%トップ20%トップ40%100-249チームトップ10トップ20%トップ40%250-999チームトップ10+0.2%トップ50トップ1001000チーム以上トップ10+0.2%トップ50%トップ10%

Kaggle Progression System┃Kaggleより引用

賞金が設定されている大会の場合、最上位の成績を修めた数名(数チーム)の参加者は規定の賞金が受け取れます。その金額は数百万円程度が多く、中には数億円を超えるものまであります。ただし、賞金が設定されておらずKnowledge(知識)やSwag(記念品)、Kudos(賞賛)が賞金という大会も多く存在します。

Kagglerの多くは賞金以上に大会に参加することで得られる知識や経験、ゲーム的楽しさ、社会への貢献を目当てにKaggleに参加しています。

2020年上半期には「感染の拡大予測」など新型コロナウイルスにまつわる大会が多く開催されました。

Kaggleの参加方法と簡単なサイトの見方とは

Kaggleへの参加は無料かつ簡単です。以下の手順で登録が可能となっています。

【1】kaggle.comにアクセス
【2】右上のRegisterボタンをクリック
【3】Googleアカウントもしくはメールアドレスで登録する

登録が完了すると以下のトップページにアクセスできるようになります。

主なカテゴリとその使い方は、以下の通り。

カテゴリ①Home


自分専用のホームです。自分向けにカスタムされたニュースフィードや求人情報、現在のステータスなどを見ることができます。

カテゴリ②Compete


コンペティション情報がまとめられたページです。

「Active」で現在参加できる大会、「Completed」ですでに締め切られた大会について見ることができます。「InClass」は個人などが内輪で開催できる大会で、企業内コンペや大学の課題などのために使われます。

それぞれのコンペティションをクリックすると、概要やデータセット、後述のカーネル、大会にまつわるディスカッション、現在の順位がスコアとともに掲載される「Leaderboard」、ルールにアクセスすることができます。

カテゴリ③Data


さまざまなデータセットが共有される場です。ここからデータを取得して機械学習に用いることができます。また、自らデータセットを作成して他者と共有したり、意見を募ったりすることもできます。

カテゴリ④Notebooks


ブラウザ上でPythonまたはRのコードを動かせる環境および、ほかのKagglerがつくった予測モデルのコードやその解説をみることができます。かつてはKernel(カーネル)と呼ばれており、今でもそちらの名前を用いる人も多いです。

この他者のNotebooks(カーネル)を見ることができるというKaggleの特性は、データ分析の学習において非常に役立ちます。Notebooksを参考にしながらコードを自分で書いていくだけで、自分よりはるかにレベルの高いKagglerのモデルを再現することができるからです。

カテゴリ⑤Discuss


ほかのKagglerとのコミュニケーション用のページです。

掲示板形式で挙げられた議題に対しコメントをぶら下げる形で、気になる問題について議論を深めたり、上位のデータサイエンティストから疑問への回答をもらったりすることができます。

カテゴリ⑥Courses


データサイエンスの学習用のコースが用意されています。Python、機械学習、特徴エンジニアリング、SQLなどデータサイエンスにまつわる知識について一通り学ぶことができます。

Kaggleのサイトにはほかにもデータサイエンティストの求人が掲載されたJobsやKaggler全体がランク付けされたKaggleランキングなどのコンテンツが用意されています。

Kaggleのランキングとは?Grandmasterになるための条件を紹介

Kaggleのランキングについてより詳しく見ていきましょう。

ランクにはGrandmasters、Masters、Experts、Contributors、Novicesの5つがあり、最初は誰もがNovicesからスタートすることになります。

上位4ランクへの昇格条件は以下の通り。

Grandmasters・5つの金メダル及び単独での金メダルを獲得Masters・1つの金メダル及び2つの銀メダルを獲得Experts・2つの銅メダルを獲得Contributors・プロフィールに自己紹介、居住地、所属団体を追加
・アカウントのSMS認証
・スクリプトを1行書く
・大会を一つ作るもしくはタスクを提出する
・1つコメントを残す
・ディスカッションでのupvote(賛成票)を投じる

Kaggle Progression System┃Kaggleより引用

これはあくまでコンペティションでの称号であり、Expert以上の場合、Datasets、Notebooks、Discussionsのそれぞれにまた別の昇格条件があります。2020年6月28日時点でGrandMasterの人数は187人、Masterの人数は1,435人と非常に狭き門であり、それらの称号はデータサイエンティスト界隈で大きな尊敬を集めるとともに転職市場などでも一定の評価が与えられることは想像に難くありません。DeNAのようにKaggleによるデータサイエンティストのランク制度を設けている企業もあります

終わりに

参加して損はない、データサイエンスの学びの場Kaggleについてご紹介しました。

英語サイトのためとっつきにくそうと思われた方もいるかもしれませんが、コードとともに説明されるため翻訳ソフトを駆使すれば存外意味が理解できるものです。

早速Kaggleに参加して、チュートリアルコンペ「タイタニック号の生存者予測」にチャレンジしてみましょう!

【参考資料】

カレーちゃん「kaggleのチュートリアル。第4版公開しました」┃note COVID-19 と戦う医療研究者に対するデータ サイエンティストの支援┃GoogleCloud 原田慧「Kaggleで描く成長戦略~個人編・組織編~」┃SlideShare 大越拓実「Kaggleで変える日本の機械学習活用」┃SlideShare @shimopino「内輪でやろう!KaggleのInClassコンペ」┃Qiita Kaggleとは?機械学習初心者が知っておくべき3つの使い方┃codExa

宮田文机

© ウイングアーク1st株式会社