Googleトレンド(Kaggle)を見て1年を振り返ってみる
こんにちわこんばんわ、わかめです。こちらの記事は今年1年であった日本でのKaggle関連のニュースをGoogleトレンドともに振り返ってみようというものです。
振り返ってみようと思った動機として、Kaggle-ja-slackの規模が今年になって急に大きくなったなぁという印象があったからですね。upuraさんのスライドから引用するとだいたい500member / 月の伸びなんですが・・・すごいなぁと。
ちなみに最新のKaggle-ja-slackの参加人数はこちらになります。まだまだ今後も増えていきそうですね!
【祝】kaggle slack 3,800人を超える
— Takami Sato (@tkm2261) December 20, 2018
コンペ終了の盛り上がりで一段と増えました!
国内学会の衰退、エンジニア勉強会ブームの落ち着き等々で日本人(日本語only話者)の学習/研究意欲は何か出口を求めている気がする
kaggleがはけ口として良いかはあるけど、これだけ人集まったら何か起きていくのかな pic.twitter.com/IiB2RwpSi5
またKaggle-ja-slackに興味ある方はこちらから参加できますのでぜひ参加してみてください。(宣伝)
@smlyさん @threecourseさんに
— Takami Sato (@tkm2261) 2017年8月22日
日本Kagglerのslackオープンしてもらいました!
誰でもウェルカムです!ただ互助会なので業者や勧誘は蹴飛ばします!
皆でKaggleやりませうhttps://t.co/PUuyCJFk8F
というわけで本題に入ります。下のグラフはGoogleトレンド、検索キーワードを「kaggle」に設定、日本限定で検索トレンドを可視化したものですね。 こちらを独断と偏見でピークポイント(赤丸で囲った部分です)を決めまして、その付近のKaggle関連のニュースを振り返ってみたいと思います。
ピークポイント8個それぞれの期間はこんな感じになります。
- 2018年3月4日 - 2018年3月10日
- 2018年4月1日 - 2018年4月7日
- 2018年4月15日 - 2018年4月22日
- 2018年5月6日 - 2018年5月12日
- 2018年6月24日 - 2018年6月30日
- 2018年9月9日 - 2018年9月15日
- 2018年10月21日 - 2018年10月27日
- 2018年12月2日 - 2018年12月8日
だいたい1ニュース / 月があったようですね。(7月8月話題がないのは皆さん夏休みだったからですかね)それでは期間ごとに振り返ってみましょう。
2018年3月4日 - 2018年3月10日
ヤフー、エンジニア募集要項必要スキルにKaggleというワードが!
こちらの記事の一般の人からすると「新卒でも年収650万狙える!?」というのが第一印象だったのではないかと思いますが
Kagglerからすると印象に残ったのは
(4)Webサイト「Kaggle」のコンテスト(単独参加)でトップ10%に入賞
という点だったと思います。 www.itmedia.co.jp
上のニュース記事を受けてこちらのツイート(上の記事リンク出してからのY社はまったく隠れてませんね・・・w)
Y社さんの新卒年収が話題ですが、この中でKaggle Top10%が一番楽な基準です。
— Takami Sato (@tkm2261) 2018年3月6日
昔Kagglerと話したとき、このシルバー相当ラインは、
『全期間(約3ヵ月)公開カーネルをしっかり読んで真面目に参加すれば取れる』で一致したので、
職歴なしニートも3ヵ月で年収650万円の人生逆転ホームランが狙えます
残念ながら未だに私はシルバーメダル取れてませんorz
2018年4月1日 - 2018年4月7日
DeNA、業務時間にKaggle参加を推奨する制度を導入
4月に入ってすぐですね、すごいニュースが入ってきましたね。エンジニア界隈がざわついた瞬間でもあると思います。 dena.com
このニュースを見て一番驚いたのはこういう前置きは書きつつも
業務Kaggle割合は、社内業務アサインの工数目安を規定するものである。アサインされた業務においてはランクにふさわしい高い成果を出し、データサイエンスチームとしての信頼を保たなければならない。 Rank SS(Kaggle100%)の場合、主担当してアサインされる社内案件業務はないが、会社を代表するデータサイエンティストとして、社内の分析相談に真摯に応えることは求められる。
RankSSであればKaggle業務100%に業務時間を使えるということだったと思います。
2018年4月15日 - 2018年4月22日
技術書典4にてKaggleチュートリアル本がバズる
私も行ったはずなのにあまり記憶が・・・ 4月22日は技術書典4の開催日でしたね。
そしてそちらで販売されたkaggleチュートリアルブックがバズっていたという記憶が印象に残っています。
著者のcurrypurinさんは執筆後怒涛の勢いでKaggleのメダルを取得しており、後少しでKaggleMasterという手前に迫っております。
2018年5月6日 - 2018年5月12日
Kaggleは役に立たない?
Kaggleは役に立たないというタイトルに反して、内容はKaggleと実務との関係性を分析している記事です。 ただ記事で指摘されている通り
脳みそを空っぽにしていろんなモデルや特徴量を作ってアンサンブル たくさんランを流してxgboostのscoreの流れをぼーっと眺める 画像コンペでのトレーニングデータへのラベリング とか、何やってんだろと思うこともあるのは確か。
自分でもスコアを上げるためによくわからないことをやっているなと自覚することはあります。 特にDataLeakageに関してはパズルと揶揄されることもあったり・・・。
月刊: Kaggleは役に立たない | threecourse's memo
2018年6月24日 - 2018年6月30日
機械学習を初めたいなら何をやれば→Kaggleで手を動かしてみる!
また仁科さんは、オンラインでのデータ分析コンテストサイト「Kaggle」を勧める。「簡単な問題から難しい問題までそろっていて、チュートリアルが用意されているものもあるので、機械学習の基礎を手元で簡単に学ぶことができる。入門としてお薦め」と話す。
これに関しては私も同意です。Kaggleは基本初心者を歓迎しています。例えばKaggleLearnというデータサイエンスを学ぶためのコースを用意していたり、またカーネルという仕組みは手元にインターネットに繋がるマシンさえあれば、PythonやRのコードを動かすことができるバーチャルマシンを無料で動かすできるというものです。
2018年9月9日 - 2018年9月15日
Home Credit Default Riskにおいて日本勢多数入賞!
入賞報告多くて全部取りあげるのが難しいくらい入賞されている方が多かったです。
なんでこんなに入賞する人が多くなるのかについて少しKaggle入賞のシステムを簡単に説明しますと、基本上位3位までが賞金授与対象なのですが、参加人数に応じて割合でGold/Silver/Bronzeメダルをゲットできる枠があります条件については下記リンク記事が詳しいです。
今回で言うと7198チームが参加していたのでGoldがトップから24チーム、Silverが次いで335チーム、Bronzeが次いで360チーム、入賞対象が全部で719チームになったコンペでした。ちなみに1チームのメンバー人数制限はなかったので何人でもメンバー集めてチームを組めました。パッと見たところ20人のチームが最大ですかね。そんなこんなで入賞報告が多かったわけです。 (余談ですがこんなことがあったので1チームのメンバー人数制限ができたんですかね。)
入賞報告ブログ紹介
DeNAのKagglerである小野寺和樹と加納龍一を含むチームが、過去最大のKaggleコンペである"Home Credit Default Risk"にて、7198チーム(参加者数8572名)中2位に入賞しました。今年4月からのKaggle社内ランク制度開始以来の、大きな成果となりました! (https://t.co/WkM2GOKwbc) pic.twitter.com/E1pEmuY6DU
— DeNA (@DeNAPR) 2018年8月30日
Google AI Open Images - Object Detection TrackにおいてPFNが準優勝
Kaggleの話題になるとP社とD社が名前に挙がる説
下記事はログインしないと記事内容を読めないので何があったか説明しますと www.nikkan.co.jp
こちらのKaggleコンペの内容は1枚の画像から複数の物体を認識するタスクですね。
上の画像を見る限りすげー難しそうなタスクだということはなんとなくわかると思います。
そしてこちらのコンペで準優勝したということですね、すごい!
一時期優勝したメンバーのアイコンのSlackカスタム絵文字がKaggle-ja-slackで流行ったのが面白かったです。
Kaggle - google-ai-open-images-object-detection-track - leaderboard
上の内容を書き終わった後にこちらの記事を見つけました、コンペ内容と結果について端的にまとまっているのでこっち読んだほうが要旨はすぐ把握できそうですね・・・。 www.preferred-networks.jp
2018年10月21日 - 2018年10月27日
MANABIYA#2の1枠にてKaggleが取りあげられる
こちらのイベントも私は不参加でしたが、当時ライブ放送されていたのでそれを見ながらTwitterで実況してました。 manabiya2.peatix.com
10/21 (日) - Day 3 6限目 (16:30 - 17:10):【3-6】Special Session:キスモ「Kaggleで変える日本の機械学習活用」
発表の内容はKaggleの紹介とKaggleが実務へどう役立つかについての発表でした。コンペに参加する手前様々な手法を試す機会がある点がカードゲームで言う手札を増やせるよというお話でした。
MANABIYA#2に大越が登壇し、Kagglerとして発表しました | 株式会社キスモ
2018年12月2日 - 2018年12月8日
KaggleMeetup#5開催!
ちょっと時期はずれますが12月1日にKaggle Tokyo Meetup #5がありました、私は参加登録したタイミングが遅くて残念ながら参加できませんでした。#kaggle_tokyoのハッシュタッグを当時見てましたが行けなかったのはだいぶ痛手だったなぁと・・・、次回はぜひ参加したいですね。 connpass.com
Kaggle Grandmaster/Master or 金メダル保持枠とKaggle Expert or 銀メダル保持枠が前回と比べてそれぞれ約3倍、約2倍増えてるのはすごいですよね。
Kaggleアドベントカレンダーが始まる
全体的にKaggle実践的なTipsや解法の共有があったのでとても勉強になりました。 qiita.com
上のアドベントカレンダーが埋まったのでしれっとその2が作られていたのが面白かったです。 qiita.com
この記事を書いてて思ったのはこの記事をアドベントカレンダーに登録しておけば良かったのではと。
Signateプチ炎上
Signateは日本版Kaggleみたいなところがありますし関係性は少しながらあると思いますので取りあげました。 Signate登録時の個人情報を異様に要求してくるってところですね、当時学歴(大学)入力がオプションではなく必須だったのがびっくりしました。 blog.shikoan.com
あと自分の何気ないツイートが炎上を加速させた気がします。
草 / SIGNATEの個人情報要求がすごかったので経済産業省に電話した話 https://t.co/bLqAzHTLXS
— wakame@kaggleやるマン (@wakame1367) 2018年12月3日
今は掲載されてないようですが、個人的に面白かったのはこの画像ですね。
最後に、Kaggleという結構ニッチな界隈だったつもりがいつのまにかニュース記事に取りあげられたり、雑誌の1コラムに取り上げられたりとネタに事欠かない凄まじい1年だったなぁという感想です。