インサイトテクノロジーでは、db tech showcaseというイベントを毎年開催しており、今年で10周年となります。今年で10回目?かというとそうではありません。派生イベントとして、
- db tech showcase OSAKA(2013/2014)
- db tech showcase SAPPORO(2015/2017/2018)
- db tech showcase OSS(2017)
- db tech showcase Worldwide(2016)
- db analytics showcase(2016/2017/2018)
といったイベントを行っており、合計17回にもなります。 これまでの累計では、
- セッション数:1,088
- 参加申込み者:12,320
- 当日参加者:7872
となり、こうして数を出してみると手前味噌ながら凄いですね。
今回は、この中で得に印象に残ったセッションについてお話ししたいと思います。といっても自分の趣味にも関連したものです。
今までもゴルフ、バイクなどに触れてきましたが、この他にも音楽(洋楽・邦楽問わず)も趣味のひとつです。「森田さんは多趣味だねー!」と取引先の社長さんに言われるまで、あまり多趣味とは思っていなかったのですが、このように並べてみると確かに多いかもしれません・・・
実は、趣味のもうひとつに「競馬」もあります。基本的には、日曜日に開催される、G1という大きなレースを中心に勝負をしている程度です。でも年間で22レースもあり、冬はあまりレースがありませんから、そこそこの頻度で会社の「チームG1」というグループLINEで予想を公開して楽しんでいます。収支は、この2年くらいはマイナスに落ちましたが、年間で1万円もマイナスになっていないので、楽しんでいることを考えれば安いと思っています。といっても、毎回二桁万円馬券を狙っています!(^-^)
前書きが長くなりましたが、2017年に札幌で開催したdb analyics showcaseであったセッションに、
========================================================
db analytics showcase Sapporo 2017
B23:BigData, Data Science, Machine Learning, AI
ウマナリティクス!〜競馬×データサイエンスの挑戦〜
ウマナリティクス
田中 健太
AlphaImpactプロジェクト
大元 司
AlphaImpactプロジェクト
貫井 駿
========================================================
がありました。 詳細は、株式会社AlphaImpact様のWebサイトを見ていただければと思いますが、データを元にした競馬人工知能開発といったところでしょうか。
https://alphaimpact.jp/2016/12/08/data-mining-history/
こちらの会社様では、私も愛用しているnetkeiba.netというサイトで予想を公開しています。
[的中型人工知能]
・的中率重視のローリスク競馬AI
・売れ筋: 1位
・回収率 : 115%
・的中率 : 32%
競馬をあまり知らない方はわからないかもしれませんが、回収率が100%を超えるのは凄いです。
人工知能(機械学習)で予想を求めていますので、まずはデータ収集が必要となります。そして収集したデータの整形、機械学習という手順が一般的です。
こちらでは、教師データから序列を求める機械学習(ランキング学習)で予測を求めているそうです。ランキング学習と言っても、様々なアルゴリズムが存在しています。しかし最も重要なのは、データをいかに収集するかが勝負だとセッションの中で述べていました。1データモデルを作成するのに500レースを用いているとのことです。1レース平均14頭出走しているので、7000サンプルから予測をしているとのことでした。2017年の話なのでもっと多くなっているかもしれませんね。
精度が上がらないのは、全てのデータを収集することができないからと述べていました。そりゃそうですよね。馬の体調のデータなんて公開されていないし、天候や温度、馬場の状態、騎手の体調なんていうものも関係あるかもしれません。仮にそのようなデータを全て収集できれば、飛躍的に的中率は上がると述べていました。 何事も「データ」と「データをどう扱うか」が重要ということですね!
しかし、競馬の予想がAIで全て的中してしまったら、競馬は成り立ちませんので、ほどほどが良いのでしょう。ネットで検索すると競馬、ランキング学習でたくさんヒットするので、皆さんもやってみてはいかがでしょう?