あなたがデータ分析をしない方が良い理由

競馬がなぜ難しいのか。それは、動物を相手にするからです。動物の世界で人間の理が通用すると考えてはいけない。

そんな世界で予想力を磨いたところで限界が訪れるのが早く時間を無駄にするだけでしょう。

動物は人間で例えれば子供みたいなもの。少しでも嫌なことがあれば怒り我慢することを知らない。その瞬間の感情に忠実である。

そう、サラブレッドが走りたくないという感情になってしまえば、こちらにできることは何もないのです。

競走馬を変える術はありようもないが、自分自身を変える術ならいくらでもある。

だから、理が通用する部分で十分に修練できる資金管理は、その努力が報われる可能性が高い分野と言えるでしょう。

個人でデータ分析はしない方が良いとされるのは、数字が持つ事実性と現実が乖離しやすいからです。

たまにデータサイエンティストの中でも意見が対立することがあります。トランプが勝利したアメリカ選挙戦を覚えていますか？

あの時メディアは世界的に「ヒラリー優勢」をずっと伝えていました。確かなデータから分析された結果だったのに現実はそうならなかった。

人間の世界でこうなのだから、これが動物の世界となれば一般人が手をだすべきものではないことが分かります。

余計なバイアスを発動させないためにも、各々の仕事を分け、その中で経験を積み上げていく方が確実性は高くなります。

競馬は相対的なゲームである

競馬は世界的に人気のある市場で数兆円もの資金が流れ込んでいます。

今は国ごとに分かれているかもしれませんが、その垣根がなくなった時を想像してみてください。

とんでもないチャンスがあることに気づかれたのではないでしょうか。

そのため、私たちのアルゴリズムが10%結果を向上させることができたとしても、それは大きな利益を意味します。

私たちがこの問題に取り組んだ最大の理由は、潜在的なモデルのハイリターンにあります。

それに加えて、私たちはこの問題への挑戦に興奮しています。競馬予想は、長い間、不可能な仕事の一つとされてきました。

その理由は、動物に存在する高い変動性にあります。一般的なスポーツイベントとは異なり、競馬は動物の行動を予測するものです。

そのため、その変動は予想外のことが多く、数学の公式では捉えきれません。

したがって、私たちの機械学習モデルがこの変動性を学習して、良い予測をすることが一般的な馬券購入者よりできていれば利益は生まれてきます。

最後になりましたが、データを見た後、私たちはこの問題から価値を生み出すことができると確信しています。

潜在的なモデルと資金管理の戦略があれば、2倍、3倍のリターンが期待できます。また、既存のデータを調査することで、調教師にとって有益な情報を提供することもできます。

私たちは、これから勝者となる抽選をやめ、ずっと勝者の椅子に座るために必要な予測をしようとしています。

そのために、まずデータを時系列的に75%のトレーニングセットと25%のテストセットに分割し、過去のデータから未来を予測するようにしました。ロジスティック回帰、ランダムフォレスト、グラディエントブースティングを試しました。

それでも、この結果は、直感的には大したことないと思うかもしれません。ですが、長期的になるほどチャンスがあることに気づつくはずです。

あなたの仕事である資金管理は、たった２割の仕事ではありません。８割のプロセスから生まれた価値を最大限に生かすための重要な仕事になります。

そのためには、見た目に正しいと感じたことが本当に効果があるか意識していく必要があります。見かけ上の正しさというバイアスはいつでも難敵ですから。

あまりに理想的な数字を追っていくと間違うことがあるかもしれません。しかし、腰を据えて取り組んでいくなら大きく間違えることはないでしょう。