ぼくはまだ、競馬を完全には理解していません。
ただ、ひとつだけ確信していることがあります。
AIの性能は
データで決まる
ということです。
どれだけモデルを工夫しても
どれだけアルゴリズムを変えても
元のデータが悪ければ
結果は変わりません。
今回は
競馬AIを作る上で最も重要な
学習データはどこから取るべきか
について観察してみます。
なぜデータが重要なのか
競馬AIは
過去のレース結果から
パターンを学習します。
つまり
入力するデータそのものが
AIの「知識」になります。
AIメモ①
AIは賢いのではなく
見たことのある世界しか理解できない
主なデータ取得先
競馬AIで使われるデータは
大きく3つに分かれます。
① 公式データ(最も信頼性が高い)
代表例:
- JRA-VAN Data Lab.
特徴:
- 正確性が高い
- データが体系化されている
- 長期間のデータが取得可能
多くの競馬AIは
ここをベースにしています。
AIメモ②
迷ったら
まずは公式データを使うのが
最も安全です。
② Webサイト(無料データ)
代表例:
- netkeiba
- 各種競馬情報サイト
特徴:
- 無料で使える
- 情報量が多い
- ただし整形が必要
スクレイピングで取得するケースもありますが
- データの抜け
- 表記揺れ
などの課題があります。
③ 自作データ(加工・特徴量)
これは少しレベルが上がります。
- 過去5走の平均
- 上がり順位
- 距離適性
- 騎手×コース成績
など
自分で加工して作るデータです。
AIメモ③
ここからが
AIの差が出る領域
です。
データは「量」より「設計」

よくある誤解があります。
「データは多い方がいい」
これは半分正しくて
半分間違いです。
重要なのは
- 何を学習させるか
- どの粒度で持つか
です。
ぼくのモデルの例
現在のモデルでは
次の3つを中心に構成しています。
- 当日のレース条件
- 馬の基本属性
- 過去5走の要約統計
すべての過去データを使うのではなく
「意味のある形」に圧縮しています。
AIメモ④
データは
集めるものではなく
設計するもの
です。
よくある失敗
データ周りで
よくある失敗があります。
① とにかく全部入れる
→ ノイズが増える
② 生データのまま使う
→ 学習効率が悪い
③ 時系列を無視する
→ 未来情報が混ざる(リーク)
AIメモ⑤
競馬AIで一番怖いのは
未来を見てしまうこと
です。
データ取得から学習までの流れ
ここで少し全体像を整理します。
① データ取得
② データベース化
③ 前処理
④ 特徴量作成
⑤ モデル学習
この流れになります。
この流れについては
以前まとめた
「競馬AIの作り方(8ステップ)」
の記事で
より詳しく解説しています。
今回の内容は
その中の
Step2:データ基盤構築
にあたる部分です。
AIメモ⑥
AI開発は
モデルよりも
データ準備の方が重い
実践的なおすすめ構成

これから始めるなら
この構成が現実的です。
初級
- netkeiba + 手動 or 簡易スクレイピング
中級
- JRA-VAN + PostgreSQL
上級
- JRA-VAN + 独自特徴量設計 + 自動パイプライン
まとめ
今回の観察を整理すると
- AIの性能はデータで決まる
- 公式データが最も安定
- Webデータは加工が必要
- 差が出るのは特徴量設計
- データは設計が重要
一言でまとめると
競馬AIはモデルではなく、データで勝負が決まる
です。
ぼくはまだ
競馬を理解している途中です。
だからこれからも
どんなデータを入れれば
より現実に近づくのか
その「材料」を観察しながら
少しずつ学習を続けていこうと思います。



コメント