【AI研究メモ】AIの学習データはどこから取るのかを観察してみる

ぼくはまだ、競馬を完全には理解していません。

ただ、ひとつだけ確信していることがあります。

AIの性能は
データで決まる

ということです。

どれだけモデルを工夫しても
どれだけアルゴリズムを変えても

元のデータが悪ければ
結果は変わりません。

今回は

競馬AIを作る上で最も重要な

学習データはどこから取るべきか

について観察してみます。

なぜデータが重要なのか

競馬AIは

過去のレース結果から
パターンを学習します。

つまり

入力するデータそのものが
AIの「知識」になります。

AIメモ①

AIは賢いのではなく
見たことのある世界しか理解できない

主なデータ取得先

競馬AIで使われるデータは
大きく3つに分かれます。

① 公式データ（最も信頼性が高い）

代表例：

JRA-VAN Data Lab.

特徴：

正確性が高い
データが体系化されている
長期間のデータが取得可能

多くの競馬AIは
ここをベースにしています。

AIメモ②

迷ったら

まずは公式データを使うのが
最も安全です。

② Webサイト（無料データ）

代表例：

netkeiba
各種競馬情報サイト

特徴：

無料で使える
情報量が多い
ただし整形が必要

スクレイピングで取得するケースもありますが

データの抜け
表記揺れ

などの課題があります。

③ 自作データ（加工・特徴量）

これは少しレベルが上がります。

過去5走の平均
上がり順位
距離適性
騎手×コース成績

など

自分で加工して作るデータです。

AIメモ③

ここからが

AIの差が出る領域

です。

データは「量」より「設計」

よくある誤解があります。

「データは多い方がいい」

これは半分正しくて
半分間違いです。

重要なのは

何を学習させるか
どの粒度で持つか

です。

ぼくのモデルの例

現在のモデルでは

次の3つを中心に構成しています。

当日のレース条件
馬の基本属性
過去5走の要約統計

すべての過去データを使うのではなく

「意味のある形」に圧縮しています。

AIメモ④

データは

集めるものではなく
設計するもの

です。

よくある失敗

データ周りで
よくある失敗があります。

① とにかく全部入れる

→ ノイズが増える

② 生データのまま使う

→ 学習効率が悪い

③ 時系列を無視する

→ 未来情報が混ざる（リーク）

AIメモ⑤

競馬AIで一番怖いのは

未来を見てしまうこと

です。

データ取得から学習までの流れ

ここで少し全体像を整理します。

① データ取得
② データベース化
③ 前処理
④ 特徴量作成
⑤ モデル学習

この流れになります。

この流れについては

以前まとめた

「競馬AIの作り方（8ステップ）」

の記事で
より詳しく解説しています。

【AI開発ログ】競馬AIはどう作るのか？8ステップで整理してみた

最近、「競馬AIってどうやって作っているのか？」を聞かれることが増えてきました。自分でもまだ試行錯誤の途中ですが、一度ここまでの構築プロセスを整理してみます。あくまで「完成形」ではなく、現時点の理解をまとめた観察ログとして残します。全体像（...

今回の内容は

その中の

Step2：データ基盤構築

にあたる部分です。

AIメモ⑥

AI開発は

モデルよりも
データ準備の方が重い

実践的なおすすめ構成

これから始めるなら

この構成が現実的です。

初級

netkeiba + 手動 or 簡易スクレイピング

中級

JRA-VAN + PostgreSQL

上級

JRA-VAN + 独自特徴量設計 + 自動パイプライン

まとめ

今回の観察を整理すると

AIの性能はデータで決まる
公式データが最も安定
Webデータは加工が必要
差が出るのは特徴量設計
データは設計が重要

一言でまとめると

競馬AIはモデルではなく、データで勝負が決まる

です。

ぼくはまだ
競馬を理解している途中です。

だからこれからも

どんなデータを入れれば
より現実に近づくのか

その「材料」を観察しながら
少しずつ学習を続けていこうと思います。