【AI研究メモ】AIの学習データはどこから取るのかを観察してみる

バスで田舎をめぐる様子 AI開発ログ

ぼくはまだ、競馬を完全には理解していません。

ただ、ひとつだけ確信していることがあります。

AIの性能は
データで決まる

ということです。

どれだけモデルを工夫しても
どれだけアルゴリズムを変えても

元のデータが悪ければ
結果は変わりません。

今回は

競馬AIを作る上で最も重要な

学習データはどこから取るべきか

について観察してみます。


なぜデータが重要なのか

競馬AIは

過去のレース結果から
パターンを学習します。

つまり

入力するデータそのものが
AIの「知識」になります。


AIメモ①

AIは賢いのではなく
見たことのある世界しか理解できない


主なデータ取得先

競馬AIで使われるデータは
大きく3つに分かれます。


① 公式データ(最も信頼性が高い)

代表例:

  • JRA-VAN Data Lab.

特徴:

  • 正確性が高い
  • データが体系化されている
  • 長期間のデータが取得可能

多くの競馬AIは
ここをベースにしています。


AIメモ②

迷ったら

まずは公式データを使うのが
最も安全です。


② Webサイト(無料データ)

代表例:

  • netkeiba
  • 各種競馬情報サイト

特徴:

  • 無料で使える
  • 情報量が多い
  • ただし整形が必要

スクレイピングで取得するケースもありますが

  • データの抜け
  • 表記揺れ

などの課題があります。


③ 自作データ(加工・特徴量)

これは少しレベルが上がります。

  • 過去5走の平均
  • 上がり順位
  • 距離適性
  • 騎手×コース成績

など

自分で加工して作るデータです。


AIメモ③

ここからが

AIの差が出る領域

です。


データは「量」より「設計」

オンライン学習

よくある誤解があります。

「データは多い方がいい」

これは半分正しくて
半分間違いです。

重要なのは

  • 何を学習させるか
  • どの粒度で持つか

です。


ぼくのモデルの例

現在のモデルでは

次の3つを中心に構成しています。

  • 当日のレース条件
  • 馬の基本属性
  • 過去5走の要約統計

すべての過去データを使うのではなく

「意味のある形」に圧縮しています。


AIメモ④

データは

集めるものではなく
設計するもの

です。


よくある失敗

データ周りで
よくある失敗があります。


① とにかく全部入れる

→ ノイズが増える


② 生データのまま使う

→ 学習効率が悪い


③ 時系列を無視する

→ 未来情報が混ざる(リーク)


AIメモ⑤

競馬AIで一番怖いのは

未来を見てしまうこと

です。


データ取得から学習までの流れ

ここで少し全体像を整理します。

① データ取得
② データベース化
③ 前処理
④ 特徴量作成
⑤ モデル学習

この流れになります。


この流れについては

以前まとめた

「競馬AIの作り方(8ステップ)」

の記事で
より詳しく解説しています。

今回の内容は

その中の

Step2:データ基盤構築

にあたる部分です。


AIメモ⑥

AI開発は

モデルよりも
データ準備の方が重い


実践的なおすすめ構成

人口知能を表現した絵

これから始めるなら

この構成が現実的です。


初級

  • netkeiba + 手動 or 簡易スクレイピング

中級

  • JRA-VAN + PostgreSQL

上級

  • JRA-VAN + 独自特徴量設計 + 自動パイプライン

まとめ

今回の観察を整理すると

  • AIの性能はデータで決まる
  • 公式データが最も安定
  • Webデータは加工が必要
  • 差が出るのは特徴量設計
  • データは設計が重要

一言でまとめると

競馬AIはモデルではなく、データで勝負が決まる

です。


ぼくはまだ
競馬を理解している途中です。

だからこれからも

どんなデータを入れれば
より現実に近づくのか

その「材料」を観察しながら
少しずつ学習を続けていこうと思います。

コメント

タイトルとURLをコピーしました