競馬データの前処理・特徴量作成

競馬データの前処理・特徴量作成

騎手勝率

競馬における騎手 競馬のレース結果において、馬の能力が7割、騎手の能力が3割といわれるほど、勝敗に騎手の影響は強くかかわっています。このため、騎手に関連した特徴量を競馬の予想モデルに組み込むことは精度向上に不可欠です。ここでは、騎手勝率を特...
競馬データの前処理・特徴量作成

馬年齢(日齢)と日齢を使った派生特徴量

競馬紙やnetkeibaの馬柱では馬年齢は年齢で記載されていることがほとんどです。馬の年齢をより正確に、かつ詳細に表現するために、日齢を特徴量として使用する方法を取り入れることが有効です。以下では、馬の年齢(日齢)を特徴量として使う方法と、...
競馬データの前処理・特徴量作成

前走とのフィールド距離の変化

競馬における「前走とフィールドの変化」を特徴量に活用する方法 前走と次走で「芝」と「ダート」が変わることは、馬にとって大きな変化となり、そのパフォーマンスに大きな影響を与えます。芝とダートは馬場の性質が大きく異なり、それぞれに適した馬の特性...
競馬データの前処理・特徴量作成

前走とのコース距離の変化

競馬における「前走とコース距離の変化」を特徴量に活用する方法 競馬の予測モデルで精度を高めるためには、今回のコース距離が前走のコース距離からどのように変化したかを分析することが有効です。コース距離変化(増加・減少)を特徴量として取り入れるこ...
競馬データの前処理・特徴量作成

スピード指数の作成

スピード指数とは スピード指数とは、全ての競走馬が同じ距離を同じ馬場状態で同じ負担重量で走った時の速さを数値化したものです。スピード指数は、競走馬の走破タイムとその競馬場の平均的な走破タイム(基準タイム)を比較し、これに騎手の重量や馬場状態...
競馬データの前処理・特徴量作成

競馬分析_基礎データの前処理②

クラスのデータ表記を統合 2021年より競馬業界のクラス表記が以下のように変わりました。 netkeibaで取得したデータも、2021年前後でクラスのデータ表記が変わっているため、2022年以降の新形式に統合します。また、オープンクラスは賞...
競馬データの前処理・特徴量作成

クラス指数の作成

クラス指数とは クラス指数とはある拠点(競馬場・距離・フィールド)におけるクラスごとの競走馬の速さを指数化したものです。全く同一拠点であっても、G3レースやG1レースといったようにレースのクラスが違えば当然走破タイムも異なります。クラス指数...
競馬データの前処理・特徴量作成

距離指数の作成

距離指数とは 距離指数とは、異なる距離・異なるフィールド(芝・ダート)で走った競争馬の走破タイムを同じ基準で比較するための指数です。距離指数は「1÷基準タイム×100」で求められます。距離指数はクラスや競馬場は考慮せず、距離とフィールドのみ...
競馬データの前処理・特徴量作成

基準タイムの作成

基準タイムとは 競馬場、距離、フィールドごとに1~3着に入着した馬の平均タイムを指数化したものです。基準タイムよりどれくらい速いかでその馬の実力を測ることができます。基準タイムの算出条件はまちまちですが、当HPでは以下の条件で算出します。 ...
競馬データの前処理・特徴量作成

競馬分析_基礎データの前処理

日付のデータ型を変更 netkeibaよりスクレイピングしたレース結果において、日付は”2023年7月22日”という形(object型)で取得されます。この形ですとデータを扱いにくいため、2023-07-22の形(datetime64型)に...
PAGE TOP