Kaggleで勝つデータ分析の技術

価格: (税込)
技術評論社
ページ:626頁
Amazon.co.jp 売上ランキング:で1535位

[ Amazonの詳細ページへ ]
エディターレビュー
(概要)

データサイエンスの認知の高まりとともに,データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え,多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは,実際のデータを扱うため,機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく,実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために,現時点で最新のものを整理して本書にまとめました。特徴量の作り方,バリデーション,パラメータチューニングなどについて,一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方,あるいはもっと上を目指したい方だけでなく,実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。


(こんな方におすすめ)

・Kaggle をはじめたい方、データ分析者、データサイエンティスト


(目次)

第1章 分析コンペとは?


  • 1.1 分析コンペって何?

  • 1.2 分析コンペのプラットフォーム

  • 1.3 分析コンペに参加してから終わるまで

  • 1.4 分析コンペに参加する意義

  • 1.5 上位を目指すためのポイント

  • 第2章 タスクと評価指標


  • 2.1 分析コンペにおけるタスクの種類

  • 2.2 分析コンペのデータセット

  • 2.3 評価指標

  • 2.4 評価指標と目的関数

  • 2.5 評価指標の最適化

  • 2.6 評価指標の最適化の例

  • 2.7 リーク(data leakage)

  • 第3章 特徴量の作成


  • 3.1 本章の構成

  • 3.2 モデルと特徴量

  • 3.3 欠損値の扱い

  • 3.4 数値変数の変換

  • 3.5 カテゴリ変数の変換

  • 3.6 日付・時刻を表す変数の変換

  • 3.7 変数の組み合わせ

  • 3.8 他のテーブルの結合

  • 3.9 集約して統計量をとる

  • 3.10 時系列データの扱い

  • 3.11 次元削減・教師なし学習による特徴量

  • 3.12 その他のテクニック

  • 3.13 分析コンペにおける特徴量の作成の例

  • 第4章 モデルの作成


  • 4.1 モデルとは何か?

  • 4.2 分析コンペで使われるモデル

  • 4.3 GBDT(勾配ブースティング木)

  • 4.4 ニューラルネット

  • 4.5 線形モデル

  • 4.6 その他のモデル

  • 4.7 モデルのその他のポイントとテクニック

  • 第5章 モデルの評価


  • 5.1 モデルの評価とは?

  • 5.2 バリデーションの手法

  • 5.3 時系列データのバリデーション手法

  • 5.4 バリデーションのポイントとテクニック

  • 第6章 モデルのチューニング


  • 6.1 パラメータチューニング

  • 6.2 特徴選択および特徴量の重要度

  • 6.3 クラスの分布が偏っている場合

  • 第7章 アンサンブル


  • 7.1 アンサンブルとは?

  • 7.2 シンプルなアンサンブル手法

  • 7.3 スタッキング

  • 7.4 どんなモデルをアンサンブルすると良いか?

  • 7.5 分析コンペにおけるアンサンブルの例

  • 付録


  • A.1 分析コンペの参考資料

  • A.2 参考文献

  • A.3 本書で参照した分析コンペ
  • Amazonレビュー
    amazon検索