LightGBMにカテゴリ変数を入れる-ぐぐりらにっき

こんにちは、ぐぐりら(<a href="https://twitter.com/guglilac">@guglilac</a>)です。

LightGBMにカテゴリ変数を入力する際、

`category_feature`を

* `lgb.Dataset`で指定する
* `model.fit`や`lgb.train`で指定する
* 指定しない

入力側は
  
* DataFrameのカラムをcategory型にする
* label encodingしてint型にする

というバリエーションがありますが、
  
がありますが、

* 一点目についてはあまり違いはなさそう
* 二点目についてはlabel encodingするほうが良さそう

どこかのブログ記事で、
「category_featureの対象にするカラムの型はint or categoryで、label encodingしてから渡すのが推奨」という情報を見かけたのですが、自分で実験した感じでもlabel encodingしてint型で渡すのが良さそうと思いました。

## 実験した
タイタニックのデータセットで、`"Sex","Embarked","Cabin","Pclass"`の四つのカラムをlabel encodingしてそれぞれの処理をしてfit, predictしたときのaccuracyです。

```
# dataframeのcolumnをcategory型にして、fitではcategorical featureを指定しない場合
0.8603351955307262

# dataframeのcolをcategory型にして、fitではcategorical featureを指定した場合
0.8603351955307262

# int型にして、fitではcategorical featureを指定する場合
0.8603351955307262

# int型にして、fitでもcategorical featureを指定しない場合
0.8715083798882681
```

という結果で、DataFrameの該当するカラムの型をintにして、fitでcategorical featureを指定しない場合のみ結果が異なりました。

## 結局

あくまでこのデータでの実験に限りますが、label encodingしてcategorical featureを指定しないと精度が上がっていました。

LightGBMにカテゴリ変数を入れる