LightGBM アルゴリズムの仕組み

LightGBM は、[AutoML を使用したトレーニング (Train Using AutoML)] ツールで使用される勾配ブースティング アンサンブル法で、決定木に基づきます。 他の決定木ベースの手法と同様に、LightGBM は分類と回帰の両方に使用できます。 LightGBM は、分散システムで高性能を発揮するよう最適化されています。

LightGBM は、リーフごとに成長する (leaf-wise) 決定木を作成します。つまり、条件が与えられると、ゲインに応じて 1 つのリーフのみが分割されます。 leaf-wise ツリーでは、特にデータセットが小さいほど、過学習になる可能性があります。 ツリーの深度を制限すると、過学習を回避できます。

LightGBM は、分布のヒストグラムを使用してデータをビンにバケット化するヒストグラムベースの手法を使用します。 各データ ポイントの代わりにビンを使用して、反復処理、ゲインの計算、データの分割が行われます。 この手法は、スパース データセット向けに最適化することもできます。 LightGBM のもう 1 つの特徴は、次元性を減らすためにアルゴリズムを排他的フィーチャと結合する排他的フィーチャ バンドルです。これにより処理が高速化し、効率的になります。

LightGBM のデータセットのサンプリングには GOSS (Gradient-based One Side Sampling) が使用されます。 GOSS は、ゲインの計算中に、より大きな勾配でデータ ポイントに重み付けします。 この手法では、トレーニングにあまり使用されていないインスタンスがより大きく寄与します。 勾配が小さいデータ ポイントはランダムに削除され、一部は精度を維持するために保持されます。 この手法は、通常、同じサンプリング レートでランダム サンプリングを行うよりも優れています。

参考資料

Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems 30 (2017).

LightGBM documentation

このトピックの内容
  1. 参考資料