【機械学習初・中級者向け】LightGBMで回帰問題に挑戦

今回の記事は下記のような読者に向けて書いています。

「LightGBMで回帰問題に挑戦したい」
「LightGBMでハイパーパラメータを調整して予測精度を上げる方法を習得したい」
「Optunaの使い方を知りたい」

LightGBMは計算が早く、高い予測精度が得られることからkaggle等のコンペで最も使用されているモデルの1つです。
今回の記事を通して、LightGBMを使って機械学習（回帰問題）に挑戦する一連の流れを是非習得していただければ思います。

LightGBMの基礎・分類問題の実装については下記記事参照。

【機械学習図解】LightGBMの基礎とpythonでの実装方法を解説

今回の記事では下記のような悩みを解決します。「LightGBMというワードをよく目にするので、LightGBMについて知りたい」「LightGBMのpythonでの実装方法が知りたい」早速解説していきます。 LightGBMとは Li...

今回は、「住宅価格予測問題」を使って、「データの前処理、LightGBMでモデル構築、Optunaを使ってハイパーパラメータを調整し予測精度をup」という機械学習（回帰問題）の一連の流れを解説していきます。

まずはデータの読み込みと前処理から解説します。

データの読み込みと前処理

下記のコードで住宅価格予測のデータを読み込み、dfとします。
（下記のコードは覚える必要ないです。コピペしてデータを読み込んでください）
dfは81個の列、1460個のデータからなります。

from sklearn.datasets import fetch_openml
import pandas as pd
housing = fetch_openml(name="house_prices", as_frame=True)
X = housing.data #説明変数
y = housing.target #目的変数
df = pd.concat([X, y], axis = 1)

欠損値処理

dfを読み込めたので、欠損値の確認をします。
列数が多いので欠損値がある列のみを抽出します。1460個のデータのうちほとんど欠損しているカラムも存在していることが確認できます。
また’Id’は説明変数とは関係ないので最初に削除しておきます。

df = df.drop(columns = ['Id'])
df.isnull().sum()[df.isnull().sum() > 0]

‘Alley’,’FireplaceQu’, ‘PoolQC’, ‘Fence’, ‘MiscFeature’は欠損値が多いので、今回は削除します。
列の削除後、データ型を確認すると、数値データと文字列データ(欠損値があるためobject型と表記されている）が混在していることが確認できます。

df = df.drop(columns = ['Alley','FireplaceQu', 'PoolQC', 'Fence', 'MiscFeature'])
df.dtypes

今回は、文字列のデータについては「最頻値」で欠損値を補完し、数値データについては「平均値」で補完します。
下記の「文字列データの欠損値補完のpythonコード」では、dfの’object’型のデータを抽出し、for文で文字列データのカラム名を選択し、欠損値を「最頻値」で補完しています。

df_object = df.select_dtypes(include = ['object'])
df_object_NAN_columns = df_object.isnull().sum()[df_object.isnull().sum() > 0].index
for col in df_object_NAN_columns:
    df.loc[df[col].isnull(), col] = df.loc[df[col].isnull(), col].fillna(df[col].mode()[0])

数値データの欠損値補完も同様にして、’int’型、’float’型の列名を抽出し、欠損値がある列を抽出し、for文で欠損値を「平均値」で補完しています。
欠損値補完後、dfには欠損値がないことが確認できます。

df_numerical = df.select_dtypes(include = ['int', 'float64'])
df_numerical_NAN_columns = df_numerical.isnull().sum()[df_numerical.isnull().sum() > 0].index
for col in df_numerical_NAN_columns:
    df.loc[df[col].isnull(), col] = df.loc[df[col].isnull(), col].fillna(df[col].mean())

最後に文字列のデータをダミー変数化して欠損値処理は完了。
ダミー変数化して、dfの列数は233個になりました。

df = pd.get_dummies(df, drop_first = True)

続いて目的変数の前処理です。
目的変数については対数変換した値を目的変数(y)として使用します。
対数変換した列名を’log_SalePrice’として、元の　’SalePrice’は削除する。

import numpy as np
df['log_SalePrice'] = np.log10(df['SalePrice'])
df = df.drop(columns = ['SalePrice'])

前処理が完了したので、LightGBMを使ってモデルを構築していきます。

モデル構築

LightGBMを使ってモデル構築していきます。
まずはハイパーパラメータを調整せずにデフォルトの値でモデル構築し、予測精度を確認します。
下記のコードでは、KFoldを使って10分割交差検証の結果をverificationに格納しています。

予めverificationの’y_test’列に生データを格納しておき、’y_pred’列にlocで行番号を指定して、「LightGBMで構築したモデルの10回分の予測結果」を格納しています。
（機械学習ではKFoldを使った交差検証は頻出なので、是非下記のpythonコードは理解して使えるようにしてください）
r2_scoreを確認したところ、0.889とまずまずの予測精度であることが確認できます。

from sklearn.model_selection import KFold
import lightgbm as lgb

kf = KFold(n_splits = 10, random_state = 42, shuffle = True)

verification = pd.DataFrame()
verification['y_test'] = df['log_SalePrice']

for train_idx, test_idx in kf.split(df):
    X_train = df.iloc[train_idx, :-1]
    y_train = df.iloc[train_idx, -1]
    X_test = df.iloc[test_idx, :-1]
    y_test = df.iloc[test_idx, -1]
    
    model = lgb.LGBMRegressor()
    model.fit(X_train, y_train)
    verification.loc[test_idx, 'y_pred'] = model.predict(X_test)
    
import matplotlib.pyplot as plt
plt.figure(figsize=(5,5))
plt.scatter(verification['y_test'], verification['y_pred']) # 散布図を描画
plt.show()

from sklearn.metrics import r2_score
r2_score(verification['y_test'], verification['y_pred'])

上記のコード（KFold交差検証）は、下記記事で図解しているので、良ければご活用ください。

【機械学習初学者向け】交差検証（pythonのKFold）を徹底解説

今回の記事では下記の悩みを解消します。「機械学習で構築したモデルの精度を評価する方法がわからない」「機械学習の交差検証について知りたい」「pythonのKFoldの使い方がわからない」こんな悩みを解決していきます。今回の記事では、...

次に今回はさらなる予測精度upに向けて、LightGBMのハイパーパラメータを調整してみます。

LightGBMのハイパーパラメータの調整

LightGBMの調整すべきハイパーパラメータについては下記記事参照。

LightGBMのパラメータチューニングまとめ - Qiita

はじめに本記事は、下記のハイパーパラメータチューニングに関する記事の、LightGBMにおける実装例を紹介する記事となります。…

今回は上記の記事に倣って、下記の7個のハイパーパラメータを調整していきます。
それぞれLightGBMのScikit-learn APIでパラメータ名を記載しています。

・reg_alpha（float型）
・reg_lambda（float型）
・num_leaves（int型）
・colsample_bytree（float型）
・subsample（float型）
・subsample_freq（int型）
・min_child_samples（int型）

max_depth（int型）やn_estimators(int型）もありますが、計算に膨大な時間がかかったため、今回はこれら7個のハイパーパラメータを最適化します。
（理想を言うと、全てのハイパーパラメータを調整した方がいいです。予測精度が高くなります。調整しないと、デフォルトの数値で固定されるからです。ハイスペックPCをお持ちの方は是非試してみてください。）

今回はOptunaを使って、LightGBMのハイパーパラメータを調整していこうと思います。

Optunaとは

OptunaはPrefferedNetworks社が開発した、ハイパーパラメータの自動最適化フレームワークで、効率的にハイパーパラメータを最適化できます。
調整するハイパーパラメータと探索範囲を指定して、自身で設定した評価指標(今回であればr2_score）が最大 or 最小となるハイパーパラメータを探索します。
探索する際、ベイズ最適化という手法を活用し、少ない探索回数で最適なハイパーパラメータを探索できます。

特にLightGBMのようにハイパーパラメータが多い時に重宝します。

Optunaはanacondaにデフォルトで入っていないので、インストールが必要です。
下記コードを使ってインストールしてください。

conda install conda-forge::optuna

またインストールできない場合は下記サイトを参考にしてください。

Optuna | Anaconda.org

Optunaをインストールできたと思うので、実際にOptunaを使ってLightGBMのハイパーパラメータを最適化していきます。

Optunaを使ったLightGBMのハイパーパラメータ最適化

下記コードでは、params（タプル）に調整すべきハイパーパラメータと探索範囲を指定して、modelにparamsを渡して学習・予測し、検証結果(r2_score）が最大(direction=’maximize’)となるハイパーパラメータを決定しています。今回は150回(n_trials = 150)計算して最適なパラメータを決定しています。
またparamsに0を入力するとエラーが出るので1e-8としています。
（ハイパーパラメータの探索は計算に時間がかかるため、単に訓練データと検証データに分割（例えば8:2とか）して、r2_scoreを最大化するハイパーパラメータを決定することもある。今回はデータ数が約1500個とそこまで多くないため、分割交差検証によりr2_scoreを算出し、ハイパーパラメータを決定した）

import optuna

def objective(trial):

    params = {
        'reg_alpha': trial.suggest_float('reg_alpha', 1e-8, 10.0, log = True),
        'reg_lambda': trial.suggest_float('reg_lambda', 1e-8, 10.0, log = True),
        'num_leaves': trial.suggest_int('num_leaves', 2, 1000),
        'colsample_bytree': trial.suggest_float('colsample _bytree', 1e-8, 1.0),
        'subsample': trial.suggest_float('subsample', 1e-8, 1.0),
        'subsample_freq': trial.suggest_int('subsample_freq', 1, 100),
        'min_child_samples': trial.suggest_int('min_child_samples', 5, 1000)
    }
    
    from sklearn.model_selection import KFold
    kf = KFold(n_splits = 10, random_state = 0, shuffle = True)
    import lightgbm as lgb
    verification = pd.DataFrame()
    verification['y_test'] = df['log_SalePrice']

    for train_idx, test_idx in kf.split(df):
        X_train = df.iloc[train_idx, :-1]
        y_train = df.iloc[train_idx, -1]
        X_test = df.iloc[test_idx, :-1]
        y_test = df.iloc[test_idx, -1]

        model = lgb.LGBMRegressor(**params)
        model.fit(X_train, y_train)
        verification.loc[test_idx, 'y_pred'] = model.predict(X_test)
    
    return r2_score(verification['y_test'], verification['y_pred'])

sampler = optuna.samplers.TPESampler(seed=0)
study = optuna.create_study(sampler = sampler, direction='maximize')
study.optimize(objective, n_trials = 150)

Optunaで得られたハイパーパラメータの値を用いて、再度10分割交差検証により予測精度を確認。
r2_scoreが0.896に向上していることが確認できる。

from sklearn.model_selection import KFold
kf = KFold(n_splits = 10, random_state = 42, shuffle = True)
import lightgbm as lgb
verification = pd.DataFrame()
verification['y_test'] = df['log_SalePrice']

for train_idx, test_idx in kf.split(df):
    X_train = df.iloc[train_idx, :-1]
    y_train = df.iloc[train_idx, -1]
    X_test = df.iloc[test_idx, :-1]
    y_test = df.iloc[test_idx, -1]
    
    model = lgb.LGBMRegressor(reg_alpha = 0.01302208357906488,
                              reg_lambda = 0.8988145921821439,
                              num_leaves = 957,
                              colsample_bytree = 0.38389986119037844,
                              subsample = 0.9988314486605718,
                              subsample_freq = 40,
                              min_child_samples = 26
                             )
    
    model.fit(X_train, y_train)
    verification.loc[test_idx, 'y_pred'] = model.predict(X_test)

import matplotlib.pyplot as plt
plt.figure(figsize=(5,5))
plt.scatter(verification['y_test'], verification['y_pred']) 
plt.show()
from sklearn.metrics import r2_score
r2_score(verification['y_test'], verification['y_pred'])