今回の記事では、下記のような読者に向けて記事を書いています。
「機械学習モデルは非常に多いので、どれから勉強したらいいのかわからない」
「機械学習モデルが多すぎて理解できない。最低限必要な機械学習モデルが何か知りたい」
今回の記事では、私の機械学習経験を基に、機械学習初学者が理解すべき機械学習モデル5選をまとめてみました。
下記ツイートは、Xのフォロワーが400人くらいの時のツイートですが、「イイね800、インプレッション18万」と非常に多くの人の共感を得られたと思います。
機械学習のモデルは一先ずこれくらい勉強すればOK
・重回帰分析
・ロジスティック回帰
・決定木
・ランダムフォレスト
・lightgbm他にも色々あるけど、上の5つを理解して使えるようになればkaggleの問題も解けるし、実データの分析もできると思う。…
— ノムオ (@nomu_chem) January 6, 2024
それでは解説します。
まずは何故一先ず5個勉強すべきなのかについてお話しします。
機械学習モデルを勉強しても使わなければすぐに忘れる
色々な機械学習モデルを勉強することは非常に良いことですが、使わなければすぐに忘れます。
また、機械学習は勉強すべき事が非常に多いです。下記に示します。
・機械学習モデルの理解、実装
・統計学
データの前処理や可視化、for文などの文法を勉強し、pythonで実装できる必要があります。
また統計の基礎的なところや予測精度の検証法なども勉強する必要があります。
これらを全て理解して初めて機械学習を実施できます。
そのため機械学習初学者は、まずは「機械学習モデルを理解して使える状態」を目指すべきです。
機械学習モデルを理解して使える事ができれば、kaggleのタイタニック予測問題や住宅価格予測問題に取り組む事ができ、機械学習を体験できます。
なので一先ず5個に今回絞りました。何より機械学習を体験して全体像を理解するのが重要です。
次に一先ず勉強すべき機械学習モデル5個を紹介します。
一先ず理解すべき機械学習モデル5選
一先ず理解すべき機械学習モデル5個を下記に示します。
(他にもありますが、これくらい使えれば正直全く問題ないです。これら5個を使えるようにして、余裕があれば他の機械学習モデルを勉強するという流れでいいと思います)
・ロジスティック回帰
・決定木
・ランダムフォレスト
・LightGBM
それぞれの機械学習モデルをどう使い分けるのかを解説します。
機械学習モデルの使い分け
理想は可読性の高いモデルで高い予測精度を目指す。
無理であれば、可読性の低いモデルで高い予測精度を目指す。
何よりもまずは「予測精度が重要」であるということを理解しておいて欲しいです。
ひとまず複数の機械学習モデルを試して、どのモデルを使用するのがいいのか判断してみるといいと思います。
また可読性が高いモデルを使用すれば、人間でも解釈できるので、可読性の高いモデルで高い予測精度が得られるほど望ましいです。
最後に5個の機械学習モデルを簡単に紹介させていただきます。
重回帰分析
重回帰分析は、非常に可読性が高く、予測結果に対する考察も非常にしやすいです。
可読性が高い一方で、使用する際には制約が多いので、理解した上で正しく使用してください。
詳細に下記記事参照。
ロジスティック回帰
ロジスティック回帰も、非常に可読性が高く、予測結果に対する考察も非常にしやすいです。
可読性が高い一方で、使用する際には制約が多いので、理解した上で正しく使用してください。
詳細に下記記事参照。
決定木
決定木分析も決定木を可視化できるので、比較的可読性が高いです。
決定木は回帰・分類両方に対応しており、使用に際し制約も少なく、特徴量選択をしなくていいという利点があります。
詳細は下記記事参照。
最後にランダムフォレストとLightGBMです。
正直ランダムフォレストやLightGBMで全く予測精度が出なければ予測は難しいと思った方がいいです。
特徴量を増やしたり、予測する対象を変えたりする必要があります。
ランダムフォレスト
ランダムフォレストは決定木を並列に多数作成し、多数決を基に最終的な予測値を出力します。
回帰・分類両方に対応しており、使用に際し制約も少なく、特徴量選択をしなくていいという利点があります。
モデルの可読性は上の3つには劣りますが、特徴量重要度から重要な特徴量を見積もる事ができます。
詳細は下記記事参照。
LightGBM
LightGBMは決定木を直列に作って(予測誤差が大きいところのみ学習していく)予測(ブースティングという手法)します。
kaggleなどのコンペでは必須の機械学習モデルで、非常に予測精度が高い事が知られていて、また計算が高速なので非常に有用な手法です。
ランダムフォレストと同様に特徴量重要度から重要な特徴量を見積もる事ができます。
LightGBMの基礎と分類問題の解説は下記記事参照。
LightGBMの回帰問題とハイパーパラメータ最適化の解説は下記記事参照
今回紹介した5個以外にも、よく使われる機械学習モデルとして下記もあり、余裕があれば勉強することをお勧めします。
・ニューラルネットワーク
・サポートベクトルマシン
今回は、機械学習初学者が一先ず勉強すべき機械学習モデルについて紹介させていただきました。
皆さんの機械学習の勉強の一助になれば幸いです。