【機械学習初学者向け】一先ず理解すべき機械学習モデル5選

今回の記事では、下記のような読者に向けて記事を書いています。

「機械学習モデルは非常に多いので、どれから勉強したらいいのかわからない」
「機械学習モデルが多すぎて理解できない。最低限必要な機械学習モデルが何か知りたい」

今回の記事では、私の機械学習経験を基に、機械学習初学者が理解すべき機械学習モデル5選をまとめてみました。

下記ツイートは、Xのフォロワーが400人くらいの時のツイートですが、「イイね800、インプレッション18万」と非常に多くの人の共感を得られたと思います。

機械学習のモデルは一先ずこれくらい勉強すればOK

・重回帰分析
・ロジスティック回帰
・決定木
・ランダムフォレスト
・lightgbm

他にも色々あるけど、上の５つを理解して使えるようになればkaggleの問題も解けるし、実データの分析もできると思う。…

— ノムオ (@nomu_chem) January 6, 2024

それでは解説します。

まずは何故一先ず5個勉強すべきなのかについてお話しします。

機械学習モデルを勉強しても使わなければすぐに忘れる

色々な機械学習モデルを勉強することは非常に良いことですが、使わなければすぐに忘れます。
また、機械学習は勉強すべき事が非常に多いです。下記に示します。

・python（プログラミング）
・機械学習モデルの理解、実装
・統計学

データの前処理や可視化、for文などの文法を勉強し、pythonで実装できる必要があります。
また統計の基礎的なところや予測精度の検証法なども勉強する必要があります。
これらを全て理解して初めて機械学習を実施できます。

そのため機械学習初学者は、まずは「機械学習モデルを理解して使える状態」を目指すべきです。

機械学習モデルを理解して使える事ができれば、kaggleのタイタニック予測問題や住宅価格予測問題に取り組む事ができ、機械学習を体験できます。
なので一先ず5個に今回絞りました。何より機械学習を体験して全体像を理解するのが重要です。

次に一先ず勉強すべき機械学習モデル5個を紹介します。

一先ず理解すべき機械学習モデル5選

一先ず理解すべき機械学習モデル5個を下記に示します。
（他にもありますが、これくらい使えれば正直全く問題ないです。これら5個を使えるようにして、余裕があれば他の機械学習モデルを勉強するという流れでいいと思います）

・重回帰分析
・ロジスティック回帰
・決定木
・ランダムフォレスト
・LightGBM

それぞれの機械学習モデルをどう使い分けるのかを解説します。

機械学習モデルの使い分け

理想は可読性の高いモデルで高い予測精度を目指す。
無理であれば、可読性の低いモデルで高い予測精度を目指す。

何よりもまずは「予測精度が重要」であるということを理解しておいて欲しいです。

ひとまず複数の機械学習モデルを試して、どのモデルを使用するのがいいのか判断してみるといいと思います。

また可読性が高いモデルを使用すれば、人間でも解釈できるので、可読性の高いモデルで高い予測精度が得られるほど望ましいです。

最後に5個の機械学習モデルを簡単に紹介させていただきます。

重回帰分析

重回帰分析は、非常に可読性が高く、予測結果に対する考察も非常にしやすいです。
可読性が高い一方で、使用する際には制約が多いので、理解した上で正しく使用してください。
詳細に下記記事参照。

【機械学習図解】重回帰分析の基礎とpythonでの実装方法を解説

今回の記事では下記のような悩みを解決します。「重回帰分析というワードをよく目にするので、重回帰分析について知りたい」「重回帰分析のpythonでの実装方法が知りたい」早速解説していきます。重回帰分析とは重回帰分析は、機械学習の教師...

ロジスティック回帰

ロジスティック回帰も、非常に可読性が高く、予測結果に対する考察も非常にしやすいです。
可読性が高い一方で、使用する際には制約が多いので、理解した上で正しく使用してください。
詳細に下記記事参照。

【機械学習図解】ロジスティック回帰の基礎とpythonでの実装方法を解説

今回の記事では下記のような悩みを解決します。「ロジスティック回帰というワードをよく目にするので、ロジスティック回帰について知りたい」「ロジスティック回帰のpythonでの実装方法が知りたい」早速解説していきます。ロジスティック回帰分...

決定木

決定木分析も決定木を可視化できるので、比較的可読性が高いです。
決定木は回帰・分類両方に対応しており、使用に際し制約も少なく、特徴量選択をしなくていいという利点があります。
詳細は下記記事参照。

【機械学習図解】決定木の基礎とpythonでの実装方法を解説

今回の記事では下記のような悩みを解決します。「決定木というワードをよく目にするので、決定木について知りたい」「pythonで決定木を使用してモデル構築したい」「データを学習して構築した決定木を可視化したい」「変数重要度を算出する方法...

最後にランダムフォレストとLightGBMです。
正直ランダムフォレストやLightGBMで全く予測精度が出なければ予測は難しいと思った方がいいです。
特徴量を増やしたり、予測する対象を変えたりする必要があります。

ランダムフォレスト

ランダムフォレストは決定木を並列に多数作成し、多数決を基に最終的な予測値を出力します。
回帰・分類両方に対応しており、使用に際し制約も少なく、特徴量選択をしなくていいという利点があります。
モデルの可読性は上の3つには劣りますが、特徴量重要度から重要な特徴量を見積もる事ができます。
詳細は下記記事参照。

【機械学習図解】ランダムフォレストの基礎とpythonでの実装方法を解説

今回の記事では下記のような悩みを解決します。「ランダムフォレストというワードをよく目にするので、ランダムフォレストについて知りたい」「ランダムフォレストのpythonでの実装方法が知りたい」早速解説していきます。ランダムフォレストと...

LightGBM

LightGBMは決定木を直列に作って（予測誤差が大きいところのみ学習していく）予測（ブースティングという手法）します。
kaggleなどのコンペでは必須の機械学習モデルで、非常に予測精度が高い事が知られていて、また計算が高速なので非常に有用な手法です。
ランダムフォレストと同様に特徴量重要度から重要な特徴量を見積もる事ができます。
LightGBMの基礎と分類問題の解説は下記記事参照。