【機械学習基礎】バイアス・バリアンストレードオフとは？LLMとの関係も解説

大規模言語モデル（LLM：Large Language Models）をはじめとした高度な機械学習モデルを理解する上で、「バイアス・バリアンストレードオフ（Bias-Variance Tradeoff）」は非常に重要な概念です。本記事ではこのトピックを、基本からLLMへの応用まで、丁寧に解説します。

1. バイアス・バリアンスとは？

● バイアス（Bias）

定義：モデルの予測の平均と、真の関数（ターゲット関数）とのズレ。
特徴：バイアスが大きい場合、モデルが現実の関係性をうまく捉えられておらず、**アンダーフィッティング（underfitting）**の原因になります。
例：線形モデルで非線形なデータを学習させようとすると、バイアスが大きくなります。

● バリアンス（Variance）

定義：異なる学習データに対するモデルの出力のばらつき。
特徴：バリアンスが大きいと、モデルが学習データに過剰に適合してしまい、**オーバーフィッティング（overfitting）**を引き起こします。
例：深いニューラルネットワークが、少数のデータで学習しすぎると高バリアンスになります。

● ノイズ（Irreducible Error）

定義：データ自体に含まれる、どんなモデルでも予測できない誤差。
重要性：ノイズは誤差の下限であり、どんなに優れたモデルでもこの誤差は避けられません。

2. 数式による誤差分解

予測対象 $y$ 、入力 $x$ 、モデルによる予測 $\hat{f}(x)$ に対して、誤差の期待値は以下のように分解できます：

$\mathbb{E}[(y - \hat{f}(x))^2] = \underbrace{[\mathbb{E}[\hat{f}(x)] - f(x)]^2}_{\text{バイアス}^2} + \underbrace{\mathbb{E}[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2]}_{\text{バリアンス}} + \underbrace{\text{ノイズ}}_{\text{不可避な誤差}}$

このように、誤差は バイアス² + バリアンス + ノイズ の和として捉えられます。

3. 可視化で理解するバイアス・バリアンスの関係

モデルの複雑さが変わると、バイアスとバリアンスの関係も変化します：

誤差
│     バイアス²
│        \
│         \
│          \                      総合誤差
│           \                   /
│            \                /
│             \              /
│              \            /
│               \          / ← バリアンス
│                \        /
│                 \      /
│                  \    /
│                   \  /
│----------------------------▶ モデルの複雑さ
                      ↑
                  最適なポイント（最良の汎化性能）

左側（低複雑度）：バイアスが高く、バリアンスが低い → 欠陥あり（アンダーフィット）
右側（高複雑度）：バイアスが低く、バリアンスが高い → 過学習
中間地点：バイアスとバリアンスのバランスが良い → 最適な汎化性能

4. LLM（大規模言語モデル）におけるバイアス・バリアンストレードオフ

LLM のような高性能モデルでも、このトレードオフの考慮は不可欠です。

● LLMは「低バイアス」なモデル

GPT、Claude、Gemini などの LLM は数十億〜数兆のパラメータを持ち、非常に高い表現能力があります。
そのため、バイアスは非常に低く、自然言語の複雑なパターンを学習可能です。

● 一方で「高バリアンス」のリスクも

十分なデータがなかったり、微調整（ファインチューニング）で過剰に学習した場合、バリアンスが急上昇します。
結果として、新しい文脈や文法パターンに対して過学習しやすくなります。

● バリアンスを制御する手法

正則化（Dropout・Weight Decay）
データ拡張：多様な文脈を含めることで過学習を防ぐ
蒸留（Knowledge Distillation）：大モデルから小モデルへ知識を転送し、過学習を抑える
LoRA・Adapterなどの軽量ファインチューニング手法：モデルの基本構造は保ちつつ微調整することで、バリアンスの増加を抑える

5. まとめ

項目	バイアス（Bias）	バリアンス（Variance）
定義	モデルの予測と真値のズレ	モデル予測のばらつき
高いときの挙動	アンダーフィット	オーバーフィット
主な原因	モデルが単純すぎる	モデルが複雑、データ不足など
改善方法	モデルの複雑度を上げる	正則化、データ拡張など

LLM のような巨大モデルであっても、この バイアス・バリアンスのトレードオフ を理解し、適切にコントロールすることが、優れた性能を発揮する鍵となります。

もしこの記事が参考になったら、ぜひシェアやコメントをお願いします！