Pandasでカテゴリ変数と欠損値をダミー変数に変換する方法

はじめに

データ分析や機械学習でデータを扱う際、カテゴリ変数や欠損値の処理は非常に重要なステップです。特に、カテゴリ変数はダミー変数（ワンホットエンコーディング）に変換して、モデルに適した形式にする必要があります。本記事では、Pandasを使ってカテゴリ変数と欠損値をダミー変数に変換する方法について解説します。

コードと解説

まず、以下のデータフレームがあるとします：

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]

inputs = inputs.fillna(inputs.mean())

print(inputs)

このコードでは、データフレーム data から2つの部分を切り出しています：

inputs は、data の最初の2列（インデックス0から1）を含んでいます。
outputs は、3列目（インデックス2）のデータです。

その後、inputs に含まれる数値列の欠損値を、各列の平均値で埋めています。例えば、以下のようなデータになるとします：

NumRooms	Alley
3.0	Pave
2.0	NaN
4.0	NaN
3.0	NaN

ここで、NumRooms 列は数値データ、Alley 列はカテゴリデータを表しています。

ダミー変数の作成

次に、pd.get_dummies() を使用してダミー変数を作成します：

inputs = pd.get_dummies(inputs, dummy_na=True)

このコードの働きを分解して説明します。

pd.get_dummies()関数の役割：この関数は、データフレーム内のカテゴリ変数を複数のダミー変数に変換します。例えば、文字列などの非数値列があれば、それぞれのカテゴリに対応する0または1の列が生成されます。
dummy_na=Trueの意味：この引数を指定すると、カテゴリ列に欠損値（NaN）が含まれている場合、その欠損を示すダミー列も生成されます。これにより、欠損値の位置を把握することができます。

上記のコードを実行すると、以下のようなデータフレームが生成されます：

NumRooms	Alley_Pave	Alley_nan
3.0	1	0
2.0	0	1
4.0	0	1
3.0	0	1

NumRooms 列はそのまま保持されています。
Alley_Pave 列は、Alley 列が Pave の場合に1、そうでない場合に0を示します。
Alley_nan 列は、Alley 列が欠損している場合に1、欠損していない場合に0を示します。

結論

このように、pd.get_dummies() と dummy_na=True を使用することで、カテゴリ変数と欠損値を適切にエンコードし、分析や機械学習モデルに適した形式にすることができます。この方法は、カテゴリ変数の情報を保持しながら、欠損値も考慮するのに役立ちます。

Pandasの機能を活用して、データの前処理を効果的に行いましょう。