【解説】ダミー変数化 | データサイエンス100本ノック【問58 回答】
当ページのリンクには広告が含まれています。
この記事の対象者
・ Pythonでダミー変数化の方法を知りたい人
以降はデータサイエンス100本ノックの問題を題材にしながら学んでいきます。
データサイエンス100本ノックの始め方は、以下の記事を参考にしていただければと思います。
第58問目: ダミー変数化
P-058: 顧客データフレーム(df_customer)の性別コード(gender_cd)をダミー変数化し、顧客ID(customer_id)とともに抽出せよ。結果は10件表示させれば良い。
ダミー変数ってなんだろう?
ダミー変数とは、0か1の値を取る変数のことを言います。
Pythonではget_dummies
関数を用いることで、ダミー変数化できます。
実際にPythonのコードで具体的な使い方を見ていきましょう。
1 | import pandas as pd |
1 | female male |
このように各項目においてmale
なのかfemale
なのかを、0と1で表現させることができます。
なお、male
, female
ではなく、apple
, banana
, orange
のように2種類以上のデータにもダミー関数は適用できます。
1 | import pandas as pd |
1 | apple banana orange |
これで前提知識はOK。早速問題に取り掛かります。
今回のダミー変数化の対象は、顧客データフレームの性別コード(gender_cd
)ですね。
get_dummies関数は、引数columns
にダミー化したい列の列名をリストで指定すると、指定した列のデータを対象にダミー関数化してくれます。
本問を解きながら、その使い方を学びましょう。
以下のように書けばOKです。
1 | pd.get_dummies(df_customer[['customer_id', 'gender_cd']], columns=['gender_cd']).head(10) |
1 | customer_id gender_cd_0 gender_cd_1 gender_cd_9 |
これで完了です。
まとめ: ダミー変数化の方法を学びました。
本記事は、「【Python】ダミー変数化 | データサイエンス100本ノック【問58 回答】」というテーマでまとめました。
本記事で紹介した方法を元にデータサイエンティストとしての知見を深めていただければと思います。
なお、データサイエンティストに必要な知識は、TechAcademyのデータサイエンスコースでの学習がおすすめです。