Kaggle奮闘記(Day2)

欠損値に関しては、「安易に埋める」ということはNGであることが分かった。
「とりあえず、平均値で埋める」、「とりあえず、最頻値で埋める」ということをしていたが、これは「データ改変に近い行為なので、安易に行わない方が良いでしょう(P114)」と「Kaggleで磨く 機械学習の実践力–実務xコンペが鍛えたプロの手順」に思いっきり書いてあった。
「最初は『何も対処しない』という選択肢が割と有効です(P114)」とあったので、処理を外すと、確かにスコアが向上。今まで安易な0埋めなどをしていたので、恥ずかしい。

標準化(各値から平均値を引いて標準偏差で割る)や正規化(最大値と最小値を計算して、各値から最小値を引いて、最大値と最小値の差分で割る)をしようとしたが、決定木系では不要と記載(P122)とあったので、断念。→やってみたけど、スコアが上がらなかった…

Cabinの最初の一文字が、何かクラス的な影響がありそうなので、そこの値を追加して、若干ハイパーパラメーターチューニングをすると、スコアが0.77まで上昇。

ラベルエンコーダーで、Cabinの英数字を変換しようとしたが、TのCabinがtestデータにないので、数字がずれることがわかった。残念。削るのもいまいちだし、戻すか…

0.8超えをしたいので、もう少し頑張ってみるか…

コメント

タイトルとURLをコピーしました