Mit: Każdy model wymaga normalizacji danych

Przewodnik po normalizacji - co, kiedy i dlaczego

Autor: Piotr Nowak

Spędziłem kiedyś pół dnia normalizując dane do Random Forest. Wynik? Identyczny jak bez normalizacji. Drzewa decyzyjne nie obchodzą skale.

Modele wymagające normalizacji

Modele obojętne na skalę

Który typ normalizacji

MinMaxScaler (0-1): gdy znasz zakres wartości, nie ma outlierów. Użyj do sieci neuronowych.

StandardScaler (średnia=0, std=1): gdy masz rozkład normalny. Regresja liniowa, SVM.

RobustScaler: gdy masz outliery, używa mediany zamiast średniej.

Projekt z cenami nieruchomości: użyłem MinMaxScaler, ale jedna willa za 5 mln zł ścisnęła wszystkie normalne mieszkania do zakresu 0.00-0.02. RobustScaler rozwiązał problem.

Protip: dla freelancerów - zawsze trenuj scaler tylko na danych treningowych, potem transformuj test set tym samym scalerem. Inaczej wyciek danych.

Chcesz dowiedzieć się więcej?

Przygotowanie danych to fundament skutecznych rozwiązań AI. Skontaktuj się z nami, aby omówić, jak możemy wspólnie pracować nad Twoim projektem i wykorzystać pełny potencjał sztucznej inteligencji.

Skontaktuj się z nami