Widziałem dziesiątki freelancerów, którzy stracili tygodnie, bo zaufali automatycznemu czyszczeniu. Narzędzia pomagają, ale nigdy nie zastąpią twojego myślenia.
Test z życia
Projekt dla sklepu online: automatyczny pipeline usunął wszystkie zamówienia o wartości powyżej 10 tys. zł, uznając je za anomalie. Problem? To byli najlepsi klienci kupujący meble premium. Model nauczył się, że nikt nie wydaje więcej niż 3 tys. zł.
Co działa automatycznie
- Usuwanie dosłownych duplikatów (identyczne wiersze)
- Konwersja typów danych (string → datetime)
- Podstawowa imputacja (mediana dla liczb)
- Standaryzacja formatów (białe znaki, wielkie litery)
Gdzie potrzebujesz ręcznej pracy
Kontekst biznesowy - czy 0 znaczy "brak" czy "zero"? Outlier czy prawdziwa wartość? Które kolumny można bezpiecznie usunąć?
Używam półautomatycznych workflow: pandas-profiling generuje raport, ja decyduję co zrobić. Great Expectations waliduje dane względem reguł, które sam zdefiniowałem. Narzędzia pokazują problemy, ty musisz je zrozumieć.
Jeden freelancer użył auto-imputacji do wieku klientów. Średnia wyniosła 47 lat. Model przestał rozpoznawać młodych użytkowników, bo ich dane zostały "wyrównane" do średniej.