Mit: Narzędzia automatyczne oczyszczą dane za ciebie

Kiedy zaufać automatyzacji, a kiedy wziąć sprawy w swoje ręce

Autor: Tomasz Lis

Widziałem dziesiątki freelancerów, którzy stracili tygodnie, bo zaufali automatycznemu czyszczeniu. Narzędzia pomagają, ale nigdy nie zastąpią twojego myślenia.

Test z życia

Projekt dla sklepu online: automatyczny pipeline usunął wszystkie zamówienia o wartości powyżej 10 tys. zł, uznając je za anomalie. Problem? To byli najlepsi klienci kupujący meble premium. Model nauczył się, że nikt nie wydaje więcej niż 3 tys. zł.

Co działa automatycznie

Gdzie potrzebujesz ręcznej pracy

Kontekst biznesowy - czy 0 znaczy "brak" czy "zero"? Outlier czy prawdziwa wartość? Które kolumny można bezpiecznie usunąć?

Używam półautomatycznych workflow: pandas-profiling generuje raport, ja decyduję co zrobić. Great Expectations waliduje dane względem reguł, które sam zdefiniowałem. Narzędzia pokazują problemy, ty musisz je zrozumieć.

Jeden freelancer użył auto-imputacji do wieku klientów. Średnia wyniosła 47 lat. Model przestał rozpoznawać młodych użytkowników, bo ich dane zostały "wyrównane" do średniej.

Chcesz dowiedzieć się więcej?

Przygotowanie danych to fundament skutecznych rozwiązań AI. Skontaktuj się z nami, aby omówić, jak możemy wspólnie pracować nad Twoim projektem i wykorzystać pełny potencjał sztucznej inteligencji.

Skontaktuj się z nami