Przygotowanie Danych 12/08/2025 2 min

Mit: Więcej danych zawsze oznacza lepszy model AI

Jakość bije ilość - konkretne liczby z projektów freelancerskich

Autor: Marek Zawadzki

357

Mit: Więcej danych zawsze oznacza lepszy model AI

Klient przysyła ci 500 GB surowych danych i mówi: "Im więcej, tym lepiej". Brzmi logicznie, ale to pułapka.

Co naprawdę się dzieje

Miałem projekt z 200 tys. rekordów sprzedażowych. Model uczył się kiepsko. Okazało się, że 40% to duplikaty, 25% miało błędne daty (rok 2099), a część zawierała dane testowe z etykietą "test_xyz". Po wyczyszczeniu zostało 80 tys. rekordów - model poprawił dokładność o 23%.

Szybkie sprawdzenie jakości

Uruchom podstawowe statystyki: df.describe() w Pandas
Sprawdź unikalne wartości w kolumnach kategorycznych
Wyszukaj niemożliwe wartości (ujemny wiek, przyszłe daty)
Policz brakujące dane per kolumna

Kiedy dodawać dane

Więcej danych pomaga, gdy masz: wystarczającą jakość obecnych danych, niezbalansowane klasy (fraud detection - mało przypadków oszustw), lub nowe scenariusze do pokrycia.

Nie dodawaj danych, jeśli obecne są brudne. Najpierw wyczyść 1000 rekordów dobrze, niż używaj 100 tys. źle. Jeden freelancer nauczył się tego po tygodniu trenowania modelu na danych z pomieszanymi jednostkami miary (kg i funty w jednej kolumnie).

Chcesz dowiedzieć się więcej?

Przygotowanie danych to fundament skutecznych rozwiązań AI. Skontaktuj się z nami, aby omówić, jak możemy wspólnie pracować nad Twoim projektem i wykorzystać pełny potencjał sztucznej inteligencji.

Skontaktuj się z nami

Mit: Więcej danych zawsze oznacza lepszy model AI

Co naprawdę się dzieje

Szybkie sprawdzenie jakości

Kiedy dodawać dane

Chcesz dowiedzieć się więcej?

Preferencje prywatności