Klient przysyła ci 500 GB surowych danych i mówi: "Im więcej, tym lepiej". Brzmi logicznie, ale to pułapka.
Co naprawdę się dzieje
Miałem projekt z 200 tys. rekordów sprzedażowych. Model uczył się kiepsko. Okazało się, że 40% to duplikaty, 25% miało błędne daty (rok 2099), a część zawierała dane testowe z etykietą "test_xyz". Po wyczyszczeniu zostało 80 tys. rekordów - model poprawił dokładność o 23%.
Szybkie sprawdzenie jakości
- Uruchom podstawowe statystyki: df.describe() w Pandas
- Sprawdź unikalne wartości w kolumnach kategorycznych
- Wyszukaj niemożliwe wartości (ujemny wiek, przyszłe daty)
- Policz brakujące dane per kolumna
Kiedy dodawać dane
Więcej danych pomaga, gdy masz: wystarczającą jakość obecnych danych, niezbalansowane klasy (fraud detection - mało przypadków oszustw), lub nowe scenariusze do pokrycia.
Nie dodawaj danych, jeśli obecne są brudne. Najpierw wyczyść 1000 rekordów dobrze, niż używaj 100 tys. źle. Jeden freelancer nauczył się tego po tygodniu trenowania modelu na danych z pomieszanymi jednostkami miary (kg i funty w jednej kolumnie).