Ile w polskim parku jest Volkswagena Golfa? Albo Toyoty Corolli? Wszyscy chcą znać top 10 modeli, a my nie publikujemy. Dlaczego.
Surowe pole „model" w CEPiK
W rejestrze CEPiK pole model to tekst dowolny wpisywany przez urzędnika rejestrującego
pojazd. Nie ma słownika. Co oznacza, że ten sam Volkswagen Golf VII może figurować jako:
- „GOLF"
- „Golf"
- „GOLF VII"
- „Golf VII Variant"
- „VOLKSWAGEN GOLF"
- „GOLF 7"
- „Golf 1.6 TDI"
- „Volkswagen Golf VII GTI"
-
- dziesiątki literówek, polskich znaków pisanych nieprawidłowo, dwóch spacji zamiast jednej.
W surowym CEPiK 2022 jest kilkadziesiąt tysięcy unikalnych zapisów modeli. Większość to warianty zapisu tej samej rzeczy.
Dlaczego nie publikujemy bez normalizacji
Jeśli podzielimy 27 milionów aktywnych pojazdów na 50 000 unikalnych zapisów, najczęstszy „model" wyjdzie z 30 000 sztukami. Konkurencja zobaczy w internetcie nasz „Top 10 modeli w Polsce" z listą jak „GOLF, Golf, GOLF VII, GOLF 1.6 TDI…". To nie jest top 10. To topowa literówka.
Publikowanie tego pogorszyłoby wiarygodność serwisu — i pozycjonowanie SEO. Lepiej nie mieć
karty /model niż mieć ją złą.
Co zrobimy
Plan jest prosty, ale wymaga pracy:
- Mapowanie modeli na slug kanoniczny. Tabela
modelos_aliasw schemacie bazy już istnieje. Każdy surowy zapis CEPiK trafi do jednej kanonicznej nazwy. - Próg minimum aktywnych pojazdów. Tylko modele z >100 wpisów dostaną osobną kartę. Resztę zostawiamy jako „inne" w rankingu marki.
- Schema.org Dataset dla każdej karty modelu — by Google wiedział, że to publikacja danych, nie reklama.
Kiedy
Po zamknięciu integracji aktualnych danych CEPiK z API (planowane Fase 2B). Wcześniej nie ma sensu — nowe pojazdy 2023–2025 mogą wprowadzić modele jeszcze niewidoczne w 2022.
Co tymczasem
Karty marek — /marka/[slug] — pokazują łączną liczbę pojazdów wszystkich modeli marki.
To wciąż użyteczna informacja: ile w Polsce jeździ Volkswagenów (ponad 2 mln), Toyot (742 tys.),
BMW (472 tys.). Tylko nie ile konkretnie Golfów. To dorobimy.
Wniosek
Brak karty top 10 modeli to nie braki w danych — to świadoma decyzja redakcyjna. Publikujemy to, co jest sprawdzone. Top 10 marek to już mamy: sprawdź ranking marek tutaj.
FAQ
Skąd pochodzą liczby w tej analizie?
Podstawą jest publiczny snapshot CEPiK z 17 kwietnia 2022 roku. Tam, gdzie tekst mówi o nowszych trendach, korzystamy także z danych GUS, PZPM albo EAFO. Szczegóły są opisane w metodologii.
Czy analiza opisuje sprzedaż nowych samochodów?
Nie zawsze. CEPiK pokazuje przede wszystkim park aktywnych pojazdów oraz pierwsze rejestracje w Polsce. To nie jest to samo co sprzedaż nowych aut raportowana przez PZPM.
Czy dane obejmują auta wyrejestrowane?
Nie. Karty i analizy parku bazują na pojazdach aktywnych, bez daty wyrejestrowania w bazie CEPiK.
Czy marka w CEPiK oznacza dokładnie producenta?
Nie zawsze. Pole marki w CEPiK jest tekstowe, dlatego serwis normalizuje warianty zapisu i literówki do kanonicznych nazw tam, gdzie jest to możliwe.