Architektura danych — trzy warstwy
cepikstats.pl łączy dane z kilku źródeł w modelu warstw, każda z własną datą odczytu:
| Warstwa | Źródło | Data | Co pokrywa |
|---|---|---|---|
| Bazowa | CEPiK (dump) | 17.04.2022 | Cały park aktywny (~27 mln pojazdów), marki, modele, paliwa, województwa |
| Roczna | GUS BDL (P3583) | 2024 | Samochody osobowe według rodzaju paliwa — seria 2015–2024 |
| Kwartalna EV | EAFO (AF Fleet) | Q4 2025 | Stock BEV/PHEV/HEV dla Polski — seria 2019–2025 |
| Miesięczna | PZPM | w przygotowaniu | Nowe rejestracje 2020–2025 według marki i segmentu |
Każda karta na stronie podaje, z której warstwy pochodzi konkretna liczba. Nie interpolujemy ani nie ekstrapolujemy danych między warstwami.
Filozofia
Trzy zasady, na których stoi cały serwis:
- Nie wymyślamy liczb. Każda wartość pochodzi z publicznego rejestru (CEPiK, GUS, PZPM, EAFO). Jeżeli źródło nie wie, my też nie zgadujemy.
- Każda liczba ma datę. Stan parku motoryzacyjnego się zmienia. Bez daty odczytu liczba nie ma wartości.
- Pokazujemy, co kryje się pod cyfrą. Cytujemy źródło, opisujemy luki, nie ukrywamy tego, czego nie wiemy.
Co znaczy „aktywny pojazd"
W CEPiK pojazd uznaje się za aktywny, gdy ma ważną rejestrację i nie
ma daty wyrejestrowania (data_wyrejestrowania jest pusta). Wszystkie
liczby parku samochodowego w serwisie liczymy właśnie na tym zbiorze
aktywnych wpisów.
Pojazdy wyrejestrowane (kasacja, eksport, kradzież) nie są wliczane.
Skąd bierze się parku
Bazą jest snapshot CEPiK z 17 kwietnia 2022 — ostatnia masowa publikacja zbioru otwartych danych. Zawiera ok. 35 mln wpisów, z których aktywnych jest ok. 27 mln.
Snapshot agregujemy w bazie Turso na potrzeby serwisu według wymiarów:
- województwo (na podstawie kodu TERYT województwa rejestracji),
- marka (znormalizowana z surowego pola tekstowego CEPiK),
- typ paliwa (z mapowaniem na 10 kategorii),
- rok produkcji.
Wiek pojazdu
Liczymy jako:
wiek = rok_snapshotu - rok_produkcji
Czyli dla snapshotu z 2022 roku: pojazd wyprodukowany w 2010 ma 12 lat. Średnia regionalna to średnia arytmetyczna wieku wszystkich aktywnych pojazdów z podanym rokiem produkcji w danym województwie. Pojazdy bez roku produkcji nie wchodzą.
W tabelach pokazujemy także medianę — bywa o 1–2 lata niższa od średniej, bo długi ogon zabytków rejestracyjnych windje średnią w górę.
Marki
Pole marka w CEPiK to tekst dowolny wpisywany przez urząd
rejestracyjny. Stąd ponad 7 000 odrębnych wartości w surowym zbiorze:
literówki, wariacje („B.M.W.", „BMW", „BMW AG"), historyczne marki
(FSO, FSO-Warszawa, WSK, FS-Lublin), pojazdy własnoręcznie zbudowane
(„SAM") i zwykłe błędy.
Stosujemy tabelę aliasów: każdy surowy tekst CEPiK mapuje się na jeden kanoniczny slug marki. Na karcie marki agregujemy wszystkie warianty zapisu razem.
Mix paliw
CEPiK wymienia ok. 13 wartości pola rodzaj_paliwa. Mapujemy je na
10 kategorii (benzyna, diesel, benzyna+LPG, benzyna+CNG, hybryda HEV,
hybryda PHEV, BEV, wodór, etanol, inny).
Uwaga: pojazdy bifuelowe (np. benzyna + LPG) w CEPiK są zwykle zarejestrowane jako benzyna (paliwo główne). Liczby LPG są więc zaniżone, a benzyny — przeszacowane. Piszemy o tym w karcie Paliwa.
Pojazdy elektryczne (BEV) w CEPiK to dane z 2022. Aktualne dane EV podaje EAFO (kwartalnie); planujemy ich integrację.
Pierwsze rejestracje vs nowe pojazdy
W CEPiK pole data_pierwszej_rej_w_kraju oznacza pierwszą rejestrację
w Polsce. Auto sprowadzone używane z Niemiec ma w tym polu rok
sprowadzenia, nie rok produkcji. To dlatego serie czasowe pierwszych
rejestracji nie pokrywają się z liczbami sprzedaży nowych aut (PZPM).
Luka 2020–2022
Rok 2020 i 2021 w naszym snapshotcie CEPiK zawierają dosłownie kilkanaście wpisów rocznie — to znana luka związana z migracją systemu do CEPiK 2.0. Nie ekstrapolujemy w to miejsce niczego. Aktualne dane miesięczne uzupełnia PZPM.
Słownik kodów województw
Kod TERYT województwa to dwucyfrowy ciąg (02 = Dolnośląskie, 04 = Kujawsko-Pomorskie, 06 = Lubelskie, 08 = Lubuskie, 10 = Łódzkie, 12 = Małopolskie, 14 = Mazowieckie, 16 = Opolskie, 18 = Podkarpackie, 20 = Podlaskie, 22 = Pomorskie, 24 = Śląskie, 26 = Świętokrzyskie, 28 = Warmińsko-Mazurskie, 30 = Wielkopolskie, 32 = Zachodniopomorskie). Wpisy CEPiK z innym kodem (np. 99 = nieokreślone) są wykluczane z agregacji województw — z opisem w karcie Zasięg danych.
Aktualizacje
Schemat naszej bazy przyjmuje wiele snapshotów obok siebie (każdy z własną datą i fuente'em). Gdy włączymy delta z API CEPiK lub miesięczne dane PZPM, nowe wpisy dołączą bez przebudowywania historii. Daty publikacji nowych snapshotów odnotowujemy w Changelog.