cepikstatspl

Dane · metodologia

Jak liczymy

Otwarcie, bez ukrywania luk. Zobacz dokładnie, jak powstają liczby publikowane w serwisie — zaczynając od tego, co znaczy aktywny pojazd, kończąc na słowniku kodów województw.

Architektura danych — trzy warstwy

cepikstats.pl łączy dane z kilku źródeł w modelu warstw, każda z własną datą odczytu:

WarstwaŹródłoDataCo pokrywa
BazowaCEPiK (dump)17.04.2022Cały park aktywny (~27 mln pojazdów), marki, modele, paliwa, województwa
RocznaGUS BDL (P3583)2024Samochody osobowe według rodzaju paliwa — seria 2015–2024
Kwartalna EVEAFO (AF Fleet)Q4 2025Stock BEV/PHEV/HEV dla Polski — seria 2019–2025
MiesięcznaPZPMw przygotowaniuNowe rejestracje 2020–2025 według marki i segmentu

Każda karta na stronie podaje, z której warstwy pochodzi konkretna liczba. Nie interpolujemy ani nie ekstrapolujemy danych między warstwami.


Filozofia

Trzy zasady, na których stoi cały serwis:

  1. Nie wymyślamy liczb. Każda wartość pochodzi z publicznego rejestru (CEPiK, GUS, PZPM, EAFO). Jeżeli źródło nie wie, my też nie zgadujemy.
  2. Każda liczba ma datę. Stan parku motoryzacyjnego się zmienia. Bez daty odczytu liczba nie ma wartości.
  3. Pokazujemy, co kryje się pod cyfrą. Cytujemy źródło, opisujemy luki, nie ukrywamy tego, czego nie wiemy.

Co znaczy „aktywny pojazd"

W CEPiK pojazd uznaje się za aktywny, gdy ma ważną rejestrację i nie ma daty wyrejestrowania (data_wyrejestrowania jest pusta). Wszystkie liczby parku samochodowego w serwisie liczymy właśnie na tym zbiorze aktywnych wpisów.

Pojazdy wyrejestrowane (kasacja, eksport, kradzież) nie są wliczane.

Skąd bierze się parku

Bazą jest snapshot CEPiK z 17 kwietnia 2022 — ostatnia masowa publikacja zbioru otwartych danych. Zawiera ok. 35 mln wpisów, z których aktywnych jest ok. 27 mln.

Snapshot agregujemy w bazie Turso na potrzeby serwisu według wymiarów:

  • województwo (na podstawie kodu TERYT województwa rejestracji),
  • marka (znormalizowana z surowego pola tekstowego CEPiK),
  • typ paliwa (z mapowaniem na 10 kategorii),
  • rok produkcji.

Wiek pojazdu

Liczymy jako:

wiek = rok_snapshotu - rok_produkcji

Czyli dla snapshotu z 2022 roku: pojazd wyprodukowany w 2010 ma 12 lat. Średnia regionalna to średnia arytmetyczna wieku wszystkich aktywnych pojazdów z podanym rokiem produkcji w danym województwie. Pojazdy bez roku produkcji nie wchodzą.

W tabelach pokazujemy także medianę — bywa o 1–2 lata niższa od średniej, bo długi ogon zabytków rejestracyjnych windje średnią w górę.

Marki

Pole marka w CEPiK to tekst dowolny wpisywany przez urząd rejestracyjny. Stąd ponad 7 000 odrębnych wartości w surowym zbiorze: literówki, wariacje („B.M.W.", „BMW", „BMW AG"), historyczne marki (FSO, FSO-Warszawa, WSK, FS-Lublin), pojazdy własnoręcznie zbudowane („SAM") i zwykłe błędy.

Stosujemy tabelę aliasów: każdy surowy tekst CEPiK mapuje się na jeden kanoniczny slug marki. Na karcie marki agregujemy wszystkie warianty zapisu razem.

Mix paliw

CEPiK wymienia ok. 13 wartości pola rodzaj_paliwa. Mapujemy je na 10 kategorii (benzyna, diesel, benzyna+LPG, benzyna+CNG, hybryda HEV, hybryda PHEV, BEV, wodór, etanol, inny).

Uwaga: pojazdy bifuelowe (np. benzyna + LPG) w CEPiK są zwykle zarejestrowane jako benzyna (paliwo główne). Liczby LPG są więc zaniżone, a benzyny — przeszacowane. Piszemy o tym w karcie Paliwa.

Pojazdy elektryczne (BEV) w CEPiK to dane z 2022. Aktualne dane EV podaje EAFO (kwartalnie); planujemy ich integrację.

Pierwsze rejestracje vs nowe pojazdy

W CEPiK pole data_pierwszej_rej_w_kraju oznacza pierwszą rejestrację w Polsce. Auto sprowadzone używane z Niemiec ma w tym polu rok sprowadzenia, nie rok produkcji. To dlatego serie czasowe pierwszych rejestracji nie pokrywają się z liczbami sprzedaży nowych aut (PZPM).

Luka 2020–2022

Rok 2020 i 2021 w naszym snapshotcie CEPiK zawierają dosłownie kilkanaście wpisów rocznie — to znana luka związana z migracją systemu do CEPiK 2.0. Nie ekstrapolujemy w to miejsce niczego. Aktualne dane miesięczne uzupełnia PZPM.

Słownik kodów województw

Kod TERYT województwa to dwucyfrowy ciąg (02 = Dolnośląskie, 04 = Kujawsko-Pomorskie, 06 = Lubelskie, 08 = Lubuskie, 10 = Łódzkie, 12 = Małopolskie, 14 = Mazowieckie, 16 = Opolskie, 18 = Podkarpackie, 20 = Podlaskie, 22 = Pomorskie, 24 = Śląskie, 26 = Świętokrzyskie, 28 = Warmińsko-Mazurskie, 30 = Wielkopolskie, 32 = Zachodniopomorskie). Wpisy CEPiK z innym kodem (np. 99 = nieokreślone) są wykluczane z agregacji województw — z opisem w karcie Zasięg danych.

Aktualizacje

Schemat naszej bazy przyjmuje wiele snapshotów obok siebie (każdy z własną datą i fuente'em). Gdy włączymy delta z API CEPiK lub miesięczne dane PZPM, nowe wpisy dołączą bez przebudowywania historii. Daty publikacji nowych snapshotów odnotowujemy w Changelog.

FAQ

Najczęstsze pytania o metodologię

Dlaczego dane CEPiK są z 17 kwietnia 2022 roku?

To data ostatniej masowej publikacji otwartego dumpu CEPiK przez Ministerstwo Cyfryzacji. Późniejsze aktualizacje są dostępne wyłącznie przez API z limitami. Pracujemy nad integracją delta z API, ale do tego czasu cały park aktywny opiera się na snapshocie 17.04.2022, każda karta na stronie wyraźnie tę datę pokazuje.

Co dokładnie znaczy „aktywny pojazd” w cepikstats.pl?

Pojazd aktywny to wpis w CEPiK z ważną rejestracją i bez daty wyrejestrowania. Wszystkie liczby parku samochodowego w serwisie liczymy właśnie na tym zbiorze. Pojazdy wyrejestrowane (kasacja, eksport, kradzież) nie są wliczane do żadnej agregacji.

Dlaczego liczba aut LPG jest zaniżona?

Pojazdy bifuelowe (benzyna + LPG) w CEPiK mają w polu „rodzaj paliwa” zazwyczaj wpisaną wartość paliwa głównego — czyli benzynę. Stąd kategoria LPG w naszych statystykach jest niedoszacowana, a benzyna — przeszacowana. Piszemy o tym otwarcie w każdej karcie paliwa.

Skąd biorą się 7 000 marek w surowych danych CEPiK?

Pole „marka” w CEPiK to tekst dowolny wpisywany przez urząd rejestracyjny. W surowym zbiorze są literówki („B.M.W.”, „BMW”, „BMW AG”), marki historyczne (FSO, WSK), pojazdy zbudowane samodzielnie („SAM”) i zwykłe błędy. Stosujemy tabelę aliasów — każdy surowy tekst mapuje się na jeden kanoniczny slug marki. Po normalizacji aktywnych marek mamy ok. 350.

Czy interpolujecie dane między snapshotami?

Nie. Każda warstwa danych (CEPiK 2022, GUS roczny, EAFO kwartalny, PZPM miesięczny) ma własną datę i własną granulację. Nie wypełniamy luk w seriach, nie ekstrapolujemy ani nie zgadujemy wartości pośrednich. Jeżeli źródło nie wie, my też nie zgadujemy.

Czym różnią się „pierwsze rejestracje” od „sprzedaży nowych aut”?

Pierwsze rejestracje w CEPiK obejmują wszystkie pojazdy zarejestrowane po raz pierwszy w Polsce — także auta używane sprowadzone z zagranicy. Sprzedaż nowych aut publikowana przez PZPM dotyczy tylko aut fabrycznie nowych. Stąd liczby PZPM są zawsze niższe od pierwszych rejestracji CEPiK z tego samego roku.

Dlaczego w CEPiK 2020 i 2021 jest tak mało wpisów?

To znana luka związana z migracją systemu do CEPiK 2.0. Snapshot 2022 zawiera dosłownie kilkanaście wpisów rocznie z tego okresu — nie odzwierciedla rzeczywistości rynku. Aktualne dane miesięczne uzupełnia PZPM (sprzedaż nowych aut) i GUS BDL (stan parku 2024).