cepikstatspl

O serwisie

O autorze — Borja Cifuentes

Stoi za tym serwisem jedna osoba — nie agencja, nie zespół redakcyjny. Dane publiczne, rzetelna metodologia, bez reklam markowych.

Borja Cifuentes — autor cepikstats.pl

Nazywam się Borja Cifuentes. Buduję serwisy, które zamieniają otwarte rejestry publiczne w czytelne narzędzia dla użytkownika końcowego — od architektury bazy danych po prezentację liczby na ekranie. cepikstats.pl skupia się na CEPiK: rejestrze Ministerstwa Cyfryzacji, który zawiera dane o ponad 26 milionach pojazdów zarejestrowanych w Polsce.

Nie jestem dziennikarzem motoryzacyjnym ani testerem samochodów. Jestem analitykiem danych: interesuję się tym, co mówi rejestr, a nie tym, jak jeździ nowy model. To oznacza, że cepikstats.pl nie recenzuje aut, nie poleca ubezpieczycieli i nie ma linków afiliacyjnych do porównywarek OC. Jest tu tylko statystyka.

Model pracy stosowany na cepikstats.pl wynika z lat doświadczenia z otwartymi rejestrami publicznymi — danymi statystycznymi, podatkowymi i demograficznymi, opartymi na oficjalnych źródłach (GUS, INE, Eurostat). W cepikstats.pl ten sam model stosowany jest do CEPiK: dane publiczne, weryfikowalne, bez nachalnej sprzedaży i bez opinii udających liczby.

Doświadczenie — skąd pochodzi ta wiedza

Praca z danymi publicznymi to nie tylko ich pobieranie — to zrozumienie, co konkretny rejestr mierzy, gdzie jego ograniczenia i jak łączyć różne źródła bez tworzenia fałszywego obrazu. To umiejętność, którą buduję od 2018 roku.

2018–dziś — Niezależne serwisy danych publicznych

Projektowanie, budowanie i redagowanie serwisów statystycznych opartych na oficjalnych rejestrach w Hiszpanii i Polsce. Stack techniczny: Next.js App Router, TypeScript, Python (pandas, httpx, pdfplumber, pydantic), SQL/Turso, Vercel ISR. Każdy serwis to pełny pipeline: pobieranie danych → ETL → baza → frontend → treść → SEO.

Umiejętności techniczne kluczowe dla cepikstats.pl

  • ETL z dużych zbiorów danych — CEPiK zawiera kilkadziesiąt milionów rekordów. Przetwarzanie odbywa się chunkami przez pandas i DuckDB, agregacja trafia do Turso, nie do frontendu.
  • Normalizacja niejednorodnych rejestrów — pole “marka” w CEPiK to tekst wolny. Zbudowałem tabelę aliasów normalizującą warianty (np. “BMW”, “B.M.W.”, “BMW AG”) na jednolity slug kanoniczny.
  • SEO programatyczne — generowanie setek unikalnych stron (fichas marek, modeli, województw) z ISR Next.js, schema.org JSON-LD, canonical i sitemap dynamiczną.
  • Wizualizacja danych bez bibliotek JS — wykresy SVG pisane ręcznie (bar chart, line chart, donut, mapa koroplety 16 województw) dla minimalnej wagi strony.
  • Analiza treści i E-E-A-T — każda strona ma weryfikowalną datę snapshotu danych, link do źródła i wyraźne oznaczenie, gdy przechodzę od danych do interpretacji.

Główne źródła danych używane w projektach

  • Polska: CEPiK (Ministerstwo Cyfryzacji), GUS BDL, PZPM, EAFO, URE/ORPA
  • Hiszpania: INE (Instituto Nacional de Estadística), SEPE (paro y empleo), Agencia Tributaria, Ministerio de Fomento (vivienda)
  • Europa: Eurostat, ACEA (motoryzacja UE), EAFO (elektromobilność)

Skąd pochodzi każda liczba na cepikstats.pl

Każda ficha, ranking i wykres ma trzy obowiązkowe elementy: liczbę, źródło i datę odczytu. Poniżej cztery bazy, które zasilają cepikstats.pl.

  1. CEPiK — Centralna Ewidencja Pojazdów i Kierowców, Ministerstwo Cyfryzacji. Dane o pojazdach zarejestrowanych w Polsce.
  2. PZPM — Polski Związek Przemysłu Motoryzacyjnego. Comiesięczne dane o rejestracjach nowych pojazdów.
  3. EAFO — European Alternative Fuels Observatory. Dane o elektromobilności i alternatywnych paliwach w Polsce i UE.
  4. GUS BDL — Bank Danych Lokalnych. Dane demograficzne i gospodarcze dla kontekstu regionalnego.

Metodologia pracy — jak buduje się serwis danych

Każdy serwis przechodzi przez te same pięć etapów. Opisuję je tutaj, żeby czytelnik mógł ocenić, skąd pochodzi liczba, którą widzi na ekranie.

  1. Identyfikacja źródła urzędowego. Zanim powstanie jakakolwiek treść, sprawdzam, czy istnieje oficjalny rejestr lub badanie statystyczne obejmujące dany temat. Dla cepikstats.pl są to przede wszystkim dane udostępniane przez CEPiK (Centralna Ewidencja Pojazdów i Kierowców) w ramach otwartych danych Ministerstwa Cyfryzacji, uzupełnione o PZPM i EAFO.
  2. Pobranie i walidacja danych. Dane pobieram ze źródła i zapisuję datę odczytu. Walidacja polega na sprawdzeniu kompletności, braku duplikatów i spójności z innymi źródłami. Jeżeli źródło ma lukę (np. brakujące rekordy dla danego roku), strona opisuje lukę zamiast ją wygładzać.
  3. Agregacja i normalizacja. Sumaryczne liczby, rankingi i wykresy powstają ze skryptów — nie z ręcznych obliczeń. Skrypty są powtarzalne: nowe dane wchodzą w ten sam potok i dają aktualne wyniki bez ręcznej edycji treści.
  4. Redakcja i weryfikacja. Tekst opisuje to, co mówią dane — nie więcej. Jeżeli interpretacja wykracza poza dane (np. wyjaśnienie, dlaczego parque LPG jest niedoszacowany), oznaczam to wyraźnie jako interpretację z odwołaniem do kontekstu regulacyjnego.
  5. Publikacja i data aktualizacji. Każda ficha i każdy pillar ma widoczną datę snapshot\u2019u danych i datę ostatniej weryfikacji tekstu. Jeżeli przepisy się zmieniają, aktualizuję tekst i zmieniam datę weryfikacji na górze strony.

Dlaczego cepikstats.pl — luka, którą wypełnia ten serwis

Polska ma jeden z największych parków samochodowych w Europie — ponad 26 milionów zarejestrowanych pojazdów według danych CEPiK. Mimo to trudno znaleźć jedno miejsce, które odpowiada na pytania o ten park w sposób oparty na danych: ile aut danej marki jeździ w Mazowieckiem, jaki jest średni wiek diesla w Polsce, jak rośnie elektromobilność województwo po województwie.

Konkurencja to: Wikipedia (nie specjalizuje się w polskiej motoryzacji), fora internetowe (opinia, nie dane), portale prasowe (jeden artykuł na zdarzenie, bez struktury danych) i oficjalny portal CEPiK gov (surowe dane bez narracji). Żaden z tych kanałów nie daje tego, co daje cepikstats.pl: strukturę encyklopedyczną, aktualny kontekst regulacyjny i dane wizualizowane na poziomie każdego województwa, marki, modelu i paliwa.

Ficha każdej marki zawiera: liczbę aktywnych pojazdów z daty snapshotu, rozkład po 16 województwach, mix paliwowy, wykresy roczników produkcji i historię pierwszych rejestracji. Ficha województwa — rankingi marek, wiek parku, gęstość motoryzacji i porównanie z krajową średnią. Pillar pages pokrywają największe tematy wyszukiwane przez Polaków: akcyza, OC, badanie techniczne, import z Niemiec, stacje ładowania EV, zasięg zimowy elektryków.

Model treści jest identyczny jak w projektach dla Hiszpanii: rejestr urzędowy jako jedyne źródło prawdy, żadnych liczb bez daty i linku do źródła, interpretacja wyraźnie oddzielona od surowych danych. Ten model sprawdził się w pięciu projektach przez ponad sześć lat — przynoszę go do Polski, bo CEPiK jest jednym z najciekawszych otwartych rejestrów w Europie Środkowej.

CEPiK — dlaczego to wyjątkowe źródło danych

Centralna Ewidencja Pojazdów i Kierowców (CEPiK) to jeden z najbardziej szczegółowych otwartych rejestrów w Europie Środkowej. Zbiera dane o każdym pojeździe zarejestrowanym w Polsce: markę, model, rok produkcji, rodzaj paliwa, województwo i powiat rejestracji, wyniki badań technicznych, datę rejestracji i wyrejestrowania. Suma aktywnych wpisów przekracza 26 milionów pojazdów.

Wartość CEPiK polega na pełności: nie jest to próbka, badanie ankietowe ani szacunek. To rejestr administracyjny obejmujący 100% pojazdów dopuszczonych do ruchu w Polsce. Żadne inne publicznie dostępne źródło nie daje tak dokładnego obrazu polskiego parku samochodowego w jednym zbiorze danych.

Ograniczenia CEPiK, o których piszę otwarcie: dane mają datę snapshotu — publiczny dump z 2022 roku jest ostatnią masową publikacją. Pole “marka” to tekst swobodny, więc normalizacja wariantów zapisu jest obowiązkowa. Wyrejestrowania są opóźnione — część “aktywnych” pojazdów to w praktyce złomowane auta bez formalnego wyrejestrowania. Wszystkie te ograniczenia są opisane w sekcji Metodologia.

Uzupełnieniem CEPiK są dane dynamiczne: PZPM publikuje co miesiąc nowe rejestracje samochodów osobowych i dostawczych, EAFO dostarcza kwartalne dane o elektromobilności dla całej UE, GUS BDL — dane demograficzne do kontekstu regionalnego. Połączenie tych czterech źródeł daje kompletniejszy obraz niż każde z nich osobno.

Filozofia redakcyjna — co oznacza “tylko dane”

Napisanie, że “cepikstats.pl opiera się wyłącznie na danych”, brzmi prosto, ale w praktyce wymaga ciągłych decyzji: co opisywać, a czego nie; kiedy interpretować, a kiedy tylko podać liczbę; jak pisać o trendzie bez przemilczania wyjątków.

Zasada nr 1: Każda liczba ma datę. Dane statystyczne starzeją się. Dlatego każda strona pokazuje datę snapshotu, z którego pochodzi liczba — nie ukrywam, że dane z 2022 roku to stan sprzed ponad trzech lat.

Zasada nr 2: Interpretacja jest oznaczona.Jeżeli piszę, że “dominacja VW w parku to efekt importu używanego z Niemiec” — to jest moja interpretacja danych, nie fakt wprost z rejestru. Staram się, żeby to rozróżnienie było widoczne dla czytelnika.

Zasada nr 3: Brak rekomendacji zakupowych.Dane mówią, ile pojazdów danej marki jest zarejestrowanych — nie mówią, czy warto kupić konkretny egzemplarz. cepikstats.pl nie recenzuje aut, nie rankinguje “najlepszych modeli” i nie porównuje niezawodności.

Zasada nr 4: Disclaimer tam, gdzie jest potrzebny. Kalkulatory (akcyza, TCO, OC) mają wyraźny disclaimer: wyniki są szacunkowe, a przed podjęciem decyzji finansowej lub prawnej należy zweryfikować aktualne przepisy. Rejestr danych jest przydatny — nie zastępuje porady prawnika ani urzędu skarbowego.

Zasady redakcyjne — czego tu nie znajdziesz

Brak recenzji samochodów

Nie testuję aut, nie polecam modeli i nie porównuję osiągów. Dane rejestracyjne opisują co Polacy kupują — nie oceniają, czy mają rację.

Brak linków afiliacyjnych

Żaden link do ubezpieczyciela, leasingodawcy ani salonu nie jest opłacony. Finansowanie pochodzi z reklam kontekstowych (AdSense), nie z prowizji.

Brak danych bez źródła

Każda liczba wraca do oficjalnego rejestru lub badania. Jeżeli nie ma weryfikowalnego źródła, zdania nie ma w tekście.

Brak opinii podszywanych pod dane

Gdy piszę o trendzie, opieram go na liczbach. Gdy interpretuję, zaznaczam to. Granica między danymi a komentarzem jest widoczna.

Transparentność o modelu finansowym

Serwis zarabia na reklamach AdSense. Nie akceptuje sponsorowanych treści, płatnych wzmianek ani artykułów gościnnych.

Korekty i sprostowania

Jeżeli znajdziesz błąd w danych — napisz. Sprostuję i opiszę zmianę w tekście z datą korekty.

Aktualizacja danych — kiedy i jak

Dane CEPiK aktualizują się, gdy Ministerstwo Cyfryzacji udostępnia nowy publiczny dump. Ostatnia pełna publikacja to kwiecień 2022 — ta data widnieje na każdej stronie, która z niej korzysta. Gdy pojawi się nowy dump, uruchomię pełny pipeline ETL: pobranie, agregacja, walidacja, załadowanie do bazy i odświeżenie ISR.

Dane uzupełniające (PZPM, EAFO) mają własny rytm: PZPM publikuje nowe rejestracje co miesiąc, EAFO — co kwartał. Część stron — szczególnie karty EV — korzysta z tych bardziej aktualnych źródeł i oznacza to odrębnie.

Teksty edytorialne (poradniki, analizy, pillar pages) są weryfikowane niezależnie od danych. Data weryfikacji widoczna u góry każdej strony mówi, że przejrzałem tekst pod kątem aktualności przepisów i kontekstu — nawet jeśli liczby z CEPiK się nie zmieniły. Zmiany w prawie (np. nowe stawki akcyzy, nowe programy NaszEauto, zmiana warunków SCT) powodują natychmiastową aktualizację dotkniętych stron.

Kontakt i dostępność

Jestem dostępny pod adresem info@cepikstats.pl. Typowy czas odpowiedzi: 48 godzin roboczych. Nie prowadzę konsultacji indywidualnych, nie udzielam porad prawnych ani podatkowych. Wszystkie pytania o dane, nieścisłości i propozycje tematów — chętnie.

Jeżeli reprezentujesz medium i chcesz zacytować dane z cepikstats.pl w artykule, nie musisz pytać o pozwolenie — wystarczy link do źródłowej strony. Dane publikowane w serwisie opierają się na otwartych rejestrach publicznych.

Prawa autorskie: treści tekstowe cepikstats.pl są moje. Dane, na których się opierają (CEPiK, GUS, PZPM, EAFO), to dane publiczne na otwartych licencjach. Cytowanie z podaniem źródłowego URL jest mile widziane; kopiowanie całych stron bez oznaczenia — nie.

→ Metodologia serwisu — jak obliczamy dane · → Pełna lista źródeł · → Formularz kontaktowy