Demokracja pod lupą AI

Niezależny projekt społeczny, który automatyzuje analizę dokumentów samorządowych gminy Piława Górna. Cel: dostarczyć mieszkańcom przystępną wiedzę o tym, co dzieje się w ich mieście — bez konieczności przedzierania się przez urzędowy język setek stron PDF.

Co znajdziesz na tej stronie

Jak to działa — pipeline danych

01

Pobranie danych

Scraper pobiera nagrania wideo sesji, dokumenty PDF z BIP (protokoły, uchwały, zarządzenia, interpelacje).

02

Transkrypcja i OCR

Nagrania → tekst (MLX Whisper + pyannote). Dokumenty PDF → tekst (pypdf + Gemini dla skanów).

03

Analiza Gemini

Teksty trafiają do modelu Gemini, który generuje streszczenia, wyciąga fakty i kluczowe informacje.

04

Publikacja

Dane zapisywane do JSON, strona generowana statycznie przez Astro — szybka, bez serwera i bazy danych.

Największe wyzwanie — odczyt dokumentów PDF

Na pozór proste zadanie — „pobierz treść z PDF" — w praktyce bywa bardzo trudne. Dokumenty samorządowe w BIP to mieszanina różnych formatów i jakości:

Dokumenty pisane odręcznie

Starsze protokoły i zarządzenia są często skanami ręcznie pisanych dokumentów. Standardowe narzędzia do ekstrakcji tekstu (pypdf) zwracają pusty ciąg — dokument istnieje, ale jest obrazem.

Skany złej jakości

Część dokumentów to skany z kserokopiarki — przekrzywione, niewyraźne, z artefaktami. OCR na takim materiale daje błędy literowe, błędnie rozpoznane cyfry i kwoty w budżetach.

Tabele i skomplikowane układy

Załączniki budżetowe zawierają rozbudowane tabele — ich odczyt bez znajomości struktury daje bezużyteczną miazgę liczb i liter bez kontekstu.

Jak sobie z tym radzimy

pypdf jako pierwsza próba

Najpierw próbujemy wyodrębnić tekst ze struktury PDF. Jeśli zwraca wystarczającą liczbę znaków — dokument jest cyfrowy i nie potrzebuje OCR.

Gemini dla skanów

Gdy pypdf zwraca pusty lub bardzo krótki tekst, strony PDF konwertujemy na obrazy i wysyłamy do Gemini z prośbą o odczyt i streszczenie. Model radzi sobie nawet z ręcznym pismem — choć nadal nie bezbłędnie.

Oznaczanie niepewności

Streszczenia wygenerowane bez pełnego tekstu źródłowego są oznaczane jako mniej wiarygodne. Zawsze wskazujemy link do oryginału w BIP — żeby każdy mógł sprawdzić sam.

Streszczenia AI są pomocą, nie zastępstwem dokumentu urzędowego. Zawsze podajemy link do źródła.

Silnik Systemu

Python 3.9+
Przetwarzanie
Gemini Flash
AI / OCR
MLX Whisper
Transkrypcja
pyannote.audio
Diaryzacja
JSON Schema
Struktura danych
Astro + Tailwind
Frontend

Częste Pytania

Czy to oficjalna strona Gminy?

Nie. To oddolna inicjatywa mieszkańców. Oficjalne dokumenty zawsze w Biuletynie Informacji Publicznej.

Jak dokładne jest AI?

Streszczenia AI są uproszczeniem. Kluczowe liczby i fakty warto zawsze zweryfikować klikając link „BIP" przy każdym dokumencie. Miejsca oparte wyłącznie na OCR ze skanu mogą zawierać błędy rozpoznawania tekstu.

Skąd biorą się dane?

Wyłącznie z publicznych źródeł: BIP gminy Piława Górna, nagrania wideo posiedzeń oraz dokumenty PDF udostępnione przez urząd w ramach dostępu do informacji publicznej.

Nota Prawna

Niniejszy serwis ma charakter informacyjny. Prezentowane treści są generowane automatycznie i mogą zawierać uproszczenia lub błędy OCR. Nie stanowią oficjalnego dokumentu urzędowego w rozumieniu przepisów prawa. Zawsze podajemy link do źródłowego dokumentu w BIP.