Artykuł pochodzi z wydania: Marzec 2025
W sektorze publicznym wielkie zbiory informacji muszą zostać przetworzone tak, aby służyć skuteczniejszemu działaniu administracji. Na znaczeniu zyskuje więc stosowanie zaawansowanych metod statystycznych, eksploracji danych czy uczenia maszynowego.
Ilość informacji generowanych przez państwo i obywateli z roku na rok rośnie, co powoduje, że stosowanie tradycyjnych, ręcznych metod przetwarzania staje się niewystarczające. Współcześnie analiza danych nie ogranicza się do prostego raportowania. W procesie tym wykorzystywanych jest wiele technik, m.in. wykorzystujących nowoczesną technologię (uczenie maszynowe i głębokie), a otrzymane wyniki są interpretowane i wizualizowane dla decydentów. Analiza danych za pomocą technik statystycznych i narzędzi informatycznych pozwala instytucjom publicznym dostrzec wzorce, dostosowywać działania do realnych potrzeb i planować rozwiązania na podstawie obiektywnych faktów. W sektorze publicznym decyzje administracyjne przekładają się bezpośrednio na życie obywateli, np. poprzez rozbudowę infrastruktury, kształtowanie systemu edukacji czy projektowanie programów socjalnych. Wykorzystanie analiz danych umożliwia szybsze wykrywanie problemów i trendów, lepsze dopasowanie usług do potrzeb społeczności, racjonalniejszą alokację środków finansowych i zasobów ludzkich, większą transparentność, która z kolei wzmacnia kontrolę społeczną nad działaniami instytucji.
W tym artykule chcemy przede wszystkim przybliżyć najważniejsze etapy i techniki analizy danych: od przygotowania materiału (czyszczenie, integracja) po zaawansowane algorytmy eksploracji i uczenia maszynowego. Prezentujemy również sposoby wizualizacji i interpretacji wyników, a następnie przykłady tego, jak można je wykorzystać w codziennej praktyce administracyjnej. Skupiamy się więc na metodach potrzebnych do tego, aby big data nie pozostawało jedynie zestawem surowych informacji, lecz stawało się cenną wiedzą operacyjną dla władz.
Rodzaje danych i etapy przygotowania do analizy
Przed przystąpieniem do właściwej analizy należy zrozumieć, z jakimi typami danych mamy do czynienia, a także jakie kroki należy podjąć, aby przygotować informacje do dalszej obróbki. Trzeba odpowiednio rozpoznać strukturę i format danych, a następnie je oczyścić. Bez porządnego fundamentu, czyli zestawu danych dobrej jakości, nawet najbardziej zaawansowane techniki analityczne mogą prowadzić do błędnych lub nieprzydatnych wniosków.
Istnieje kilka podstawowych kategorii danych, które najczęściej spotykamy w administracji publicznej:
- Dane ustrukturyzowane – uporządkowane w zdefiniowanych formatach, np. tabele relacyjne (SQL), arkusze kalkulacyjne czy rejestry ze ściśle określonymi polami. Ułatwiają one stosowanie tradycyjnych metod przetwarzania i zapytań. Przykładem może być ewidencja ludności czy rejestr podatników, w przypadku którego każdy rekord ma jasno zdefiniowane kolumny (imię, nazwisko, PESEL, adres itd.).
- Dane nieustrukturyzowane – obejmują teksty, obrazy, nagrania audio i wideo, a także treści z mediów społecznościowych. Są trudniejsze w przetwarzaniu, ponieważ nie mają z góry ustalonego układu. Ich analiza wymaga często zastosowania algorytmów przetwarzania języka naturalnego (NLP) czy też rozpoznawania obrazów. Przykładem w sektorze publicznym mogą być treści pism urzędowych w formacie PDF, posty obywateli zgłaszających problemy w serwisach społecznościowych, jak również zapisy z kamer monitoringu.
- Dane półustrukturyzowane – formaty takie jak XML, JSON czy YAML mogą zawierać dane częściowo uporządkowane w drzewiastej strukturze. Dokument JSON z listą obiektów jest przykładem półustrukturyzowanego formatu. Administracja publiczna coraz częściej stosuje rozwiązania webowe komunikujące się w formacie JSON, np. w usługach API do pobierania danych z rejestrów.
Wdrożenie systemu analizy danych w administracji publicznej można podzielić na kilka kroków:
- Zbieranie danych – dane mogą być pozyskiwane automatycznie (np. przez czujniki IoT mierzące poziom zanieczyszczeń powietrza) lub manualnie (ankiety, rejestry wypełniane przez urzędników). Ważne jest, aby sposób zbierania zapewniał wystarczającą reprezentatywność próby i minimalizował błędy wprowadzania.
- Czyszczenie i ujednolicanie danych – zbiory bywają niekompletne, zawierają duplikaty albo informacje błędne. Proces czyszczenia (data cleaning) polega na usuwaniu niepotrzebnych rekordów, korekcie błędów typograficznych, uzupełnianiu braków, a także uspójnianiu formatu zmiennych. Ważne jest też standaryzowanie wartości, np. nazwy miejscowości muszą być wpisane w jednolity sposób.
- Integracja danych z różnych źródeł – aby uzyskać pełny obraz sytuacji, często należy połączyć dane z wielu instytucji i rejestrów. Przykładowo: informacje o bezrobociu z urzędu pracy można zestawić z danymi o poziomie wykształcenia z systemu edukacji. Istotne jest tu stosowanie wspólnych identyfikatorów (np. PESEL, NIP) i formatów, co ułatwia łączenie rekordów i zmniejsza ryzyko chaosu.
Narzędzia do zarządzania wielkimi zbiorami danych
Gdy wolumen danych rośnie, tradycyjne bazy relacyjne mogą okazać się niewystarczające. Wówczas stosuje się odpowiednie rozwiązania, takie jak systemy zarządzania bazami relacyjnymi i nierelacyjnymi czy technologie rozproszone. Do tych pierwszych należą:
- SQL (np. PostgreSQL, MySQL) – sprawdza się w przypadku ustrukturyzowanych danych i transakcji. z NoSQL (np. MongoDB, Cassandra) – to rozwiązanie elastyczne, przeznaczone dla danych nieustrukturyzowanych lub o zmiennym schemacie.
Technologie rozproszone to z kolei takie narzędzia jak:
- Hadoop – ekosystem open source, w tym HDFS (rozproszony system plików) i MapReduce (model programowania).
- Spark – framework do szybkiego przetwarzania danych w pamięci.
Wiele instytucji publicznych decyduje się na platformy chmurowe zapewniające narzędzia big data w modelu SaaS lub PaaS, np. Google Cloud BigQuery czy AWS EMR.
[…]
Marcin Dąbrowski
Autor to specjalista w dziedzinie analizy danych, który łączy wiedzę o technologiach big data z doświadczeniem w tworzeniu kompleksowych materiałów informacyjnych nt. przetwarzania informacji.