Miesięcznik informatyków i menedżerów IT sektora publicznego

Dariusz Nawojczyk

Webalizer – logi bez tajemnic

SERWIS WWW | Strony administracji publicznej – podobnie jak wszystkie inne witryny Sieci – są chętnie odwiedzane przez internautów. Jeśli chcemy analizować ruch, który generuje nasza witryna, zainstalujmy na serwerze program interpretujący logi. Odpowiedź na pytania,kto odwiedza stronę i jakie miejsca są w niej najpopularniejsze, uzyskamy dzięki darmowemu narzędziu o nazwie Webalizer.

Analiza logów polega na przetwarzaniu informacji gromadzonych podczas połączeń komputerów zewnętrznych z serwerem. Każde takie odwołanie do serwera danej usługi (w naszym wypadku będziemy mówili o serwerze WWW) zostaje zarejestrowane w tzw. dzienniku zdarzeń. Najczęściej jest to zwykły plik tekstowy, w którym informacje zapisuje się w ściśle określonym porządku. Poddając pojedyncze wpisy odpowiedniej obróbce, np. zliczając liczbę wystąpień, wyspecjalizowane narzędzia analityczne potrafią w ciągu kilkunastu sekund wygenerować spójny raport.

CLF, czyli jak zapisywane są logi

Podstawowym formatem zapisu logów większości serwerów WWW jest Common Logfile Format (CLF). Informacja o każdym zdarzeniu (odwołaniu) zapisywana jest do zwykłego pliku tekstowego po jednym wpisie w każdej linii. Wpis składa się z siedmiu (oddzielonych spacjami) informacjami o zdarzeniu, np.

remotehost rfc931 authuser [date] ¬

"request" status bytes

Pierwsze pole - remotehost - zawiera nazwę lub po prostu adres IP komputera, który połączył się z serwerem. Kolejne - rfc931 - to nazwa użytkownika na połączonej z serwerem maszynie. Authuser określa natomiast nazwę, którą osoba odwiedzająca wprowadziła w formularzu autoryzacyjnym, o ile strona była chroniona hasłem. Pole [date] (pojawia się zawsze w nawiasach kwadratowych) zawiera czas, w którym nastąpiło odwołanie. Request to żądanie przesłane do serwera, np. wywołanie pliku o określonej nazwie. Odpowiedź na to wywołanie przechowywane jest zaś w sekcji status. Parametr ten przyjmuje wartość liczbową zgodnie z kodami statusów HTTP zwracanymi przez serwer. Ostatnie pole - bytes - określa rozmiar pliku przesłanego do klienta.

Wiele serwerów - w tym popularny Apache - potrafi również zbierać logi w formacie Combined Log Format. Zawiera on dwie dodatkowe informacje w stosunku do CLF: nazwę strony, z której zostało skierowane wywołanie (ang. referer), oraz nazwę przeglądarki wykorzystanej do nawiązania połączenia (ang. user-agent). Obie informacje zamieszczane są jako ostatnie pozycje w pojedynczym wierszu dziennika zdarzeń.

[...]

Autor jest redaktorem naczelnym portalu Webhosting.pl

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma. Zapraszamy do składania zamówień na prenumeratę i numery archiwalne.
 
 

Polecamy

Biblioteka Informacja Publiczna

Specjalistyczne publikacje książkowe dla pracowników administracji publicznej

więcej