- %h - IP
Bei der IP - genau genommen der IP-Zahl - (in der derzeit eingesetzten
Version 4 des Internet Protokolls) handelt es sich um eine
Zahlenkombination. Die Möglichkeiten liegen zwischen 0.0.0.0 und
255.255.255.255. Man unterteilt die Blöcke von links nach rechts in A,
B, C, D. In jedem Block existieren 2 hoch 8 Möglichkeiten. D. h. es
werden nur die 256 Zahlen 0 bis 255 vergeben. Insgesamt ergeben sich
somit 2 hoch 32 denkbare IPs. Also dezimal 4.294.967.296. Allerdings
besitzen die amerikanischen Stellen ein derartiges Monopol bei der
Vergabe, dass nur ein Bruchteil tatsächlich vergeben ist und davon
wieder nur ein Teil eingesetzt wird.
Die IP ist im Prinzip mit der Postleitzahl zu vergleichen. Damit wird ein
Anschluss an das Internet gekennzeichnet. Es finden sich i.d.R.
keinerlei Benutzernamen im Logfile. Hinter der IP verbirgt sich oft ein
großer Provider, eine Universität oder eine Firma. Einzelpersonen
besitzen nur äußerst selten eine feste IP. Dem durchschnittlichen Nutzer
wird in der Regel vom Provider dynamisch, bei Bedarf, eine IP
zugewiesen.
- %l - Logname
Handelt es sich bei der abgerufenen Datei um eine geschützte Seite, so
findet sich hier der Eintrag des Benutzernamens. Das Feld Logname
wird sehr selten benutzt. Entweder handelt es sich um öffentlich
zugängliche Seiten, oder der Passwortschutz wird auf anderem Wege
erreicht. Bei den meisten Auftritten finden sich deshalb keine Einträge
in diesem Feld des Logfiles. Es ist dann mit einem Gedankenstrich
gekennzeichnet.
- %u - Passwort
Handelt es sich bei der abgerufenen Datei um eine geschützte Seite, so
findet sich hier der Eintrag des zum Benutzernamen gehörenden
Passwortes.
Bei den meisten Auftritten finden sich keine Einträge in diesem Feld
des Logfiles. Das Feld Web-Server-Authentifizierung wird sehr selten
benutzt. Entweder handelt es sich um öffentlich zugängliche Seiten, oder
der Passwortschutz wird auf anderem Wege erreicht. Der Eintrag ist dann
mit einem Gedankenstrich gekennzeichnet.
- %t - Datum, Uhrzeit und Zeitzone
Beim Feld Datum und Zeit des Logfiles handelt es sich um ein in
eckigen Klammern stehendes kombiniertes Feld der folgenden Form:
* [Tag/Monat/Jahr:Stunde:Minute:Sekunde Zone],
also:
* [29/Mar/2004:07:54:43 +0200].
Der zweistelligen Tagesangabe folgen - getrennt durch Schrägstriche - die
dreistellige englischsprachige Monatsabkürzung und das vierstellig
angegebene Jahr. Daran anschließend - getrennt durch Doppelpunkte -
werden jeweils zweistellig Stunden, Minuten und Sekunden angegeben.
Nach einem Leerzeichen folgt die vierstellige Zeitzone in Bezug auf die
GMT(Greenwich Mean Time / London). Statt GMT findet sich in der
Fachliteratur auch oft UTC - Universal Time Coordinate - Koordinierte
Weltzeit.
Zur Umrechnung der Zeitzonen finden man Informationen bei: http://setiathome.ssl.berkeley.edu
/utc.html.
Weitere Informationen zur Weltzeit, Sommerzeiten, Zeitzonen, der
Uhrzeit aller Länder etc. finden Sie bei: http://www.weltzeituhr.com /start.shtml.
Die immer dreistelligen Monatsabkürzungen lauten Jan, Feb, Mar, Apr, May,
Jun, Jul, Aug, Sep, Oct, Nov, Dec.
Bei der Zeitzone wird auch die Sommerzeit mit angegeben. MEZ ist immer
Greenwich plus 1 Stunde (+0100), MESZ dementsprechend +0200.
- %r - Zugriffsmethode / Aktion, Abgerufene Datei, Verwendetes
Protokoll
Das im Logfile auf das Datum folgende Feld Zugriffsmethode bezeichnet
die durchgeführte Aktion und steht immer in Hochzeichen.
* "GET /verzeichnis/dateiname.htm HTTP/1.0"
In diesem ebenfalls kombinierten Feld wird die Aktion, die betroffene
Datei und das verwendete HTTP-Protokoll festgehalten.
Überwiegend handelt es sich bei der Aktion um ein GET, seltener ein
POST oder ein HEAD. GET bedeutet, dass ein Anfrager etwas
abgerufen (geholt) hat. Beim Eintrag POST hat ein Nutzer etwas geschickt
oder eine Aktion z.B. in einem Interaktions- oder Transaktionsmodul
ausgelöst.
Auf die Aktionsbezeichnung folgt der Name der betroffenen Datei. Dies kann
ein sprechender Name oder ein teilweise kombinierter Zahlen- und
Buchstabencode sein, der aus einer Datenbank stammt. In wieweit der
Domainname und die Verzeichnisstruktur angezeigt werden, hängt von den
jeweiligen Server-Einstellungen ab.
Am Ende des Blockes folgt die Bezeichnung des bei der Aktion verwendeten
HTTP-Protokolls. Meist steht hier HTTP/1.1, teilweise HTTP/1.0. Je höher
die Zahl ist desto besser, da dann z.B. Grafiken schneller abgerufen
werden, sich somit für den Nutzer die Ladezeit der Gesamtseite
verringert. Ein hoher Anteil an HTTP 1.0 bedeutet, dass Sie viele Nutzer
mit alten Browsern als Gäste besitzen, die aufgrund der ständigen
Einzelanfragen an den Server für jedes Detail bei Grafiken mit einer
langen Ladezeit bestraft werden.
- %>s - Server-Antwort / HTTP-Statuscodes
Abgetrennt vom Aktionsfeld mit einem Leerzeichen folgt der
HTTP-Status-Code - der Antwortcode des Servers. Dieser besteht aus drei
Ziffern, die unterschiedliche Zustände charakterisieren. Am
wichtigsten - weil häufigsten - sind hierbei: 200, 304 und 404.
- %b - Dateigröße
Dieses durch Leerstellen abgetrennte Feld des Logfile-Eintrages
besteht aus einer beliebig langen Zahl. Sie gibt die Größe der bewegten
Daten an. Bei abgerufenen Dateien handelt es sich um die Dateigröße.
Bei einem Eintrag 304 im davor liegenden Feld Server-Antwort /
HTTP-Statuscodes steht hier oft ein Gedankenstrich. Hierbei handelt es
sich um einen Aufruf aus dem Cache des Browsers, so dass keine Daten
mehr vom Server an den Nutzer versandt werden mussten.
- %{Referer}i - Referer
Dieses Feld des Logfile-Eintrages ist ebenfalls von seiner Umgebung durch
Leerstellen abgetrennt. Der Inhalt besteht aus dem im Internet für die
Namensvergabe zulässigen Alphabet. Der Inhalt zeigt die direkt vorher
vom Nutzer besuchte Seite bzw. getätigte Aktion an. I.d.R. findet sich
hier nur ein Gedankenstrich. Er steht für keine Angaben.
Falls sich ein Eintrag findet, so besitzt er oft die Form http://......
Die Herkunftsadresse kann mit einem www. oder ohne oder mit der reinen
IP eingeleitet werden. In anderen Fällen finden sich bis hin zur
Dateibezeichnung detaillierte Angaben der Form:
* www.Herkunft.de / Rubrikenname / Unterrubrik / Dateiname.htm
Dynamisch aus Datenbanken erzeugte Herkunftsseiten zeigen sich auch so:
* http://www.herkunftsname.de / docs / index.asp?id=1028&sp
=D&m1=933&m2=936&m3 =988&m4=1028&m5 =&domid=666.
Bei Suchmaschinen finden sich mit zahlreichen Trennern versehene
Suchworte:
- http://search.msn.de / spresults.aspx? ps=ba%3d(0..10)0.....
%26co%3d(0..10)200.2.5.10.3.% 26pn%3d1%26rd%3d0%26
&q=Suchwort_1+Suchwort_2 +Suchwort_3&ck_sc=1&ck_af=1
- http://suche.fireball.de/suche.csp? mode=express&http://suche.lycos.de/
cgi-bin/pursuit? query=Suchwort_1&cat=loc& matchmode=and&pag=16&maxhits=10
&lang=any&idx=all& SITE=de&wh=1791&nightsurf=nornd=13912 &ocr=on&a=b&
q=Suchwort_1+Suchwort_2& what=german_web&x=27&y=14
- http://suche.web.de/search/? fromcat=true&mc=810000& su=Suchwort_1+Suchwort_2+Suchwort_3&smode=
- http://sucheaol.aol.de/suche/search.jsp? kw=1&q=Suchwort_1%20Suchwort_2
- http://ww.google.de/search? hl=de& cr=countryDE&ie=UTF-8& oe=UTF-8&
q=Suchwort_1+Suchwort_2+Suchwort_3&spell=1
Wobei Umlaute und Sonderzeichen codiert werden: %E4 steht z.B. für ä.
Diese im Referer mit übertragenen Suchworte der Suchmaschinen geben
wichtige Hinweise, unter welchen Stichworten Nutzer zu den jeweiligen
Seiten finden!
Die meisten Einträge im Referer werden allerdings von ihrer eigenen
Domain stammen, da sich der Nutzer in Ihrem Auftritt von einer Seite zur
nächsten weitergeklickt hat.
- %{User-Agent}i - Browser und Betriebssystem
Dieses in Anführungszeichen stehende Kombinationsfeld bei
Logfile-Einträgen kann mit einem Gedankenstrich für keine Angaben
gekennzeichnet sein. I.d.R. finden sich dort die Angaben zum Browser und
dem Betriebssystem. Allerdings sind viele diese Angaben teilweise
codiert in dem Sinne, dass sie unterschiedlich benannt sind und im
folgenden Text erst weiter sich ergeben. So findet sich am Anfang der
meisten Einträge Mozilla. Dies heißt jedoch keineswegs, dass es sich
hierbei um den Browser Mozilla oder auch nur Netscape handelt. Oft steht
dahinter in Klammern dann noch der kleine Zusatz MSIE 5.01, der dann
erst den tatsächlichen Browser angibt. Teilweise finden sich direkt
hinter dem Browser, abgetrennt durch ein Semikolon,
Sonderbezeichnungen wie AOL 7.0. Dies gibt die Sonderversion des
Browsers bzw. der Zugangssoftware zum Internet an.
Ähnlich verhält es sich mit dem dahinter eingetragenen Betriebssystem, das
in derart vielen redundanten Abkürzungen und Codes eingetragen werden
kann, dass man leicht die Übersicht verliert. Der Eintrag Windows 98 ist
noch leicht zu erkennen. Schwieriger wird es bereits bei Windows NT
5.0, das für Windows 2000 steht.
Dahinter folgen, durch ein Semikolon abgetrennt, teilweise weitere
codierte Bezeichnungen. Bei Großfirmen bezeichnen diese Einträge oft die
Firmenversion des Betriebssystems. Daneben findet man dort auch die
Provider eingetragen: DT für Deutsche Telekom, Arcor, Freenet etc.
Allerdings stehen dort manchmal auch erst die richtigen
Browser-Bezeichnungen! Das betrifft vor allem die neueren kleineren
Browser. Dies gilt u.a. für:
- für Opera - "Mozilla/4.0 (compatible; MSIE 6.0; MSIE 5.5;
Windows NT 5.0) Opera 7.03 [de]"
- Avant-Browser, z.B.: - "Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.1; Avant Browser [avantbrowser.com])"
- Crazy - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;
Crazy Browser 1.0.5)"
- Firebird - "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US;
rv:1.5) Gecko/20031007 Firebird/0.7"
- Safari - "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; de-de)
AppleWebKit/124 (KHTML, like Gecko) Safari/125".
Überdies finden sich teilweise noch Plugins für einen Browser
angezeigt. So z.B. Hotbar:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; Hotbar
4.3.5.0)"
Schließlich finden sich in diesem Block auch die gesamten Spider,
Crawler, Robots etc. der Suchmaschinen. Ich selbst habe bisher eine
Sammlung von mehreren hundert unterschiedlichen derartigen Einträgen
erstellt.
Letztendlich wird diese Feld von einigen Spaßvögeln - vor allem aus dem
Linux-Bereich - auch vorsätzlich missbraucht: Einträge wie "Unbekannt
ha! ha!" gehören noch zu den höflichen. Hier wird deutlich, wo die
Grenzen liegen. Im Prinzip kann man sowohl das eigene Betriebssystem als
auch den eigenen Browser entweder unsichtbar machen oder sogar als eine
ganz andere Software ausgeben!