Loggfiler som datakilde
Etter at man har etablert hva man ønsker å måle vil et naturlig neste skritt være å definere hvilke datakilder man skal benytte i målingen. I det følgende vil jeg gi en introduksjon til de mest vanlige datakilder for kvantitative data om brukeratferd på nettsteder. Dette innlegget vil handle om loggfiler som datakilde.
En meget vanlig og utbredt kilde til data er loggfilene til maskinen nettstedet ligger på (web-server). Filene inneholder oversikt over alle transaksjoner serveren håndterer.
Avhengig av type server så kan loggene finnes i forskjellige formater, noe som kan ha betydning for hvordan data skal tolkes og hvilke verktøy man kan benytte i analysen.
Det er svært lite en normalbruker får ut av å studere selve loggfilen direkte, filen må prosesseres gjennom en egen programvare, et logganalyse-verktøy. Vi skal i dette innlegget ikke gå inn på de tekniske detaljene om innholdet i loggen, de forskjellige loggformater, hva som kan logges og hvordan verktøyene bearbeider loggfilene. Vi skal i stedet se på hvilke fordeler og ulemper det medfører å ha loggfiler som datakilde.
Fordeler med loggfiler som datakilde:
Data om søkemotorers indeksering av nettstedet
Hvis man arbeider aktivt med søkemotor-optimalisering så er det nyttig å følge med på hvilke søkemotorer som besøker/ikke besøker nettstedet og hvor ofte. Hvis man benytter en robots.txt fil for å styre automatisk indeksering av nettstedet så kan man enkelt følge med på hvilke verter (hosts) som leser denne filen. Når man har oversikt over vertene så kan man filtrere på disse og se hvor dypt i strukturen de går og hvilke sider de har registrert.
Nedlastingsdata
Ved hjelp av loggfiler vil man kunne måle også delvis nedlastede filer og få mer korrekte oversikter over hvor mange som helt eller delvis har lastet ned en fil for eksempel et pdf dokument eller en powerpoint presentasjon.
Feilmeldinger
Forskjellige feilmeldinger fra webserveren blir som regel logget. Loggfilen blir dermed også en kilde for verdifull informasjon om kvaliteten på tjenesten nettstedet tilbyr. De mest interessante meldingene å være på utkikk etter er:
4xx feilmeldinger som handler om feil i kommunikasjonen med klienten (brukerens nettleser). Den mest kjente av disse er trolig ”404 Not found” som betyr at siden brukeren ber om ikke er tilgjengelig.
5xx feilmeldinger handler om feil som oppstår på server siden og av disse er trolig ”500 Internal Server Error” den mest kjente.
Dette kan dreie seg feilsituasjoner knyttet til funksjonalitet og design, oppdateringer av innhold og andre forhold som er vanskelig å måle på annet vis.
Eierskap til data
Ved å basere seg på loggfiler vil man som regel kunne sikre seg et eierskap til kildedata. De fleste leverandører av verts-tjenester (hosting/web-hotell) vil kunne la nettstedseier laste ned og oppbevare sine egen weblogger. Dermed avgjør man selv hvor lenge data skal oppbevares og har mulighet til å analysere historiske data.
Ulemper med loggfiler som datakilde:
Mellomlagring av sider i nettleser
Når en bruker benytter frem- eller tilbake-knappen i nettleseren så brukes en lokal kopi av siden. Siden hentes dermed ikke fra web-serveren og blir heller ikke registrert i loggen. Hvis man ønsker å se hvilken sti brukeren har klikket seg igjennom, så vil det potensielt være en rekke huller som skyldes lokal mellomlagring og som gjør det vanskelig å tolke statistikken.
Virkelig klikkmønster:
Forside – Side 1 – Tilbake til Forside – Side 3 – Tilbake til Forside
vil i loggen registreres som:
Forside – Side 1 – Side 3
Loggen gir i eksemplet et misvisende bilde av brukerens reelle klikkmønster og kan slik sett maskere problemer med design og navigasjon.
Mellomlagring på server (Caching)
Sider fra et nettsted vil også bli mellomlagret i såkalte Cahce i nettverket. Internettilbyderne benytter seg av mellomlagring av sider i utstrakt grad for å spare nett-trafikk med gjentatt nedlasting av samme dokument. Om nettsiden du leter etter ikke er tilgjengelig lokalt i maskinen din vil nettleseren sjekke mellomlagret hos din internettleverandør (ISP). Om noen som benytter samme ISP som deg nettopp har besøkt de samme sidene, slipper nettleseren å gå videre. Om informasjonen ikke er tilgjengelig på ISP’ens mellomlager kan det tenkes at det finnes et mellomlager på en annen server i ett av ”veikryssene” på veien til det nettstedet du skal besøke.
Dette betyr høy usikkerhetsgrad i forhold til hvor riktig bilde loggfilen gir av trafikk og brukere. En eldre artikkel i Digi opererer med eksempler på at 20 % – 46 % av et nettsteds trafikk foregår i mellomlager og dermed ikke registreres i loggene.
Nettsteder med stor trafikk benytter også mellomlagring for å avlaste nettstedets database. Om noen like før har hentet den samme nettsiden ligger den i mellomlagret og den siste besøkende behøver ikke å hente den fra nettstedets database. Hensikten med mellomlagring er å effektivisere nedlastingen for den besøkende, og for å få dette til blir mange av forespørslene fanget opp før de kommer frem til nettstedets database. Større nettsteder med dynamisk publisering bør kontrollere hva som faktisk logges, er data fra egne cache-løsninger tatt inn i loggen som analyseres?
Dynamiske adresser (proxy)
En proxy server håndterer dynamisk tildeling av IP-adresser til servere og PC’er i det lokale nettverket (LAN). Sett fra et nettsted ute på internett vil forespørsler fra alle PC’er i det samme lokale nettverket bli identifisert med proxy serverens IP-adresse. Loggfilen vil dermed ikke klare å skille disse brukerne fra hverandre og fem forespørsler fra fem forskjellige brukere i det lokale nettverket vil bli oppfattet som fem forespørsler fra den samme brukeren.
Trafikk generert av maskiner
Som nevnt under fordeler så registreres maskingenerert trafikk i loggfilene, for eksempel fra søkemotorer. Dette har også en negativ side: Antallet spidere og web-roboter som besøker nettsteder er sterkt stigende: flere nettsteder publiserer lister med mer enn 2500 kjente roboter. Det er en ganske omfattende oppgave å prøve å holde seg à jour med de forskjellige som finnes, slik at man kan filtrere maskingenerert trafikk vekk. Verdifulle bruksdata fra ønskede målgrupper risikerer å drukne i havet av maskingenerert trafikk. For alle nettsteder som driver annonsesalg så er det avgjørende å kunne skille på denne typen trafikk. Annonsørene er ikke interessert i å betale for visninger eller besøk fra brukere som viser seg å være roboter og vil kunne oppfatte dette som svindel.
Konklusjon
Loggfiler er en rik kilde til data om maskingenerert trafikk (søkemotorer), feilmeldinger og nedlasting av filer. Som kilde til analyse av bruksdata er loggfilene beheftet med stor usikkerhet og mange feilkilder (cahce, proxy og maskingenerert trafikk).
Alternative datakilder vinner derfor stadig markedsandeler i forhold til bruk av den tradisjonelle loggfilen som eneste datakilde.
Post gjerne en kommentar om dine erfaringer med loggfiler. Hvordan filtrerer du vekk maskintrafikk? Hvordan korrigerer du for feilkilder? Hvilke logganalyseverktøy benytter du og hva er erfaringene med dette?

