Her om dagen kom jeg over et nettsted som lenket til statistikken sin uten og samtidig gjøre noe for å forebygge refererspam, og gjett om de hadde mye spam!
De fleste nettsteder har installert programvare for å lese statistikk over besøkende, slik statistikk viser som oftes også statistikk over hvor de besøkende har kommet fra og fører så disse henvisningene opp i statistikken med en klikkbar lenke som peker tilbake til nettsiden som har sendt trafikken. Hvis ingenting gjøres for å unngå det, så vil slike statistikksider ofte bli indeksert av søkemotorer, på samme måte som hvilke som helst andre nettsider også blir, og det er dette som skaper problemet og åpner for misbruk og spam. Det er fordi søkemotorer ofte gir nettsider med mange innkommende eksterne lenker en høyere rangering. Det refererspammerne gjør er derfor å sende falsk trafikk til nettsider slik at de selv får en henvisning med en klikkbar lenke på statistikksidene til offerets nettsted, på denne måten så prøver de å forbedre sin egen rangering i søkemotorene.
ISE, en interessegruppe for synshemmede EDB-brukere, har på forsiden av nettstedet sitt lagt ut en lenke til statistikken sin, da jeg tok en kjapp kikk på den så fikk jeg bakoversveis. Av 882 refererende nettsteder så var mer enn 660 av oppføringene spam! Reelle oppføringer druknet derfor effektivt i mengden med spam. Nettsiden med rapporten over refererende nettsteder har en siderangering på 2 og er godt indeksert av Google, og er med andre ord et lite paradis for refererspammere. Jeg kan ikke annet enn å trekke på smilebåndet da jeg synes det virker som om spammerne krangler om de øverste plasseringene i statistikken, for søkemotorer ser ofte på lenker som kommer fysisk tidlig i et dokument som mer verdifulle enn lenker som kommer lenger ned, plassert etter hundrevis av andre lenker.
Det er ikke for å skrive stygt om ISE sitt nettsted at jeg bruker dem som eksempel, det er kun fordi deres ekstreme mengder med refererspam passer fint for å illustrere problemet og sette det på dagsordenen.
Den mest effektive måten å forebygge refererspam på er ved å fjerne gevinsten spammerne får, altså ved å ikke la søkemotorene indeksere statistikksidene og dermed heller ikke kunne følge de eksterne lenkene i statistikken og indeksere spammernes nettsider. Det gjøres enkelt og greit ved å publisere en robots.txt-fil på roten av nettstedet, den kan se slik ut:
User-agent: *
Disallow: /statistikk/
I eksempelet så er /statistikk/ navnet på mappen som inneholder nettsidene til statistikken, heter mappen din noe annet eller ligger plassert annerledels i mappestrukturen, så må du endre det tilsvarende. Filen skal lagres med filnavnet robots.txt og publiseres på roten av det aktuelle nettstedet. Søkemotorer vil da ved neste gjennomgang av nettstedet oppdage filen og ikke lenger indeksere noe av innholdet i statistikk-mappen. Ta gjerne en kikk på Webaksess sin robots.txt-fil, den finner du på webaksess.no/robots.txt.
Hvis man har muligheten til å endre på statistikkprogrammet som brukes, så kan det i tillegg være lurt å endre det slik at lenker til eksterne sider ikke blir vist som klikkbare lenker, men kun som ren tekst, for da er ikke søkemotorene i stand til å følge lenkene. Den aller beste måten å forebygge refererspam på er dog ved å passordbeskytte mappen som innholder statistikken.
Selv om man bruker både robots.txt, har gjort lenkene om til å ikke være klikkbare men kun i ren tekst, og har passordbeskyttet statistikksidene, så vil man nok fortsatt få litt refererspam, man da har det i hvert fall vært bortkastet for spammernes del.
Hvis noen fra ISE leser dette og ønsker hjelp til å sette opp en robots.txt-fil eller til å passordbeskytte statistikkmappen, så ta gjerne kontakt, så gjør jeg det kostnadsfritt (det gjør jeg fordi jeg brukte ISE som eksempel).

Bruk av robots.txt er vel og bra, men så lenge spammerne ikke sjekker robots.txt for et domene så har det ingen umiddelbar effekt. Det er selvfølgelig en bra løsning i det lange løp – akkurat som rel="nofollow" kan være det i kommentarer for blogger.
Jeg bruker BBClone som statistikkprogram på noen nettsteder jeg driver og hacket BBClone til å bruke svartelista for bloggen – fungerte bra. Det som fungerer vanvittig bra for BBClone, er å kunne registrere treff for agenter som har javascript (og bildevisning) aktivert – såkalt "Hardened Bbclone" counter i blogverktøyet Pivot. Men da telles vel ikke du, Asle, siden jeg antar du kjøre på nettet med Javascript avslått?
Et hjertesukk: Må de misbruke Google? Det er så vannvittig mye (referer og kommentar) spam som har et spesialtilpasset Google-søk som lenke – det gjør at alle legitime søk som havner hos meg forsvinner i statistikken. Argh!
Hva om man hoster siden sin hos en tilbyder som har statistikken din på sin server.
Altså tilbyder: http://www.tilbyder.no
Bruker: http://www.domene.com
Statistikk: http://www.tilbyder.no/statistikk/domene.php
For eksempel.
Er man da trygg?
Det enkleste og beste må være å passordbeskytte statistikken med .htaccess, og samtidig blokkere uønskede referrere. Fungerer i hvert fall bra for de domenene jeg administrerer.
Hans Fredrik Nordhaug: Men da telles vel ikke du, Asle, siden jeg antar du kjøre på nettet med Javascript avslått?
Jeg skrur av og på støtten for Javascript alt etter hvilke nettsteder jeg befinner meg på, men jeg surfer nok mer med Javascript avslått enn påslått.
Gjesteskribent: Hva om man hoster siden sin hos en tilbyder som har statistikken din på sin server.
Hvis jeg forstår spørsmålet ditt riktig så har ikke det noen betydning, man vil fortsatt kunne få refererspam i statistikken.