Jan.
20
2008

Bad bot bad bot, what ya gonna do

DalekForleden dag havde jeg besøg her på bloggen af et par bots. En bot er et automatiseret program, som scanner hele dit site med det ene eller andet formål. Det kan f.eks. bruges af spammere til at lede efter e-mail adresser, eller folk der er ude at lede efter godt, gratis indhold de kan stjæle.

Det er ikke fordi jeg har alt for meget imod den slags bots. Der er ingen e-mail adresser at finde på min blog, og hvis nogen "låner" indholdet skal jeg skam nok finde ud af det.

Problemet er at deres "besøg" bliver sporet i webstatistikkerne, ganske ligesom normale besøgende. Men modsat normale mennesker surfer bot'erne rundt på hele ens site, og besøger ofte flere af siderne flere gange, hvilket virkeligt kan gøre ens besøgstal ubrugelige. Prøv f.eks. at se her hvad der skete med antal besøgende de to dage jeg havde besøg:

Bad bot visits
Den 18.+19. er der således 3-4 gange så mange besøgende på min blog som normalt. Bortset fra at der jo så ikke er tale om mennesker, men ubrugelige bots.

Hvad gør man ved det?

Jeg satte mig som mål idag at få bygget mig en såkaldt Honeytrap, inspireret af Dave Naylor's artikel om emnet.

I bund og grund går det ud på at placere et (for mennesker) usynligt link til en speciel side på sit site. Da linket er usynligt (kan gøres via stylesheet, display: none) er det kun bots der vil finde og følge det, og man logger så IP adressen for hvert eneste besøg til denne side. Alle efterfølgende besøg fra IP adressen afviser man så ved at vise en side der fortæller at man er blevet nægtet adgang.

Udfordringen er at der findes både gode og dårlige bots. F.eks. vil man meget nødigt risikere at Google bliver fanget i ens honeytrap, da man således vil falde totalt ud af søgemaskinen. Hvilket vil være noget skidt, og tage lang tid at rette op på!

Heldigvis kan man fortælle Google's bot (også kaldet en spider) at den skal holde snitterne fra ens honeypot via robots.txt standarden. Som hovedregel overholder alle de gode bots denne standard, og alle de dårlige gør ikke.

Denne honeytrap er nu slået til på blog'en, men jeg er endnu ikke begyndt at forbyde adgang. Den skal lige køre i en uge eller to, indtil jeg er sikker på at Google har fundet ud af at den skal holde sig væk fra én bestemt side på sitet.

Jeg kommer med en opfølgning på hvor mange bots der er faldet i fælden om et par uger når den bliver slået til for fuld kraft. Får jeg finpudset Honeytrap'en kan det oven i købet være jeg udgiver den som en Umbraco plugin.

Share on LinkedIn Share on LinkedIn Bookmark on del.icio.us Save This Page
3 kommentarer
Det er altid sjovt at lege med bottraps.. :)
men som du skriver, så skal man være sikker på hvad man gør, da udelukkelse af google's botter ville være katastrofalt. Godt indlæg.
Lars Bachmann , den Tuesday, January 22, 2008 11:18:03 AM
.
Hej Søren!

Brug script tracking, så er den mere eller mindre klaret .)
Søren Andersen , den Saturday, March 29, 2008 12:38:11 PM
.
Hej Søren,
er det noget du kan komme med en nærmere forklaring på? Evt. med links?

Så vil jeg da helt sikkert tage et nærmere kig på det.
Søren Sprogø , den Saturday, March 29, 2008 3:54:51 PM
.
Comment
  • #required

Bemærk: Dit website link i kommentarer har NOFOLLOW. Det betyder det ikke har nogen SEO-mæssig værdi, så du kan lige så godt angive dit rigtige navn og et relevant link. Kommentarer, der bryder med dette, vil blive slettet øjeblikkeligt.
 
Om mig
Jeg er en pragmatisk midtjyde med mere end 15 års erfaring i IT-branchen. For tiden ernærer jeg mig som freelance eCommerce konsulent.
Se hvad jeg kan gøre for dig
Eller se min referenceliste
Nyhedsbrev
Få besked per mail, når der er nye posts her på bloggen
 
Tilmeld nyhedsbrev
 
Få det hele som RSS feed     RSS feed
Få også kommentarer, sitemap
Kategorier
 
Søg
Jeg anbefaler
Afdeling 18 Søren Sprogø E-commerce Guru work Grønnegade 3, st. tv. 8600 Silkeborg Danmark work 26727404 56.165787 9.537120 Søren Sprogø