Jegyzet
Ahogyan az a
Napi látogatottság
című oldal végén, az összegzésben megállapítottuk, egy igazán korrekt látogatottsági statisztika
tartalmában kifejezetten érdemes megkülönböztetni a valós (tehát humán) látogatókat a keresőrobotok
látogatásaitól. Ugyanis egy megfelelően keresőoptimalizált weblap esetén teljesen normális, hogy
a keresőrobotok is időről időre rendszeresen felkeresik az oldalt, abban új tartalmak után kutatva.
Ám ezeket a felkereséseket igazi látogatóknak tekinteni egyszerre önámítás, és a statisztikáinkat
esetleg elemző potenciális hirdetőink megtévesztése. Éppen ezért módot kell találnunk arra, hogy
a látogatóink közül ki tudjuk szűrni a robotok látogatásait. Mert sajnos az nem opció, hogy megkérjük
őket, legyenek szívesek használni az alábbi űrlapot:
Az infojegyzet.hu oldalt is látogatják a robotok?
Szerencsére igen, hiszen ha nem tennék, akkor a lapjai nem tudnának bekerülni a keresőoldalak
találati listájába. A látogatóink közül
- az elmúlt 1 órában ,
- az elmúlt 24 órában pedig
volt robot látogató.
Minden weboldalt látogatnak robotok?
Nem feltétlenül. Egy nagyon új weboldalt, melyre még egyetlen külső, vagyis más weboldalakról oda mutató hivatkozás
sem irányul, nem igazán van esélyük megtalálniuk a robotoknak. Emiatt ilyenkor még nagyon sokat kell tenni azért,
hogy a robotok észrevegyék az új weboldal létezését. Ebben segíthet pl. az
ujdomanek.hu partnerprogramja.
De honnan tudjuk, mely látogatók robotok?
A részletes látogatottsági statisztika készítésének alapja, hogy minden egyes látogatónknak
beírjuk az adatait egy adatbázis táblába. Ennek keretében eltároljuk
- a látogatás időpontját,
- a meglátogatott aloldal webcímét,
- és a látogató IP-címét.
1.
A fenti módon eltárolt adatok között észrevehetünk olyan látogatókat, akik egy bizonyos
robots.txt
fájlra kíváncsiak. Ez a fájl nem a különféle linkek követése útján érhető el, hanem kifejezetten
a keresőrobotok részére készülhet az egyes weboldalak részeként. Aki tehát ezt a - nem is feltétlenül
létező - fájlt keresi, az nagy valószínűséggel robot látogató. Az infojegyzet.hu nem rendelkezik
robots.txt fájllal, mégis keresik a robotok. A legutóbbi 5 ilyen próbálkozó látogatás adatai
az alábbi táblázatban láthatóak.
Ezek szerint tehát a táblázatban található IP-címek által jelölt látogatók igen jó eséllyel robotok voltak.
Hogy néz ki egy létező robots.txt fájl?
Ez nagyon könnyen kideríthető. Írjuk be egy tetszőleges domain neve után a fájl nevét, pl. így:
google.com/robots.txt
De lehet másmilyen is. Sőt, néha egészen különleges dolgokra is bukkanhatunk, pl. itt:
index.hu/robots.txt
Ez utóbbiban nem is maga a fájl érdekes, hanem az abban szereplő
Sitemap fájl, vagyis a
http://index.hu/sitemap/sitemapindex.xml.
Ugyanis ha ebbe a fájlba nézünk bele, akkor további hasonló fájl-hivatkozásokat kapunk, amik konkrétan
az
index.hu hírportál összes korábbi cikkének
hivatkozásait rejtik, időrendi csoportosítással, egészen 1999-ig visszamenőleg!
2.
Egy másik érdekes felfedezést jelenthet a keresett aloldalak tanulmányozása során a tipikusan
WordPress által előállított
webcímek jelenléte, különösen annak tükrében, ha weboldalunknak semmi köze nincs a WordPresshez.
A keresőrobotok ugyanis nem tudják, hogy weboldalunk WordPress-szel készült-e, vagy sem, ezért
csupán vélelmezik, és próbálkoznak. A próbálkozás pedig keresett aloldalak részeként megjelenő
wp rövidítésben érhető tetten. Esetünkben pl. az alábbiak mintájára:
Mindezek alapján bátran feltételezhetjük, hogy ezen IP-címek mögott is robot látogatók találhatóak.
3.
Egy lehetséges harmadik megközelítés szerint pedig azt is megtehetjük, hogy a PHP
gethostbyaddr()
függvényével megpróbáljuk meghatározni a látogatónk IP-címéhez tartozó szerver nevét, és ha ebben
visszaköszön a
googlebot.com kifejezés, akkor egészen biztosak lehetünk benne, hogy kivel
van dolgunk. Gyakrabban is, mint talán hinnénk.
Ráadásul természetesen nemcsak a
googlebot.com név "játszik" ennél a lehetőségnél, hanem
ugyanígy figyelemre érdemesek lehetnek az
msnbot, az
ahrefs.com, a
yandex,
vagy éppen a
baidu nevek is, illetve számtalan más további keresőoldal és -robot neve is.
Mit kezdjünk ezekkel az információkkal?
A fenti módszerek bármelyikével felfedezett keresőrobot IP-címét mentsük el egy adatbázis táblába.
Értelemszerűen egy IP-t csak akkor célszerű elmenteni, ha az korábban már nem került be a táblába.
Ezt követően pedig az összes látogatónkat rögzítő adatbázis táblából már csak azokkal kell foglalkoznunk,
akiknek az IP-címe nincs benne a robotokat tartalmazó IP-cím listánkban. Ők lesznek a humán látogatóink.
Természetesen egyéb hasonló módszerek bevetésével a szűrőnk tovább finomítható, tökéletesíthető.
Gyakorlatilag sokkal precízebb látogatói statisztikát készíthetünk weboldalunkhoz, mint amilyet a
Google Analytics kínál.
A neten is lehet keresni adatbázist robotok IP-címeiről??
Persze, hogy lehet. Például így:
Más kérdés, hogy hogyan lesz ezekből a találatokból SQL adatbázisunk. Meg az is, hogy egyáltalán kell-e
nekünk ilyen sok - számunkra irreleváns - IP-cím, amely mennyiség miatt meglehetősen lelassulnak a vonatkozó
adatbázis műveleteink.
Sokkal értelmesebb megközelítés a saját adatbázisunkat a saját látogatóinkból felépíteni, és nem pedig
mindenféle perifériális, és esetleg már nem is létező keresőrobot megszűnt IP-címével dolgozni. Hiszen
ne felejtsük el: a cél alapvetően nem az, hogy súlyos erőforrások mozgósítása árán a robot látogatóknak
minél inkább a 100%-át észrevegyük, hanem csupán annyi, hogy a jellemző többség meglegyen. Ehhez sokszor
már a 70-80%-os arány is teljesen elegendő lehet.