Eszköztár
164 Kezdőlap - Webszerkesztés - MySQL - Hogyan vegyük észre a robot látogatókat?
ujdomainek.hu

Robot látogatók

Hogyan vegyük észre őket?

Jegyzet

Ahogyan az a Napi látogatottság című oldal végén, az összegzésben megállapítottuk, egy igazán korrekt látogatottsági statisztika tartalmában kifejezetten érdemes megkülönböztetni a valós (tehát humán) látogatókat a keresőrobotok látogatásaitól. Ugyanis egy megfelelően keresőoptimalizált weblap esetén teljesen normális, hogy a keresőrobotok is időről időre rendszeresen felkeresik az oldalt, abban új tartalmak után kutatva. Ám ezeket a felkereséseket igazi látogatóknak tekinteni egyszerre önámítás, és a statisztikáinkat esetleg elemző potenciális hirdetőink megtévesztése. Éppen ezért módot kell találnunk arra, hogy a látogatóink közül ki tudjuk szűrni a robotok látogatásait. Mert sajnos az nem opció, hogy megkérjük őket, legyenek szívesek használni az alábbi űrlapot:

Az infojegyzet.hu oldalt is látogatják a robotok?

Szerencsére igen, hiszen ha nem tennék, akkor a lapjai nem tudnának bekerülni a keresőoldalak találati listájába. A látogatóink közül volt robot látogató.

Minden weboldalt látogatnak robotok?

Nem feltétlenül. Egy nagyon új weboldalt, melyre még egyetlen külső, vagyis más weboldalakról oda mutató hivatkozás sem irányul, nem igazán van esélyük megtalálniuk a robotoknak. Emiatt ilyenkor még nagyon sokat kell tenni azért, hogy a robotok észrevegyék az új weboldal létezését. Ebben segíthet pl. az ujdomanek.hu partnerprogramja.

De honnan tudjuk, mely látogatók robotok?

A részletes látogatottsági statisztika készítésének alapja, hogy minden egyes látogatónknak beírjuk az adatait egy adatbázis táblába. Ennek keretében eltároljuk 1.
A fenti módon eltárolt adatok között észrevehetünk olyan látogatókat, akik egy bizonyos robots.txt fájlra kíváncsiak. Ez a fájl nem a különféle linkek követése útján érhető el, hanem kifejezetten a keresőrobotok részére készülhet az egyes weboldalak részeként. Aki tehát ezt a - nem is feltétlenül létező - fájlt keresi, az nagy valószínűséggel robot látogató. Az infojegyzet.hu nem rendelkezik robots.txt fájllal, mégis keresik a robotok. A legutóbbi 5 ilyen próbálkozó látogatás adatai az alábbi táblázatban láthatóak.
Ezek szerint tehát a táblázatban található IP-címek által jelölt látogatók igen jó eséllyel robotok voltak.

Hogy néz ki egy létező robots.txt  fájl?

Ez nagyon könnyen kideríthető. Írjuk be egy tetszőleges domain neve után a fájl nevét, pl. így: google.com/robots.txt
De lehet másmilyen is. Sőt, néha egészen különleges dolgokra is bukkanhatunk, pl. itt: index.hu/robots.txt
Ez utóbbiban nem is maga a fájl érdekes, hanem az abban szereplő Sitemap fájl, vagyis a http://index.hu/sitemap/sitemapindex.xml. Ugyanis ha ebbe a fájlba nézünk bele, akkor további hasonló fájl-hivatkozásokat kapunk, amik konkrétan az index.hu hírportál összes korábbi cikkének hivatkozásait rejtik, időrendi csoportosítással, egészen 1999-ig visszamenőleg!
2.
Egy másik érdekes felfedezést jelenthet a keresett aloldalak tanulmányozása során a tipikusan WordPress által előállított webcímek jelenléte, különösen annak tükrében, ha weboldalunknak semmi köze nincs a WordPresshez. A keresőrobotok ugyanis nem tudják, hogy weboldalunk WordPress-szel készült-e, vagy sem, ezért csupán vélelmezik, és próbálkoznak. A próbálkozás pedig keresett aloldalak részeként megjelenő wp rövidítésben érhető tetten. Esetünkben pl. az alábbiak mintájára:
Mindezek alapján bátran feltételezhetjük, hogy ezen IP-címek mögott is robot látogatók találhatóak.

3.
Egy lehetséges harmadik megközelítés szerint pedig azt is megtehetjük, hogy a PHP gethostbyaddr() függvényével megpróbáljuk meghatározni a látogatónk IP-címéhez tartozó szerver nevét, és ha ebben visszaköszön a googlebot.com kifejezés, akkor egészen biztosak lehetünk benne, hogy kivel van dolgunk. Gyakrabban is, mint talán hinnénk.
Ráadásul természetesen nemcsak a googlebot.com név "játszik" ennél a lehetőségnél, hanem ugyanígy figyelemre érdemesek lehetnek az msnbot, az ahrefs.com, a yandex, vagy éppen a baidu nevek is, illetve számtalan más további keresőoldal és -robot neve is.

Mit kezdjünk ezekkel az információkkal?

A fenti módszerek bármelyikével felfedezett keresőrobot IP-címét mentsük el egy adatbázis táblába. Értelem­szerűen egy IP-t csak akkor célszerű elmenteni, ha az korábban már nem került be a táblába. Ezt követően pedig az összes látogatónkat rögzítő adatbázis táblából már csak azokkal kell foglalkoznunk, akiknek az IP-címe nincs benne a robotokat tartalmazó IP-cím listánkban. Ők lesznek a humán látogatóink.

Természetesen egyéb hasonló módszerek bevetésével a szűrőnk tovább finomítható, tökéletesíthető. Gyakorlatilag sokkal precízebb látogatói statisztikát készíthetünk weboldalunkhoz, mint amilyet a Google Analytics kínál.

A neten is lehet keresni adatbázist robotok IP-címeiről??

Persze, hogy lehet. Például így: Más kérdés, hogy hogyan lesz ezekből a találatokból SQL adatbázisunk. Meg az is, hogy egyáltalán kell-e nekünk ilyen sok - számunkra irreleváns - IP-cím, amely mennyiség miatt meglehetősen lelassulnak a vonatkozó adatbázis műveleteink.
Sokkal értelmesebb megközelítés a saját adatbázisunkat a saját látogatóinkból felépíteni, és nem pedig mindenféle perifériális, és esetleg már nem is létező keresőrobot megszűnt IP-címével dolgozni. Hiszen ne felejtsük el: a cél alapvetően nem az, hogy súlyos erőforrások mozgósítása árán a robot látogatóknak minél inkább a 100%-át észrevegyük, hanem csupán annyi, hogy a jellemző többség meglegyen. Ehhez sokszor már a 70-80%-os arány is teljesen elegendő lehet.
előző oldal random oldal következő oldal


2024-11-11 19:31:47 Admin Köszönöm, ha Ön lesz az első, aki megírja ide véleményét, észrevételét, kérdését ezzel a lappal kapcsolatban.




Új hozzászólás:
E-mail cím:


Erre a címre küldjük ki a hozzászólás jóvá- hagyásához szükséges linket. Az e-mail címet sehol nem tesszük közzé.

Név:


Ez a név fog megjelenni az Ön hozzászólásai mellett.

Mennyi tizenöt + hat?
Számjegyekkel írja be!



Ez a robotok beírása elleni védelem miatt szükséges ellenőrzés.


© infojegyzet.hu, 2024. október