A kérdés bővebben

Több olyan weboldalt is üzemeltetek, amely valamelyik népszerű CMS rendszeren alapul. Vegyesen van köztük Drupal, Joomla és Wordpress is, elenyésző mennyiségben más keretrendszerek.

Arra lettem figyelmes, hogy ezeket az oldalakat - többnyire külföldről - oyan módon próbálják elérni, amely hivatkozásokban az adott CMS könyvtárszerkezetére jellemző elérési útvonalak vannak, holott arra ügyeltem, hogy a weboldal forrásából a könyvtárszerkezet és a CMS típusa ne legyen kikövetkeztethető.

Mit felejthettem ki?

Válasz

Csak tippelni tudok, bízom benne, hogy ez lehet a kimaradt lépés.

Ha használ Google vagy más keresőmotor általi feltérképezést, akkor az adott weboldal gyökerében van egy fájl, amely a keresőrobotok számára tartalmaz információt arról, hogy mely útvonalakon engedélyezett és/vagy tiltott a művelet. Ez a robots.txt.

Ebben többnyire csak azok a könyvtárak szerepelnek, amelyek tiltottak, ám pont ezeket kellene elrejteni mások szeme elől, ugyanis a fájlt az esetek többségében más kliensekkel (pl. böngészővel) is meg lehet nyitni.

Célszerű úgy átalakítani a fájlt, hogy csak a megengedett útvonalak legyenek benne, az összes többit pedig tiltsuk le.

Ha van keresőoptimalizált oldaltérkép szolgáltatás (Pl. XMap), akkor annak az URL címét sem árt elhelyezni a fájlban.

Például, az alábbi könyvtárszerkezettel van egy alapértelmezett robots.txt fájlunk:

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /includes/
Disallow: /install/
Disallow: /lang/
Disallow: /lib/
Disallow: /log/
Disallow: /tmp/

Ez nem jó, mert pont azok a könyvtárak szerepelnek benne, amelyeket más elől is el akarunk rejteni.

Meg kell nézni, hogy milyen mappák vannak, amiket engedünk, továbbá mik azok a fájlok a CMS gyökerében, amihez engedjük a hozzáférést, és azokat engedjük, míg minden mást tiltsunk le:

User-agent: *
Allow: /images/
Allow: /video/
Allow: /audio/
Allow: /download/
Allow: /robots.txt
Allow: /index.php
Sitemap: http://www.oldalneve.hu/oldalterkep/map.php
Disallow: /*/
Disallow: /*.

Így csak azok az alkönyvtárak láthatóak, amelyek amúgy is kideríthetőek a weboldal forrásából, és amelyekben a keresőrobotoknak tényleg van mit találnia.

Remélem, segíthettem.