Robots.txt Nedir? Ne ie yarar?
->
Arama motorlar覺n覺n indeksleme robotlar覺 bir web sitesine ulat覺klar覺nda ilk olarak k繹k dizinde bulunan robots.txt dosyas覺n覺 ararlar. Bu dosya robotlara hangi sayfalar覺n indekslenip hangilerinin indekslenmeyeceini anlatmak i癟in yerletirilir. Robotlar sadece k繹k dizindeki robots.txt dosyas覺na bakacaklar覺 i癟in alt dizinlere bu dosyay覺 yerletirmek anlams覺zd覺r. Eer alt dizinlerden birisine ait url (veya urllerin) indekslenmesini istemiyorsan覺z bunlar da k繹k dizindeki robots.txt dosyas覺nda bildirmeniz gerekiyor. Ya da alternatif olarak indekslenmesini istemediiniz sayfalarda Meta Tag kullanabilirsiniz. ou 羹cretsiz blog servisi k繹k dizine eriime izin vermediinden Meta Taglardan yararlanmak gerekecetir.
rnek bir robots.txt adresi u ekilde olmal覺d覺r;
http://www.hell-world.org/robots.txt
Aa覺daki 繹rneklerdeki robots.txt dosyalar覺 ise, bulunduklar覺 hatal覺 pozisyon nedeni ile, robotlar taraf覺ndan dikkate al覺nmayacaklard覺r;
http://www.adsense.hell-world.org/robots.txt
robots.txt dosyas覺 sadece belirli bir ekilde d羹zenlenmi metin i癟eriine sahip olmal覺d覺r ve asla HTML kodlar覺 i癟ermemelidir. Aa覺daki 繹rnekleri inceleyelim;
T羹m robotlar覺n blogunuzun tamam覺n覺 indekslemesini engellemek i癟in;
User-agent: *
Disallow: /
Blogunuzun tamam覺n覺n robotlar覺n birisi taraf覺ndan indekslenmesini engellemek i癟in;
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:
T羹m robotlar覺n blogunuzun tamam覺n覺 indekslemesi i癟in;
User-agent: *
Disallow:
Not: Bo bir robots.txt dosyas覺 da ayn覺 mesaj覺 verecektir.
Bir dizinin t羹m robotlar taraf覺ndan indekslenmesini engellemek i癟in;
User-agent: *
Disallow: /dizin-adi/
Bir sayfan覺n t羹m robotlar taraf覺ndan indekslenmesini engellemek i癟in;
User-agent: *
Disallow: /dizin-adi/ozel-sayfa.html
Robots.txt dosyas覺nda /dizin-adi/* veya /dizin-adi/*.html gibi ifadeler kullanamazs覺n覺z. Hari癟 tutulmas覺n覺 istediiniz sayfalar覺 ve dizinleri teker teker belirtmek zorundas覺n覺z. Tabii ki hari癟 tuttuunuz bir dizinin i癟indeki dosyalar覺 ayr覺ca belirtmenize gerek yok
rnek bir kod aa覺daki ekilde olabilir;
# www.ornek.com i癟in robots.txt dosyas覺
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/private/
Disallow: /private.html
Kaynaklar;

