Web sitemizde, arama motorları robotlarının erişmesini ve dizine eklenmesini istemediğimiz yerleri işaretleyebileceğimiz metin dosyasıdır. Bu işlem robotları engelleme standardı olarak adlandırılabilir. Aynı zamanda, robot engelleme protokolü de diyebiliriz. Bu dosya sitemizin ana dizinine yüklenmelidir. Yani bertanuzun.com/robots.txt adresinden erişilebilir olmalıdır.
Robots.txt her sitede mutlaka yer alması gerekmektedir.Dosya küçük bir komut setine sahiptir. Bu komutlar arama motoru botları için klavuz niteliğindedir.
Avantajları: Sitemizin admin girişi, özel dosyaları paylaştığımız sayfalar gibi yerleri rahatlıkla arama motoru dizininden çıkartabiliriz.
Dezavantajları: Yanlış kullanıldığı taktirde sitemizin önemli içeriklerini arama motorlarına kapatabiliriz.
Robots.txt 24 yaşında!
Robots.txt Şubat 1994 doğumlu
Robots.txt Nasıl Oluşturulur?
Robots.txt oluşturma gayet basittir. En azından bizim için öyledir. Ancak destek verdiğimiz sitelerde bir çok yazılımcının bu konuda hata yaptıklarını gördük. Standart bir robots.txt de 4 terim bulunur.
User-agent: Kuralın hangi arama motoru için geçerli olacağını belirtir
Disallow: Engellenmesini istediğiniz yerleri gösterir.
Allow: Engellenenen dizinlerde, engelini açmak istediğiniz özel sayfaları gösterir.
Sitemap: Site adresimizi belirtir.
Örnekler:
User-agent: *
Disallow:
( Tüm robotlara, tüm siteyi tarayabileceğini söyler)
–
User-agent: *
Disallow: /
( Tüm robotlara, tüm sityeyi taramaması gerektiğini söyler )
–
User-agent: *
Disallow: /ozel/
( Bütün robotlar, özel isimli dizini indekslemesin )
–
User-agent: BertanBot
Disallow: /ozel/
( ReqBot, özel isimli dizini indekslemesin )