Robot engelleme standartı olarak da bilinenen robots.txt, web tarayıcı yazılımlarınca sitenizde kamu ile paylaşılmasını istemediğiniz sayfalara erişimin engellenmesini sağlar. Kısacası dosya hangi URL’nin alınıp alınmamasını söyleyen bir dizi komut içermektedir.

Bu komutlar Allow ve Disallow komutlarıdır ve eğer siz robots.txt dosyanızda herhangi bir URL’yi Disallow olarak belirlerseniz hiçbir arama motorunda bu URL arama sonuçlarında çıkmayacaktır. Bu yüzden web yazılımcılarınca dosyanın kullanılma nedeni arama motorlarında görüntülenmesini istemediğiniz içeriklerdir. Ancak robots.txt kullanırken dikkat etmeniz gereken bir husus vardır ki o da siteniz içerisindeki tüm dizinin bütün arama motorlarında yayınlanmasını ve erişilebilir olmasını istiyorsanız boş dahi olsa robots.txt dosyası oluşturmamanız gerektiğidir.
Arama motorlarının robotları yani botlar tamamen otomatik çalışırlar ve ilk önce sayfanızda robots.txt olup olmadığına kontrol ederler. Robots.txt onları yönlendirerek nereye girip nereye giremeyeceğini söyler. Botlarda kodlara göre indexleyeceği alanları belirler. Botların ilk durağı olması sebebi ile dosyayı kök dizine yerleştirmeniz gerekir. İndexlenmesini istemediğiniz sayfa alt dizinlerde dahi olsa robots.txt her zaman kök dizinde yer almalıdır.
Tüm bunların yanı sıra robot.txt, erişimini istemediğiniz ve kişisel bilgilerinizin yer aldığı admin bilgilerini korumak amacı ile kullanılmamalıdır. Yani bu dosya ile tüm kişisel bilgilerinizin koruma altına alınma garantisi söz konusu değildir. Her ne kadar büyük ve saygın tarayıcılara ait botlar bu yönergelere saygı duysa da dosya içerisindeki komutlar uyulması zorunlu kurallar olmayıp yalnızca rehber niteliği taşımaktadır. Bu yüzden siteye giren bir botun istemediğiniz halde bir içeriği indexleme oranını göz ardı etmemenizi tavsiye ederim. Bu tarz veriler için ayrıca düzenlenen şifreli koruma dosyaları da mevcuttur. Bunları araştırarak uygun bir tane edinebilirsiniz.
Şimdi robots.txt dosyalarını nasıl oluşturabilirsiniz konusuna gelirsek öncelikle bu dosya aracılığı ile sitenizin tamamının veya belirli bir içeriğinin indexlenmesinde tüm arama motor robotlarını engelleyebileceğiniz gibi herhangi birini de tek başına engelleyebileceğinizi belirtmek isterim. Bu ayrımı tamamı ile dosya içerisinde yazacağınız dizilimler ile yapabilirsiniz. Web tarayıcılarının dosya içerisinde yazdığınız komutları yanlış yorumlamaması adına öncelikle doğru bir söz dizilimini bilmeniz gerekmektedir.
Bir robotx.txt dosyası oluşturabilmek için masaüstünüzde sağ klik tuşu ile yeni bir Metin Dosyası oluşturarak metin ismini robot olarak belirlemelisiniz. Dosya içerisine html kodu içermeyecektir, yalnızca metin içerik girişi yapılacaktır. Bu metinleri tanımlamak gerekirse;
User-agent: Engellemek istediğiniz web tarayıcısını belirlerken kullanacağınız komuttur. * işareti ekleyerek tüm botları seçmiş olursunız.
Disallow: Belirleyeceğiniz URL’ye erişilmemesi gerektiğini söyleyen komuttur.
Alow: Erişilmemesini istediğiniz bir URL’nin herhangi bir alt dizininin yayınlanabilmesi için bu komutu kullanabilirsiniz.
Yönergelerin tamamında büyük küçük harf duyarlılığı vardır. İstemiş olduğunuz yönlendirmeleri yazdıktan sonra dosyayı kaydederek kök dizine yerleştirmelisiniz. Bunu yapabilmek için de kök dizine ulaşım yetkiniz olması gerekmektedir.








