Site içeriğinin indexlenmesini nasıl engellerim?

Soru-CevapKategori: Genel SorularSite içeriğinin indexlenmesini nasıl engellerim?
Ziyaretçi Staff sordu 4 yıl önce

Site içeriğinin özel kalmasını, hiç bir robot tarafından görülmemesini istiyorum bunu nasıl yaparım?

2 Cevap
duayen Staff cevapladı 4 yıl önce
Eğer site içeriğini tüm botlardan / robotlardan korumak ve index almasını istemiyorsanız anadizinde robots.txt adlı bir dosya oluşturup içine aşağıdaki kodları yazmanız yeterlidir.
 

User-agent: *
Disallow: /

 
 Bu şekilde sitenizin index almasının önüne geçmiş olursunuz. Böylece hiç bir arama motoru sonucunda siteniz gözükmeyecektir.
 
robots.txt dosyası ile arama motorları botlarına istediğiniz gibi hükmetmek mümkündür.
Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.
User-agent: *
Disallow:
Bütün robotlar, site üzerindeki aşağıdaki 4 klasörün içeriğini indekslememeli;
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
İsmi verilen robot, site üzerindeki ismi verilen klasörün içeriğini indekslememeli;
User-agent: BadBot # ‘BadBot’ kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/
Bütün robotlar, site üzerindeki aşağıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.
User-agent: *
Disallow: /directory/file.html
Kod içinde yorum yazılan örnekler;
# Yorumlar “#” işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun

duayen Staff cevapladı 4 yıl önce
Bütün robotların, bütün sayfalara erişiminin istenmediği durumlarda
Disallow: *  # yıldız kullanmak pek uygun olmayacağı için onun yerine ” / ” kullanın.

Geciktirme komutları
Çoğu büyük web arama botları geciktirme komutunu destekler. Örneğin aşağıdaki örnekte robottan ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır.
User-agent: *
Crawl-delay: 10

İzin Ver komutu
Bazı büyük botlar, Allow ( izin ver ) komutu kullanarak Disallow ( kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt’nin ilk satırı uygulamaya konulabilir. Fakat Google’ın uygulamasında önce tüm Allow ( izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. 
Örneğin;
Allow: /folder1/myfile.html
Disallow: /folder1/

Bu örnekte folder1/myfile.html hariç o klasördeki tüm dosyalar göz ardı edilir.

Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.
User-agent: *
Disallow: /downloads/
Request-rate: 1/5 
        # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845     # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi
Bu standardın ilk versiyonunda ” * ” ya da ” Disallow ” diye herhangi bir komut yoktu. Googlebot ve Slurp gibi modern arama botları ” * ” lı komutları tanısa da, MSNbot ve Teoma bu komutu farklı şekilde anlamaktadır.
Kaynak: Vikipedi

Cevabınız

11
+
3
=







Başa dön tuşu