Robot.txt Generator Kullanımı:
Arama motoru BOT’ları web sitesine geldiğinde ilk olarak kök dizinde bir Robots.txt dosyası arar. Dosyanın içeriğini okur ve bu doğrultuda tarama yapar. Dosyayı oluşturmak için:
- BOT seçimi: BOT listesi tümüyle işaretli olarak açılır. Taramasını istemediğiniz BOT’un işaretini kaldırın. Tüm işaretler kaldırılırsa site hiçbir arama motoru tarafından taranmayacak.Tümü seçili ise tüm arama motorlarına izin verilmiş olacaktır.
- Sitemap.xml dosyası adresi:BOT’lara robots dosyasında sitemap dosyasının adresini arar. Eğer sitenizde sitemap.xml dosyası var ise tam adresi yazınız.
- Süre kısıtlama:Sitenizi ziyaret eden BOT’un tarama süresini kısıtlamak isterseniz süreyi seçebilirsiniz. Eğer seçim yapılmazsa süre kısıtlaması olmaz.
- Tarama engelleme:Taranmasını istemediğiniz dizin, sayfa ve uzantıları yazınız ve ekle tuşu ile listeye ekleyiniz.
- Robots.txt Dosyası Oluştur:Tuşa basıp dosyanızı oluşturunuz. Oluşan dosya sayfada görüntülenecektir.
- Robots.txt Dosyasını İndir: Tuşu tıklayıp oluşturduğunuz Robots.txt dosyasını bilgisayarınıza indirebilirsiniz. İndirdiğiniz dosyayı web sitenizin kök dizinine yükleyiniz.
Robots Txt Dosyası Detayları
Uzantısından da anlaşılacağı gibi txt uzantılı basit bir metin dosyadır. Dosyada ziyaret edilmesi istenmeyen sayfalar, uzantılar, dizinler, resim ve videolar belirtilir.
BOT genellikle bu izinleri dikkate alır. Ancak bazen ziyaret edilmesi istenmeyen sayfaları da ziyaret eder ve kayda alır.
Ziyaretleri engellemek veya izin vermek için komutlar kullanılır.
Dosyada kullanılan belli başlı komutlar:
- User-agent: Ziyaret etmesi istenen BOT’lar belirtilir. Sadece Googlebot ziyareti istenirse User-agent: GoogleBot şeklinde, tüm BOT’ların ziyaret etmesi istenirse User-agent: * şeklinde yazılır.
- Disallow: Ziyaret edilmesi istenmeyen sayfa, dizin ve uzantılar belirtilir. Örnek olarak Disallow:/sayfa.html şeklinde yazılır.
- Allow: Taranmasına izin verilmek istenen sayfalar için kullanılır. Disallow yapılmayan dosyalar Allow olarak kabul edildiğinden kullanımına pek gerek yoktur.
- #: Robotun görmediği bölgeler oluşturmak için kullanılır. Programcı için açıklama yazmak için kullanılır.
- Crawl-delay: BOT’un tarama süresini kısıtlar. Örneğin: Crawl-delay:3 yazılırsa tarama için 3 dakika süre verildiği anlaşılır. 3 dakikanın sonunda BOT sayfadan ayrılmak zorundadır.
- $: Uzantıları taramaya kapatmak için kullanılır. Örnek olarak Disallow: /*.htm$ yazılırsa site içerisinde .htm uzantılı tüm sayfalar taramaya kapatılmış olur.
- Disallow:/*?: URL içerisinde ”?” işareti olan tüm sayfalar ziyarete kapatılır. (? veya herhangi bir işaret kullanılabilir.)
Bunun dışında eğer varsa sitemap.xml dosya adresini roborts.txt içerisinde belirtmekte fayda var.
Örnek bir robots.txt dosyası:
#Tüm arama Motorlarının taramasına açık.
User-agent: *
Disallow: /gereksiz.html
Disallow: /eski-dosyalar/
Disallow: /denemeler/deneme1/
Disallow: /*.asp$ #asp uzantılı dosyalar taranmayacak.
Sitemap: https://www.meprosoft.com/sitemap.xml
Robots.txt dosyası oluşturmak için herhangi bir kelime işlem yazılımı veya daha pratik olarak Robot.txt Generator(oluşturucu) kullanılır.
Dosyada disfollow olarak belirtilse de bir sayfadan link verilmişse taranması ve endekslenmesi engellenemez.
Bunu engellemenin yolu diğer sayfalardan verilmiş linkleri nofollow yapmaktır.
CSS ve javascript dosyalarının engellenmesi tavsiye edilmez. Web sitesine eklenen Robot.txt dosyası Google Serarch Console sitesinden kontrol edilebilir.
Gizli içeriğin deşifre edilmemesi için robots.txt dosyasında belirtilmesi tavsiye edilmez. Bunun yerine bu dosyalara şifreli giriş yapılmalıdır.
Eğer bir web sitesinde Robot.txt dosyası yoksa BOT tüm sayfaları tarar. Birçok sayfası olan bir web sitesinde tüm sayfaların gereksiz yere ve plansız olarak taranması anlamına gelir.
En bilinen BOT'lar;
- GoogleBot:Google’un kullandığı en ünlü BOT’tur.
- Google Image: Resimleri tarar.
- Google Mobil: Mobil cihazlardaki sayfaları tarar.
- Baiduspider Çin’deki Baidus arama motorunun BOT’udur .
- Bingbot Bing’in BOT’udur.
- YandexBot: Yandex arama motorunun BOT’udur.
- Yahoo:
- Yahoo MM:
- Ask/Teoma:
- Nutch:
- Naver: