SEO

Robots.txt Nedir, Robots.txt Dosyası Nasıl Oluşturulur?

Robots.txt Nedir, Nasıl Oluşturulur?

Bilindiği üzere tüm arama motorları internet üzerindeki milyonlarca sayfayı düzenli olarak ziyaret eder ve buradaki içeriklerin ne olduğunu anlamaya çalışır. Bu ziyaretler sonucunda elde ettiği verilere göre de arama motorunda yapılan sorguların nasıl sonuçlanacağı belirlenmiş olur. Elbette internet üzerindeki bu milyonlarca sitenin aranması ve analiz edilmesi, bireyler tarafından manuel olarak değil, bu amaçla hazırlanmış ve  “robot” adı verilen arama motoru yazılımlarınca yapılır. İşte web sayfamıza gelerek sitemizi ziyaret eden ve içeriğini analiz etmeye çalışan (global tabiriyle “crawl eden”) bu robotlara yönelik hazırlanan bilgi ve yönlendirme dosyası robots.txt olarak isimlendirilir.

Web sitesi sahiplerinin oluşturduğu ve arama robotlarının kendi siteleri ile ilgili olarak nasıl bir indexleme yapacağı konusundaki yönergeleri kapsayan robots.txt dosyası, The Robots Exclusion Protocol olarak (Robot Engelleme Protokolü) adlandırılır ve şu şekilde çalışır. Bir web sayfası oluşturulduktan sonra arama motoru robotu bu sayfayı ziyaret etmek ister ve sitede yer alan robots.txt dosyasına bakar. Bu dosya http://www.siteadi.com/robots.txt şeklinde web sayfasının ana dizini altında (main directory) yer almaktadır.

Basit bir kullanıma örnek vermek gerekirse, herhangi bir arama motoru robotunu kabul etmek istemeyen bir sitenin hazırlayacağı robots.txt dosyası şu parametreleri içerecek şekilde olmalıdır.

User-agent: *
Disallow: /

Web sitesini ziyaret eden robot genellikle bu tip bir kodlama ile karşılaşır. Buradaki “User-agent” olarak tanımlanan değişkene, arama motoru robotunu tanımlar. Bu değişkenin değeri konumundaki “ * ” ifadesi de, tüm arama motoru robotlarını kapsamaktadır. İkinci satırdaki disallow ifadesi ise arama motoru robotunun, bu sitedeki hiçbir sayfayı ziyaret etmemesi gerektiğini, site tarafından buna izinli olmadığını aktarır.

Sitemize bir robots.txt dosyası hazırlarken arama motoru robotunun, hazırlamış olduğumuz bu dokümanı mutlaka dikkate alacağını düşünmememiz gerekir. Zira her ne kadar büyük şirketlerin sahibi olduğu arama motorları bu tip dökümanlara önem verse de, kötü amaçlı yazılımlar barındıran çeşitli robotlar ise buradaki bilgileri dikkate almayabilir. Örneğin web sayfamızda arama motorlarının görüntülemesini istemediğimiz bir bölüm varsa ve bunu robots.txt dosyamız içerisinde yazıyorsak, kötü niyetli arama motorunun buradaki içeriği merak ederek bilgi sızdırmaya çalışacağını da hesaba katmamız gerekir.  Bu Küçük bir çocuğa “bu odaya sakın girme” demekten farksız bir durumdur. Dolayısıyla robots.txt dosyamıza bazı parametreleri girerken bu tip durumları da göz önünde bulundurmakta fayda vardır. Bununla birlikte robots.txt dosyamızın herkese açık ve herkes tarafından görülebilecek bir dosya olduğunu da hatırlatmakta fayda var… Bu sebeple robots.txt dosyamız içerisinde herhangi bir gizli bilgi bulundurmak veya sitemizdeki belirli bölgeleri gizlemeye çalışmak çok doğru bir yaklaşım olmayacaktır.

robots.txt dosyasi

Kötü Robotları Engelleyebilir Miyim?

Literatürde kötü robotları engellemek mümkündür çünkü iyi veya kötü ayrımı yapmaksızın Tüm arama motoru robotlarının, robots.txt içerisindeki bilgilere riayet edeceği beklenir. Ancak böyle bir durumun gerçekleşmemesi ihtimaline karşı, eğer kötü niyetli arama motoru robotu tekil bir IP adresinden işlem yapıyorsa, ağımızdaki Firewall aracılığı ile bu robot engellemek pratikta de mümkün olabilir. Fakat karşımızdaki robot, çeşitli kopyalar kullanarak bir çok farklı ip adresinden Botnet adı verilen şekilde işlem yapıyorsa, o zaman bu durum daha zor bir hale gelir ve yapılması gereken firewall konfigürasyonu yapmaktır. Bu suretle kötü robotlar ile daha ciddi mücadele etmek mümkün olur. Ancak bunun da riski, kötü niyetli robotlarla mücadele ederken, aynı zamanda sitemize iyi robotların da gelmesini engelleme olasılığıdır.

Robots.txt Dosyası Nasıl Oluşturulur?

Robots.txt dosyamızı  notepad  gibi sıradan bir metin yazma aracında oluşturabiliriz. Robot.txt dosyanızı oluştururken öncelikli olarak User-Agent ifadesi ile hangi arama motoru veya motorları için bu kuralları yazdığımızı baştan tanımlamanız gerekir. * parametresi kullanarak Tüm arama motoru robotlarını tanımlamış oluruz. Spesifik bir arama botunun adını yazmamız durumunda ise sadece o bot için bir kural tanımlanmış olur. Örneğin:

User-agent: Google
Disallow: /download

 

bu kodlama ile Google arama botunun download isimli klasörü incelemesini ve dolayısı ile buradaki sayfaları indexlemesini engellemiş oluruz. Robots.txt dosyalarında Allow komutu yer almaz, çünkü biz herhangi bir dosya veya klasöre engel koymadıkça, arama motoru botları tüm dosya ve dizinleri tarayacaktır.

Dosya adı olarak mutlaka küçük harflerin kullanılmasının gerektiği “robots.txt” dokümanı oluşturulurken, mümkün olduğunca az kısıtlama yapmak faydalıdır çünkü sonuçlarının olumlu olması adına mümkün olabildiğince çok sayfanın indexlenmesi, arama motoru tarafından taranması, oldukça büyük önem taşır ve iyi bir başlangıç noktası kabul edilir.

Sitemde Robots.TXT Dosyası Olmazsa Ne Olur?

Elbette bu dosyayı sitemizde bulundurmak bir zaruret değildir. Zira robots.txt dosyası hazırlayarak sitenize koymasanız da, arama motorları muhakkak web Sayfanızı bir gün ziyaret edecektir. Bu dosyanın konulma amacı mümkün olabildiğince kısa sürede ve Tüm arama motoru botlarının sitemize gelmesini, derinlemesine araştırma yapmasını sağlamak, aynı zamanda arama motorlarının bazı istemediğimiz dosya, dizin ve içerikleri Lüzumsuz yere taramasını ve indexlemesini önlemektir.

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir