Robots.Txt Dosyası Nasıl Oluşturulur?

Faruk

Harbi Üye
Forum Üyesi
Katılım
19 Mart 2019
Mesajlar
8,725
Tepkime puanı
25
Arama motorlarına ait botlar herhangi bir web sitesini tararken, ilk önce robots.txt dosyasını ararlar. Bu nedenle web sitesi sahipleri “robots txt nedir” sorusunun cevabını ve dosya içerisine yazılması gereken komut kalıplarını net şekilde bilmelidir. Aksi halde arama motoru botları web sitesini tam olarak tarayamayacağından, doğru şekilde indeksleme yapamaz.

Robots.txt dosyası, web sunucularına eklenen ve site kök dizininde yer alan basit bir metin dosyasıdır. Temel amacı arama motorlarına ait tarayıcıların sitenizde erişmesini istediğiniz ve istemediğiniz yerleri göstermesidir. Kısaca, robots dosyası arama motorlarına ait robotlar ile bir çeşit iletişim kurma aracı olarak da tanımlanabilir. Önemli olan bu metnin içerisine yazılacak komutların amaca uygun şekilde seçilmesidir.

Robots.txt dosyası oluşturulurken herhangi bir yazılım ya da programlama bilgisine sahip olmak gerekmez. Ancak SEO açısından oldukça önemli olduğu için, muhakkak bilinçli şekilde oluşturulmalı ve uygulanmalıdır. Doğru komutlar yazıldığında harikalar yaratan robots.txt dosyası, hatalı kullanım durumlarında kabusa dönüşebilir. Robot Engelleme Protokolü’nün bir parçası sayılan robots.txt dosyası, web sitesinin sınırlarını denetleme aracı olarak düşünülmelidir.

Arama motoru optimizasyonu (SEO) çalışmalarından maksimum fayda alınabilmesi için robot.txt dosyasının sağladığı avantajlardan mutlaka yararlanılması gerekir. Robots.txt dosyası SEO açısından tekrarlanan içerikleri engeller, site haritasında yer alan yerleri net olarak belirler, pek çok dosya ekinin sıralamasını engeller ve yine bazı sub domain veya subfolder bölümleri gibi alanlarda gizleme yapabilme konusunda önemli faydalar sağlar.

Robot.txt Komutlarının Açılımları Nelerdir?
Web sitelerinin ayrılmaz parçalarından biri olan robot.txt dosyaları oluşturulurken birtakım standartlara uyulması gerekir. Bunlar:
  1. Robot.txt dosyası mutlaka site kök dizinine eklenmelidir,
  2. Robot.txt dosyası, web sitesinin URL formatı ile aynı olmak zorundadır,
  3. Robot.txt dosyası UTF-8 türü kodlamaya uygun şekilde hazırlanmalıdır.


Bu bilgiler ışığında örneğin, robots.txt dosyası URL’si için “ seçimi yaparsanız uygun olmaz. Dosyanın herhangi bir alt klasör içerisinde yer alması ya da başka bir sayfaya yönlendirilmesi istenmeyen durumlar arasındadır. Bu tür bir seçim yerine "https://www.harbimekan.com/robots.txt” şeklinde bir uzantı kullanmak doğru bir kullanım şekli olacaktır.

Diğer yandan robots.txt dosyası için kullanılan alan adı uzantısı seçimleri, web sitesine ve web sayfalarına erişim için kullanılan uzantı ile aynı adı taşımak zorundadır. Şayet protokol olarak “https” kullanılıyorsa, robots.txt dosyasının alan adı adresi de bu protokole göre düzenlenmelidir. Şu şekilde örnek verilirse daha net açıklanabilir:
  • Web sitesine ait URL: “https://www.harbimekan.com”
    Robot.txt dosyasına ait URL: “https://www.harbimekan.com/robots.txt”
Robots.txt Oluştururken Kullanılan Komut Bileşenleri
Robot txt dosya oluşturmak
için gerekli bileşenler 3 ana grupta toplanabilir:

1. Grup içi komut çeşitleri
  • a. Dizin engelleme / izin verme komutları
  • b. Tarama gecikmesi belirtme komutları
  • c. Arama motoru robotu engelleme / izin verme komutları
  • d. Sayfa engelleme / izin verme komutları
2. Grup dışı komut çeşitleri
  • a. Site haritasının oluşturulması
3. Notlar ve yorumlar
  • a. Dosya içine eklenen komutlar için not ve yorum oluşturma

Grup içi komutlar, kesin ve net ifadelerden oluşur. Bu komutlar yazılırken asla yazım hatası yapılmamalı, var olmayan sayfa ya da dizinler komut içerisinde yer almamalıdır. Yine komutlar oluşturulurken büyük-küçük harf ayrımı yapılmaz ancak komutta hedef gösterilen dizin ya da URL adlarında küçük-büyük harf ayrımı ile özel karakterler dikkate alınır.

Grup içi komutlarında kullanılan unsurlar ise kısaca şu şekilde açıklanabilir:
  • a. Dizin engelleme / izin verme komutları: Web sitesi içerisinde hedef gösterilen bir dizinin taranması istenmiyorsa, komut satırı buna göre oluşturulur.
  • b. Tarama gecikmesi belirtme komutları: Web sitesinin belirtilen süre içerisinde en fazla oranda taranmasını, bu süre dışında ise kalan sayfaların hiç taranmamasını sağlayan komut türüdür.
  • c. Arama motoru robotu engelleme / izin verme komutları: Web sitesinin hangi arama motoru tarafından taranacağını bildiren komutlardır. İzin verilmeyen arama motoru botları varsa, siteyi tarayamazlar.
  • d. Sayfa engelleme / izin verme komutları: Web sitesine ait belirli sayfa veya sayfaların taranması istenmiyorsa, komut satırı sayfa engellemeye yönelik oluşturulur.

Grup dışı komut çeşitleri, sitemap.xml dosyasının yerini gösteren, sadece dosya URL’sinin yazımının yeterli olduğu basit bir kullanım sunar. Web sitesinin taranabilmesi ve arama motoru botlarına bilgilerin aktarılabilmesi için sitemap.xml dosyası mutlaka bulundurulmalıdır. Çünkü arama motorları site taraması yapmadan önce, ilk etapta robot.txt dosyasını ararlar. Dosya içerisinde sitemap.xml dosyasının bulunmaması, ilgili site için ciddi bir dezavantajdır.

Notlar ve yorumlar bölümünde, robot.txt dosyası içerisine tasarımcı, web sitesinin yöneticisine ait bilgiler ile kullanıcıya iletilmek istenen bilgiler gibi arama motorlarının dikkate almadığı bilgiler iliştirilebilir. Fakat bu notlar yazılırken mutlaka ” # ” işaretinin baş tarafa yazılması gerekir. Bu işareti gören botlar, ilgili bilgiyi dikkate almazlar.

Robots.txt Dosyası Nasıl Oluşturulur?
Sektörde kullanılan robots.txt dosyası oluşturucu hazır programlar da kullanılacağı gibi, web sitesi sahibi kendisi manuel şekilde robots.txt dosyası oluşturarak da kök dizinine ekleyebilir. Ancak robot.txt dosyası konusunda gerek bilgi, gerekse pratik eksiğiniz varsa, İnternette bulunan robots.txt generator adlı hazır menüler de işe yarar kullanım sunar.

Detayları anlatılan bilgiler ışığında örnek robot.txt dosyası oluşturmak istenirse, ilk önce yeni bir metin belgesi açmalı ve belge ismi robot.txt dosyası olmalıdır. Robot.txt dosyası için yeni açılan belge içinde temelde iki farklı değişken kullanılmalı ve istenilen komutlara göre girilmesi gerekenler oluşturulmalıdır. Bu dosyadaki değişkenler şunlardır:

  • User-agent: Arama botunun adı yazılır.
  • Disallow: Arama botlarının izin durumlarının eklendiği komutlar yer alır.
1. Örnek
  • User-agent: *
  • Allow: /
Yukarıdaki şekilde görüldüğü gibi, arama botlarının adları yerine ” * ” işaretinin kullanılması, sitenin tüm arama motoru botları tarafından indekslenmesine izin verilmesi anlamını taşır.

2. Örnek
  • User-agent: *
  • Disallow: /
Birinci satırda tüm arama motoru botlarına indeksleme için izin verilse de, ikinci satırda “disallow / ” komutunun verilmesi robot txt folder dissallow anlamına gelir ve web sitesindeki tüm dosyalar böylece indekslenmez. Buna karşın şu şekilde komutlar verilirse, arama motoru botları belirtilen iki dosyayı da indekslemez.
  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /images/

3. Örnek
  • User-agent: DeepCrawl
  • Disallow: /private/
DeepCrawl, belirli aralıklar ile web sitesini ziyaret eden ve bilgi toplayan Google botunun adıdır. Alt satırda “private” dosyasının belirtilmesi, bu bota ilgili dosyanın indekslenmemesi komutunu verir.

4. Örnek:
  • User-agent: *
  • Disallow: /directory/dosya.html
Belirtilen komut bileşeninde, arama motoru botları siteyi indekslerken; directory dizini içerisinde yer alan dosya.html dosyasını tarayamayacaktır.

5. Örnek:
  • User-agent: *
  • Allow: /dosya1/site.html
  • Disallow: /dosya1/
Bu komut dizini ile arama motoru botları dosya dizini içerisinde yer alan site.html dosyası hariç diğer dosyaları tarayamayacaktır. Arama botları, robot txt nofollow ve noindex komutu verilen sayfa için hiçbir şekilde indeksleme yapmazlar. Böylece indekslenmesi istenilmeyen tekil sayfalar varsa, metatag bölümüne şu şekilde komut yazılabilir.


<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”
İstediğiniz şekilde komutlar içeren robot.txt dosyası oluşturduktan sonra, web sitenizin root (kök) dizinine robot.txt dosyasını yüklemeniz gereklidir. Şayet WordPress tabanlı bir web sitesi sahibi iseniz ve robot txt wordpress komutları oluşturma konusunda pratiğiniz yoksa, hazır menüler sunan ” robot.txt rewrite” eklentisi de oldukça yardımcı olacaktır.
 
İçerik sağlayıcı "paylaşım" sitelerinden biri olan Harbimekan.Com Forum, Eğlence ve Güncel Paylaşım Platformu Adresimizde 5651 Sayılı Kanun’un 8. Maddesine ve T.C.K’nın 125. Maddesine göre TÜM ÜYELERİMİZ yaptıkları paylaşımlardan sorumludur. Harbimekan.Com sitesindeki konular yada mesajlar hakkında yapılacak tüm hukuksal Şikayetler için info@harbimekan.com yada iletişim sayfası üzerinden iletişime geçilmesi halinde ilgili kanunlar ve yönetmelikler çerçevesinde en geç 3 Gün (72 Saat) içerisinde Forum yönetimi olarak tarafımızdan gereken işlemler yapılacaktır.

Bu Site, Bilim ve Sağlık Haber Ajansı Üyesidir.

Yığıntı - 8kez - kaynak mağazam - Uğur Ağdaş