19
May

Tips Ampuh Membuat robots.txt

robots.txt adalah suatu file yang dibutuhkan situs Anda dalam membatasi gerak-gerik crawler dalam mengindeks situs kita. Pasti Anda sependapat dengan saya bahwa ada beberapa bagian dari situs Anda yang tidak disediakan untuk umum, contohnya saja halaman admin, halaman yang masih dalam tahap pembuatan, dan halaman lainnya yang Anda rasa tidak perlu diketahui oleh Search Engine.

Pastinya Anda sudah mengerti dengan penjelasan singkat saya diatas kan? sekarang mari kita membuat file robots.txt robots.txt memiliki satu aturan kode yang diikuti oleh sebagian besar Search Engine. Mengapa saya katakan sebagian besar? karena ternyata masih ada Search Engine yang belum menerapkan robots.txt dalam sistem crawlernya (biasanya Search Engine kecil). Namun Search Engine yang besar seperti Google, Yahoo, MSN, Altavista dan Search Engine lainnya sudah menerapkan robots.txt dalam pencarian yang dilakukan oleh crawlernya. Oh iya, robots.txt sesuai dengan namanya dapat dibuat menggunakan software text editor seperti notepad, vi ataupun software teks editor lainnya. Pada dasarnya, kode robots.txt terdiri dari dua baris yaitu :

User-Agent: [Nama Crawler]

Disallow: [Direktori atau nama file]

jika Anda tidak ingin google mengindeks file rahasia.html tang terdapat dalam folder ‘/rahasia’ maka kode yang harus Anda tambahkan pada robots.txt adalah :

User-Agent: googlebot

Disallow: /rahasia/rahasia.html

googlebot adalah nama crawler yang dikirimkan oleh Google. Gunakan wildcard ‘*’ jika Anda ingin membatasi file ini untuk semua crawler, seperti contoh dibawah ini:

User-Agent: *

Disallow: /rahasia/rahasia.html

kalau Anda ingin situs Anda terindeks tanpa terkecuali, Anda tinggal mengosongkan bagian disallow-nya saja, seperti:

User-Agent: *

Disallow:

Namun berhati-hatilah, karena kode yang ada dibawah ini meskipun HAMPIR SAMA dengan yang diatas tetapi memiliki arti yang Berbeda. Kode di bawah menyatakan bahwa crawler TIDAK BOLEH mengindeks apapun dari situs Anda

User-Agent: *

Disallow: /

Saya telah menyediakan daftar nama crawler dari Search Engine besar dunia disini. Jadi, jangan sampai salah yah? :) Oh iya, hampir saja lupa, simpan file robots.txt yang Anda buat pada tempat yang sama dengan index.html situs Anda. ada yang sudah bisa mengartikan file robots.txt dibawah ini? :)

User-agent: *

Disallow: /cgi-bin/

Disallow: /_borders/

Disallow: /_derived/

Disallow: /_fpclass/

Disallow: /_overlay/

Disallow: /_private/

Disallow: /_themes/

Disallow: /_vti_bin/

Disallow: /_vti_cnf/

Disallow: /_vti_log/

Disallow: /_vti_map/

Disallow: /_vti_pvt/

Disallow: /_vti_txt/