19
May

Tips Ampuh Membuat robots.txt

robots.txt adalah suatu file yang dibutuhkan situs Anda dalam membatasi gerak-gerik crawler dalam mengindeks situs kita. Pasti Anda sependapat dengan saya bahwa ada beberapa bagian dari situs Anda yang tidak disediakan untuk umum, contohnya saja halaman admin, halaman yang masih dalam tahap pembuatan, dan halaman lainnya yang Anda rasa tidak perlu diketahui oleh Search Engine.

Pastinya Anda sudah mengerti dengan penjelasan singkat saya diatas kan? sekarang mari kita membuat file robots.txt robots.txt memiliki satu aturan kode yang diikuti oleh sebagian besar Search Engine. Mengapa saya katakan sebagian besar? karena ternyata masih ada Search Engine yang belum menerapkan robots.txt dalam sistem crawlernya (biasanya Search Engine kecil). Namun Search Engine yang besar seperti Google, Yahoo, MSN, Altavista dan Search Engine lainnya sudah menerapkan robots.txt dalam pencarian yang dilakukan oleh crawlernya. Oh iya, robots.txt sesuai dengan namanya dapat dibuat menggunakan software text editor seperti notepad, vi ataupun software teks editor lainnya. Pada dasarnya, kode robots.txt terdiri dari dua baris yaitu :

User-Agent: [Nama Crawler]

Disallow: [Direktori atau nama file]

jika Anda tidak ingin google mengindeks file rahasia.html tang terdapat dalam folder ‘/rahasia’ maka kode yang harus Anda tambahkan pada robots.txt adalah :

User-Agent: googlebot

Disallow: /rahasia/rahasia.html

googlebot adalah nama crawler yang dikirimkan oleh Google. Gunakan wildcard ‘*’ jika Anda ingin membatasi file ini untuk semua crawler, seperti contoh dibawah ini:

User-Agent: *

Disallow: /rahasia/rahasia.html

kalau Anda ingin situs Anda terindeks tanpa terkecuali, Anda tinggal mengosongkan bagian disallow-nya saja, seperti:

User-Agent: *

Disallow:

Namun berhati-hatilah, karena kode yang ada dibawah ini meskipun HAMPIR SAMA dengan yang diatas tetapi memiliki arti yang Berbeda. Kode di bawah menyatakan bahwa crawler TIDAK BOLEH mengindeks apapun dari situs Anda

User-Agent: *

Disallow: /

Saya telah menyediakan daftar nama crawler dari Search Engine besar dunia disini. Jadi, jangan sampai salah yah? :) Oh iya, hampir saja lupa, simpan file robots.txt yang Anda buat pada tempat yang sama dengan index.html situs Anda. ada yang sudah bisa mengartikan file robots.txt dibawah ini? :)

User-agent: *

Disallow: /cgi-bin/

Disallow: /_borders/

Disallow: /_derived/

Disallow: /_fpclass/

Disallow: /_overlay/

Disallow: /_private/

Disallow: /_themes/

Disallow: /_vti_bin/

Disallow: /_vti_cnf/

Disallow: /_vti_log/

Disallow: /_vti_map/

Disallow: /_vti_pvt/

Disallow: /_vti_txt/



19
May

Daftar Nama Crawler pada Search Engine Besar

Untuk mendukung pembuatan robots.txt yang akan anda buat, saya berikan daftar nama crawler pada Search Engine besar yang menjadi acuan dunia (Walaupun tidak menutup kemungkinan anda mencari artikel ini hanya karena rasa ingin berkenalan dengan nama-nama crawler dari Search Engine besar :) ). daripada berlama-lama membuat tulisan ngalor-ngidul lebih baik langsung saja pada daftar dibawah ini

Google — Googlebot

Google Image — Googlebot-Image

Yahoo — Yahoo Slurp

MSN — MSNbot

Ask — Teoma

Excite — Architext spider

Inktomi.com — Slurp

Alexa — ia_archiver

Altavista — Scooter

Lycos — T-Rex

Cuil — Twiceler (Search Engine Baru buatan mantan petinggi Google)

Looksmart — MantraAgent