File robots biasanya digunakan untuk membantu memblokir atau mengizinkan akses ke dalam sebuah situs. Untuk kamu yang baru belajar tentang dunia internet khususnya belajar membuat sebuah website, setidaknya mengerti apa itu file robots dan bagaimana cara kerja dan penggunaanya. Simak pembahasannya berikut ini.
Apa itu Robots.txt?
Sekilas tentang pengertian file Robots.txt, sebuah file teks yang secara de-facto dijadikan sebagai rujukan awal oleh program penelusur milik mesin pencari (search engine) atau layanan internet sejenis seperti Google, Bing, Yahoo dan sebagainya.
Program penelusur yang lazim disebut sebagai web robot, web crawler, atau web spider, akan memeriksa apakah sebuah situs memiliki file robots.txt dan kemudian memeriksa instruksi yang diberikan di dalamnya.
Perintah dalam file Robots.txt
Untuk mengizinkan semua program robot untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: * Disallow:
Sebaliknya, jika ingin melarang robot manapun untuk mengindeks situs, tulis perintah seperti berikut:
User-agent: * Disallow: /
Untuk melarang program robot mengakses halaman tertentu, tulis perintah berikut:
User-agent: * Disallow: /admin.htm Disallow: /private/ Disallow: /info/user.php
Untuk melarang sebuah robot tertentu tetapi mengijinkan robot-robot lainnya, tulis perintah berikut:
User-agent: NamaRobot Disallow: /
Untuk mengijinkan sebuah robot tertentu dan melarang robot-robot lainnya,
Contohnya seperti robot Google boleh mangeindeks, lainnya tidak boleh. tulis perintah berikut:
User-agent: Google Disallow: User-agent: * Disallow: /
Kamu juga dapat menuliskan lokasi file sitemap.xml situs yang kamu punya di baris terakhir, sebagai berikut:
User-agent: * Disallow: Sitemap: http://inwepo.co/feeds/posts/default?orderby=updated Sitemap: http://nwepo.co/feeds/posts/default?orderby=updated&max-results=999
Robot mesin pencari juga dapat memahami penggunaan wildcard untuk melarang beberapa lokasi baris perintah, contohnya melarang meng-index semua file pdf, maupun folder archives, berikut perintahnya:
User-agent: * Disallow: /*.pdf$ Disallow: /archives*/
Cara Membuat File Robots.txt
Untuk membuat sebuah file robots.txt caranya sangat mudah, kamu harus memiliki akses cpanel, file manager atau ftp untuk mengakses directory utama situs. Lalu create file bernama robots.txt kemudian masukan perintah yang dibutuhkan.
File robots.txt harus diletakkan di direktori utama. Contohnya: inwepo.co/robots.txt
Untuk pengguna Blogger, kamu juga dapat membuat file robots.txt, caranya sebagai berikut:
Masuk ke dashboard – Settings – Search Preferences – Crawlers and indexing, kemudian edit Custom Robots.txt
Cek di http://www.user-agents.org untuk mengetahui nama-nama robot tersebut, bila kalian ingin membuat larangan dari nama robot tersebut.
Hati-hati dalam membuat perintah di robots.txt, kesalahan perintah bisa berakibat situs kamu tidak ter-indeks oleh mesin pencari.