Web scraping dalam terjemahan bahasa indonesia-nya adalah pengikisan web jadi ketika kamu melakukan web scraping maka kamu bisa mengekstrak informasi sebuah situs. Katakanlah kamu ingin melakukan web scraping pada situs instagram, tentu saja kamu bisa mengekstrak informasi pada akun instagram seseorang untuk mendapatkan data data yang ada seperti jumlah follower, jumlah pengikut, jumlah postingan dan masih banyak lagi yang ada pada data instagram ketika kamu melakukan web scraping. Kegunaan dari web scraping adalah yah tadi jika kamu ingin mengetahui informasi atau beberapa data sebuah situs kamu bisa melakukan web scraping. Dalam mengenai tutorial kali ini kita akan belajar bagaimana mengekstrak informasi sebuah situs menggunakan bahasa pemrograman python dan modul requests.
Requests Python
Penjelasan sekilas mengenai modul ini. Modul requests ini kita bisa melakukan permintaan HTTP pada sebuah website misalkan dalam studi kasus sederhana nya adalah kamu ingin melakukan request ke server nanti jika server merespon permintaan kamu sebagai client yang nanti data nya akan di berikan ke client dan akan di olah berupa file JSON maka kamu bisa menggunakan modul ini.
Nah, jadi hal yang harus kita persiapkan adalah kamu harus install dulu python nya jika kamu menggunakan sistem operasi windows karena secara default sistem operasi tersebut belum terinstall python nya. Kamu bisa unduh python nya pada situs python.org dan siapkan juga teks editor kamu untuk membuat program python nya. Mari kita mulai tutorial nya!
Baca juga: Cara Web Scraping Dengan Browser Google Chrome
Tutorial
1. Pertama, install modul requests nya lewat terminal kamu. Cara install nya bisa ketik di bawah ini :
pip install requests
2. Buat folder dengan nama web-scraping untuk mempermudah mengikuti tutorial ini.
3. Buka teks editor kamu bisa notepad++ atau lainnya.
4. Buat file python dan beri nama main.py lalu simpan pada folder web-scraping tadi. Untuk kode nya bisa lihat di bawah ini :
import requests req = requests.get('http://testphp.vulnweb.com/') if req.status_code == 200: print(req.text)
5. Kode di atas ketika penulis mengimpor modul requests lalu membuat variabel req di mana variabel req tersebut di isi url yang akan kita lakukan web scraping dan pada pengkondisian di buat, jika status kode nya itu 200 berarti ini success kita bisa melakukan web scraping dan terakhir mencetak hasil data mentah dokumen html pada terminal.
6. Kamu bisa jalankan program python nya tadi lewat terminal kamu dan hasil dari web scraping bisa lihat di bawah ini :
7. Hasil di atas adalah hasil data dokumen html yang di ekstrak secara mentah yang telah kita lakukan web scraping. Kita bisa mengetahui elemen html bahkan script javascript pada url sasaran. Selesai.
Kesimpulan
Dengan kita melakukan web scraping kita bisa mengekstrak informasi sebuah situs. Kamu bisa saja menggunakan modul beautiful soup4 bahkan juga selenium yang di gunakan untuk web scraping dan yang perlu di perhatikan adalah terkadang kita bisa kena pemblokiran ip jika kita terus melakukan web scraping pada sebuah situs.