5 LIBRARY PYTHON UNTUK SCRAPING
Web
scraping atau web automation adalah suatu teknik dimana kita melakukan
aktivitas di atas sebuah website tanpa menggunakan browser. Dapat menggunakan
pendekatan programming ataupun tidak. Salah satu manfaat web scraping adalah
bagaimana kamu melakukan aktivitas otomatis seperti pembelian tiket pesawat,
namun mengakomodasi banyak user padahal hanya melewati satu akun.
Contoh
lainnya adalah bagaimana kamu dapat membuat website yang berisi jurnal dari
akun-akun ekslusif padahal kamu tidak memiliki izin untuk melakukan web
scarping dan mengambil isinya. Web scraping juga dilakukan bila suatu layanan
tidak memiliki web service namun memiliki informasi yang berguna dari
website-nya.
Dengan
menggunakan python, kamu dapat melakukan web scraping dengan cepat dan mudah. Berikut
adalah beberappa library untuk melakukan web scraping di python.
1. Standard Library
Pada dasarnya web scraping
melibatkan dua hal, request dan response parsing. Python sendiri memiliki
library untuk melakukan request diatas HTTP dengan menggunakan modul urllib atau urllib2.
Lalu untuk parsing hasil response-nya dapat kamu Gunakan beberapa
parser seperti CSVParser, XMLParser,
HTMLParser, SimpleDOM,lxml, dan lainnya. Namun tentu fiturnya tidak akan sekaya
library lain yang sudah dikembangkan
lebih lanjut.
2. Request
Library
yang satu ini
memiliki sejumlah fitur seperti dapat menangani request dengan method GED,
POST, PUT, HEAD, OPTION, dan DELETE. Juga dapat menangani custom header untuk
melewatkan nilai-nilai tertentu saat akan melakukan request.
Tidak hanya melakukan request, kamu pun dapat mengirimkan form-data dan gambar yang akan diterima
oleh suatu website.
3. BeautifulSoup4
API-nya tidak jauh dengan jQuery,
dimana kamu dapat melakukan seleksi berbasis class atau ID melalui selector tertentu. BeautifulSoup4 merupakan library untuk HTML parsing dan mendapatkan isinya secara mudah. BeautifulSoup4 pun
dapat menangani dokumen kompleks seperti XML. Namun tentu saja dioptimalkan
untuk HTML
Selain itu kamu pun dapat
mengikuti kemanapun request itu di redirect dan menanganinya secara mudah.
4. Selenium
Untuk library yang satu ini kamu
dapat berpura-pura bahwa kamu sedang melakukan klik pada suatu tombola tau from
di dalam halaman web terserbut. Dengan
selenium juga kamu dapat melakukan berbagai aktivitas seperti mengisi keranjang
belanja, melakukan scroll halaman,
melakukan refresh dan lainnya.
5. Scrapy
Bisa dibilang library ini merupakan library superior dari keempat library sebelumnya. Kamu dapat melakukan
scraping dengan lebih mudah dan cepat
didukung oleh API yang lengkap. Fitur yang dimiliki pun lebih advance dan sudah teruji oleh pembuat
Scrapy sendiri untuk menangani berbagai macam proyek.
ConversionConversion EmoticonEmoticon