5 LIBRARY PYTHON UNTUK SCRAPING

5 LIBRARY PYTHON UNTUK SCRAPING


Web scraping atau web automation adalah suatu teknik dimana kita melakukan aktivitas di atas sebuah website tanpa menggunakan browser. Dapat menggunakan pendekatan programming ataupun tidak. Salah satu manfaat web scraping adalah bagaimana kamu melakukan aktivitas otomatis seperti pembelian tiket pesawat, namun mengakomodasi banyak user padahal hanya melewati satu akun.
Contoh lainnya adalah bagaimana kamu dapat membuat website yang berisi jurnal dari akun-akun ekslusif padahal kamu tidak memiliki izin untuk melakukan web scarping dan mengambil isinya. Web scraping juga dilakukan bila suatu layanan tidak memiliki web service namun memiliki informasi yang berguna dari website-nya.
Dengan menggunakan python, kamu dapat melakukan web scraping dengan cepat dan mudah. Berikut adalah beberappa library untuk melakukan web scraping di python.
1. Standard  Library
Pada dasarnya web scraping melibatkan dua hal, request dan response parsing. Python sendiri memiliki library untuk melakukan request diatas HTTP dengan menggunakan modul urllib atau urllib2.
Lalu untuk parsing  hasil response-nya dapat kamu Gunakan beberapa parser seperti CSVParser, XMLParser, HTMLParser, SimpleDOM,lxml, dan lainnya. Namun tentu fiturnya tidak akan sekaya library lain yang sudah dikembangkan lebih lanjut.
2. Request
Library yang satu ini memiliki sejumlah fitur seperti dapat menangani request dengan method GED, POST, PUT, HEAD, OPTION, dan DELETE. Juga dapat menangani custom header untuk melewatkan nilai-nilai tertentu saat akan melakukan request.
Tidak hanya melakukan request, kamu pun dapat mengirimkan form-data dan gambar yang akan diterima oleh suatu website.
3. BeautifulSoup4
API-nya tidak jauh dengan jQuery, dimana kamu dapat melakukan seleksi berbasis class atau ID melalui selector tertentu. BeautifulSoup4 merupakan library untuk HTML parsing dan mendapatkan isinya secara mudah. BeautifulSoup4 pun dapat menangani dokumen kompleks seperti XML. Namun tentu saja dioptimalkan untuk HTML
Selain itu kamu pun dapat mengikuti kemanapun request itu di redirect dan menanganinya secara mudah.
4. Selenium
Untuk library  yang satu ini kamu dapat berpura-pura bahwa kamu sedang melakukan klik pada suatu tombola tau  from di dalam halaman web terserbut. Dengan selenium juga kamu dapat melakukan berbagai aktivitas seperti mengisi keranjang belanja, melakukan scroll halaman, melakukan refresh dan lainnya.
5. Scrapy
Bisa dibilang library ini merupakan library superior dari keempat library sebelumnya. Kamu dapat melakukan scraping dengan lebih mudah dan cepat didukung oleh API yang lengkap. Fitur yang dimiliki pun lebih advance dan sudah teruji oleh pembuat Scrapy sendiri untuk menangani berbagai macam proyek.












Previous
Next Post »