[Workshop] - Web Scraping - Kỹ năng thu thập dữ liệu từ Website trên Internet

ngày 10-07-2019

Data - Dữ liệu là yếu tố vô cùng quan trọng, không thể thiếu đối với bất kỳ ai làm việc trong các lĩnh vực Data Science, Machine Learning, Computer Science, Software Engineering… . Vậy làm sao để có được nguồn dữ liệu hữu ích, cần thiết và đủ lớn đó?  Bạn hoàn toàn có thể lấy dữ liệu từ cơ sở dữ liệu, tập tin và các nguồn lưu trữ khác trong các hệ thống. Nhưng với dữ liệu từ web, dữ liệu trực tuyến mà không được cung cấp sẵn thì sao? Đơn giản là bạn sẽ tìm kiếm thủ công thông qua web browser và lưu lại các dữ liệu quan tâm bằng cách copy-paste vào máy tính. Tuy nhiên, phương pháp này khá tẻ nhạt, tốn thời gian và hoàn toàn không khả thi khi bạn cần nhiều và thật nhiều dữ liệu. 
 
Web Scraping, còn được gọi là web data mining (khai thác dữ liệu web) hoặc web harvesting (“gặt hái” web), là quá trình xây dựng một ứng dụng có thể tải xuống, trích xuất, sắp xếp, lưu trữ và phân tích thông tin hữu ích từ web một cách tự động. Nói cách khác, thay vì lưu dữ liệu thủ công từ các trang web, Web scraping sẽ tự động tải và trích xuất dữ liệu từ nhiều trang web theo yêu cầu của chúng ta.
 
Một số ứng dụng quan trọng của Web Scraping:
  • E-commerce Websites (website thương mại điện tử): Web Scraping có thể thu thập dữ liệu liên quan đặc biệt đến giá thành của một sản phẩm cụ thể từ các trang web thương mại điện tử khác nhau để so sánh.
  • Content Aggregators (Bộ tổng hợp nội dung): Web Scraping được sử dụng rộng rãi bởi các bộ tổng hợp nội dung như bộ tổng hợp tin tức (news) và bộ tổng hợp việc làm (job) để cung cấp dữ liệu cập nhật cho người dùng.
  • Marketing and Sales Campaigns (Chiến dịch tiếp thị và bán hàng): Web Scraping có thể được sử dụng để lấy dữ liệu như email, số điện thoại,... cho các chiến dịch tiếp thị và bán hàng.
  • Search Engine Optimization - SEO (Tối ưu hóa công cụ tìm kiếm): được sử dụng rộng rãi bởi các công cụ SEO như SEMRush, Majestic,... để cho doanh nghiệp biết cách họ xếp hạng các từ khóa tìm kiếm quan trọng. 
  • Data for Machine Learning Projects (Dữ liệu cho các dự án máy học): Việc truy xuất dữ liệu cho các dự án máy học từ Web Scraping.
 
Hiểu được tầm quan trọng của ứng dụng Web Scraping trong các công việc liên quan đến data, Trung tâm tin học tổ chức buổi Workshop “Kỹ năng thu thập dữ liệu từ Website trên Internet”, nhằm giúp các bạn bước đầu làm quen với kỹ năng này.
 
  • Thời gian: 8h00 - 11h00 - Chủ Nhật ngày 05/05/2019
  • Địa điểm: Cơ sở 2 - Trung Tâm Tin Học - Số 137E Nguyễn Chí Thanh, P9, Q.5, Tp.HCM
 
Bạn sẽ nắm được các kiến thức cơ bản về Web Scraping, quy trình Web Scraping và trực tiếp thực hiện các thao tác trích xuất dữ liệu một cách tự động trên website rồi sau đó là xử lý, phân tích,... Kết quả là bạn sẽ kho dữ liệu của mình và biết đâu bạn có thể nghĩ ra được nhiều ứng dụng hay ho với những gì mình đã thu thập. 
 
Workshop thật sự cần thiết cho những bạn muốn biết thêm về ứng dụng thực tế của Web scraping. 
 
Bạn chỉ cần đăng ký tại đây là có thể tham gia workshop với nhiều trải nghiệm hữu ích .
 
Yêu cầu:
  • Có kiến thức cơ bản về lập trình Python
  • Đem theo laptop khi đến tham gia
  • Laptop đã cài sẵn: Python 3.6 trở lên, Python editor bất kỳ để làm việc (ví dụ như Jupyter Lab/Jupyter notebook hoặc Visual Studio Code...), các thư viện webbrowser, requests, urllib3, beautifulsoup4, lxml, selenium
 
Tham gia để biết thêm, hẹn gặp lại bạn tại workshop...
 
 
 

 

CHƯƠNG TRÌNH ĐÀO TẠO