Phân tích đơn biến và đa biến nhẹ nhàng, đơn giản với TTTH_Analyzer package
ngày 26-08-2022
Khi thực hiện một dự án Data Science, chúng ta phải tiến hành rất nhiều công đoạn khác nhau như xác định vấn đề cần giải quyết; tìm hiểu, thu thập, xử lý và chuẩn bị dữ liệu; phân tích dữ liệu, xây dựng, đánh giá model; và triển khai, bảo trì và nhận phản hồi.
Trong đó, việc tìm hiểu, thu thập, xử lý và chuẩn bị dữ liệu là công đoạn chiếm nhiều thời gian và công sức nhất, với 70~80% tổng thời gian của cả dự án. Chất lượng của dữ liệu ảnh hưởng trực tiếp đến kết quả của dự án. Vì vậy, nếu chúng ta thực hiện tốt công đoạn này, chúng ta sẽ có kết quả tốt ở các công đoạn sau.
Một trong những việc quan trọng cần làm ở công đoạn nói trên là phân tích đơn biến và phân tích đa biến. Để hiểu về từng biến (thuộc tính) đơn lẻ trong bộ dữ liệu, chúng ta cần thực hiện phân tích đơn biến, còn khi muốn biết các biến có liên quan đến nhau hay không, chúng ta cần thực hiện phân tích đa biến. Nếu bộ dữ liệu có quá nhiều biến, chúng ta phải thực hiện rất nhiều lần việc phân tích này, vì vậy cũng khó tránh khỏi sai sót khi lập trình. Với mong muốn giúp việc phân tích đơn biến và đa biến được nhẹ nhàng, đơn giản và nhanh chóng hơn, Trung Tâm Tin Học gửi đến các bạn thư viện TTTH_Analyzer. Mời các bạn cài đặt, dùng thử và góp ý nhé.
-var1: tên biến phân loại thứ 1 - kiểu chuồi (string)
-var2: tên biến phân loại thứ 2 - kiểu chuỗi (string)
-df: dataframe chứa cả 2 biến phân loại cần phân tích - kiểu dataframe pandas
Chức năng: tạo bảng 2 chiều (two-way table), trực quan hóa bằng biểu đồ cột chồng (stacked columns bar) và sử dụng chi2 để đánh giá 2 biến có độc lập với nhau hay không?
Kết quả trả về: Có phủ định giả thuyết H0 hay không và hiển thị biểu đồ cột chồng (stacked columns bar).