Báo cáo đồ án tốt nghiệp Data Science – Machine Learning Khóa 4
ngày 17-12-2020
Ngày 29/11/2020 vừa qua Trung Tâm Tin Học – Trường ĐH KHTN tổ chức buổi Báo cáo Đồ án tốt nghiệp cho các bạn học viên tham gia chương trình Data Science – Machine Learning.
Có 17 đề tài được báo cáo trong đợt này và buổi báo cáo được chia làm 2 ca: Sáng và Chiều.
Ca Sáng với Hội đồng chấm thi là Thầy Đặng Thế Khoa – Phó Giám đốc Trung Tâm Tin Học, Thầy Nguyễn An Tế - Giáo viên phụ trách chính trong chương trình Data Science – Machine Learning, Thầy Nguyễn Quan Liêm – Giáo viên hướng dẫn chính của tất cả đồ án.
Ca Chiều với Hội đồng chấm thi là Cô Lại Thị Hạnh – Phó Giám đốc Trung Tâm Tin Học, Cô Khuất Thùy Phương – Phó Phòng Lập trình & Mạng và Thầy Nguyễn Quan Liêm.
Mở đầu cho buổi tốt nghiệp của ca sáng là phần trình bày của bạn Phạm Thành Danh, học viên chương trình Machine Learning Certificate, với tên đề tài Precision Forestry - Đếm số cây cải thảo trong vườn. Đề tài dựa trên dự án thực tế mà học viên đang thực hiện tại doanh nghiệp.
Cải thảo là một loại cây được trồng trên diện tích rộng, rất phổ biến tại Lâm Đồng. Vùng trồng lớn dẫn tới yêu cầu dự đoán sản lượng để tối ưu các khâu thu hoạch, đóng gói, vận chuyển được hiệu quả. Do đó đề tài này ra đời. Đây là một đề tài khá mới lạ, góp phần số hóa nông nghiệp. Học viên sử dụng phương pháp mới – EfficientDet – một model mới ra đời có độ nhẹ tương đương với MobileNet và độ chính xác cao hơn. Nhờ vậy, phần demo đề tài cho ra kết quả khá chính xác.
Tiếp theo là đề tài Xây dựng Hệ thống Recommendation System với Thư Viện Lightfm do bạn Nguyễn Đông Hải – Học viên khóa học Data Science Certificatethực hiện. Hiện bạn Hải đang làm việc trong một Doanh nghiệp gia công và phân phối trang sức. Với số lượng khách hàng lớn, việc giới thiệu, đề xuất các sản phẩm tượng tự cho khách giúp tăng doanh số bán hàng nhanh chóng, giảm thời gian tư vấn của nhân viên.
Đây là đề tài được lấy dữ liệu thực tế từ doanh nghiệp, có tính thực tiễn và khả năng ứng dụng cao. Đặc biệt là các đơn vị có nhiều mặt hàng khác nhau, muốn chủ động xây dựng hệ thống có thể cá nhân hóa tùy theo nhu cầu kinh doanh thực tế với chi phí không quá cao.
Tiếp theo là đề tài Face Mask Correction Detect – Phát hiện đeo khẩu trang đúng cách do bạn Đỗ Thị Diệu Lê, học viên khóa học Machine Learning Certificatethực hiện. Trong bối cảnh dịch Covid vẫn còn đang diễn ra ở khắp nơi, đề tài này thực hiện nhằm phát hiện kịp thời người không đeo hoặc đeo khẩu trang không đúng cách, giúp cảnh báo sớm đề phòng dịch bệnh lây lan.
Quá trình thực hiện, bạn kết hợp 2 mô hình Yolo và Dlib, nhằm so sánh, đánh giá để đưa ra kết quả với độ chính xác cao nhất. Đề tài có thể ứng dụng ở các nơi đông người như Sân bay, Siêu thị, Trường học…
Tiếp theo là đề tài Stock Price Predict – Xây dựng mô hình dự đoán giá cổ phiếu của Amazon do bạn Trần Văn Châu, học viên Data Science thực hiện. Thị trường chứng khoán là một kênh đầu tư khá hấp dẫn, việc dự báo giá cổ phiếu trong tương lai gần luôn được các nhà đầu tư quan tâm.
Phương pháp xây dựng mô hình dự báo giá cổ phiếu được đề xuất trong đề tài này là sử dụng kết hợp ba thuật toán Bayes Brigde, LSTM và ARIMA để đưa ra kết quả dự đoán và chọn được kết quả có độ tin cậy cao nhất.
Thêm một đề tài cũng được khá nhiều doanh nghiệp quan tâm, Customer Churn - Tỷ lệ khách hàng rời bỏ – đề tài được thực hiện bởi bạn Vũ Tiến Hùng – học viên khóa học Data Science thực hiện. Đề tài nhằm nghiên cứu các nhân tố quyết định tỷ lệ khách hàng rút tiền tại Ngân hàng, sử dụng các thuật toán Machine Learning.
Đề tài sử dụng dữ liệu thực tế từ doanh nghiệp nên có tính ứng dụng cao. Trong tương lai, bạn sẽ phát triển, mở rộng đề tài để thực hiện tại doanh nghiệp của bạn.
Đề tài cuối trong buổi báo cáo buổi sáng là Text Classification – Dự đoán danh mục sản phẩm trên website Thương mại điện tử được thực hiện bởi học viên Minh Quang Hải Đăng – học viên khóa Data Science tại Trung tâm.
Đề tài có sử dụng LDA để cải thiện model (Topic Modelling), có crawl dữ liệu và chuẩn bị Demo kỹ lưỡng, cho ra kết quả có độ tin cậy khá cao.
Đề tài mang nhiều ý nghĩa cho xã hội của bạn Trọng Khiêm - Forest Fire Prediction, mục đích của đề tài là phân cụm các điểm cháy rừng ở Việt Nam và dự đoán số điểm cháy ở Việt Nam trong thời gian tới. Tuy nhiên đề tài gặp vấn đề khó khăn về Data, chỉ lấy được các dữ liệu từ năm 2017 – 2019 nên đề tài khó hoàn thiện tốt nhất.
Sau đề tài của bạn Trọng Khiêm là đề tài Sentiment Analysis – Phân tích cảm xúc ý kiến phản hồi của khác hàng của bạn Nguyễn Thị Kim Hương. Theo đánh giá của hội đồng, bạn Hương đã thực hiện một bài toán Data Science trọn vẹn, có đầu tư thời gian công sức để mang lại sản phẩm có tính ứng dụng trong thực tế, nếu cải tiến thêm phần xử lí ngôn ngữ tự nhiên theo ngữ cảnh sẽ tốt hơn.
Tiếp theo đề tài Trading System – Apply Machine Learning to predict stock price through momentum and sentiment Signal của anh Lê Thành Tài – học viên khóa Data Science tại Trung tâm. Được đánh giá là đề tài mới, dựa trên Sentiment từ chuyên gia và dữ liệu thu thập từ năm 2017 – 11/2020 để đưa ra gợi ý Buy – Sell cho khách hàng.
Cuối cùng là đề tài của bạn Lê Văn Tòng, Customer Churn – Áp dụng Machine Learning cho công tác dự báo và chăm sóc khách hàng có nguy cơ ngừng mua sắm, đề tài được sử dụng từ chính data của doanh nghiệp nên mang tính thực tế và ứng dụng cao. Theo hội đồng đánh giá đề tài mang lại hiệu quả kinh tế theo các kịch bản khi áp dụng kết quả đề tài vào thực tế, trình bày chặt chẽ, demo minh họa tốt.
Mặc dù chỉ có 5 tuần chuẩn bị, các bạn làm việc liên tục, trao đổi với Giảng viên để hoàn thiện đồ án của mình. Buổi báo cáo đồ án diễn ra tốt đẹp và sôi nổi, phần lớn các đề tài được đánh giá có tính ứng dụng thực tế cao, học viên thực hiện đề tài có sự am hiểu về công nghệ, kỹ thuật và kiến thức của lĩnh vực liên quan.