12. Các mô hình học máy không giám sát.#


12.1. Giới thiệu chung#

Sau khi đã tìm hiểu về học máy có giám sát – nơi mà mô hình học từ các ví dụ có gắn nhãn cụ thể để dự đoán hoặc phân loại các quan sát mới – chúng ta chuyển sang một nhánh quan trọng khác của học máy: học máy không giám sát.

Học máy không giám sát bao gồm các kỹ thuật học từ dữ liệu mà không có đầu ra được xác định trước, tức là không có dữ liệu đầu ra có vai trò giám sát và cung cấp thông tin chính xác để mô hình học theo. Trong bối cảnh này, mô hình chỉ được cung cấp một tập dữ liệu đầu vào thuần túy, không có nhãn hay mục tiêu cụ thể đi kèm. Nhiệm vụ của mô hình là tự khám phá các cấu trúc tiềm ẩn hoặc mối quan hệ nội tại trong dữ liệu.

Phương pháp học không giám sát đặc biệt hữu ích trong các tình huống mà việc gán nhãn dữ liệu là khó khăn, tốn kém hoặc không khả thi, chẳng hạn như phân khúc khách hàng, phát hiện bất thường, hoặc giảm chiều dữ liệu để trực quan hóa.

Trong chương này, chúng ta sẽ khám phá các nhóm kỹ thuật phổ biến trong học không giám sát, bao gồm:

  • Phân cụm (clustering) với các thuật toán như k-means, phân cụm phân cấp (hierarchical clustering) và DBSCAN

  • Giảm chiều dữ liệu (dimensionality reduction) với PCA, t-SNE và các phương pháp phi tuyến khác

  • Các ứng dụng thực tiễn trong phân tích dữ liệu và hỗ trợ ra quyết định trong bối cảnh kinh tế – kinh doanh.

12.1.1. Các mục tiêu của Học máy không giám sát#


Mục tiêu thứ nhất của Học máy không giám sát là thực hiện các phép biến đổi nhằm tìm kiếm một biểu diễn mới cho tập dữ liệu, sao cho biểu diễn này trở nên dễ hiểu hơn đối với con người hoặc có ích hơn cho các thuật toán học máy khác. Biểu diễn mới có thể làm nổi bật các đặc tính tiềm ẩn trong dữ liệu mà ở dạng ban đầu khó nhận biết.

Một ứng dụng phổ biến của nhóm kỹ thuật này là giảm chiều dữ liệu – tức là tìm cách biểu diễn dữ liệu có số chiều cao (nhiều đặc trưng) bằng một số chiều thấp hơn mà vẫn giữ lại được những thông tin cốt lõi. Điều này không chỉ giúp giảm chi phí tính toán và tăng độ khái quát của mô hình, mà còn rất hữu ích trong việc trực quan hóa dữ liệu. Ví dụ, một tập dữ liệu có hàng trăm đặc trưng có thể được chuyển đổi về không gian hai chiều hoặc ba chiều để biểu diễn trực quan, hỗ trợ quá trình khám phá dữ liệu.

Ngoài giảm chiều, một mục tiêu khác là trích xuất thành phần cấu thành dữ liệu. Chẳng hạn, trong xử lý văn bản, một bài toán quan trọng là trích xuất chủ đề (topic modeling). Mục tiêu ở đây là phát hiện ra các chủ đề tiềm ẩn được thảo luận trong từng tài liệu, và xác định mức độ liên quan của từng chủ đề đối với từng văn bản. Ứng dụng này có thể được sử dụng trong việc phân tích nội dung mạng xã hội, theo dõi xu hướng thảo luận về các chủ đề như chính trị, giải trí, hoặc các vấn đề xã hội.

Trong khi các phép biến đổi tạo ra các biểu diễn mới cho toàn bộ dữ liệu, thì các thuật toán phân cụm (clustering) lại tìm cách phân chia tập dữ liệu thành các nhóm riêng biệt sao cho các đối tượng trong cùng một nhóm có tính tương đồng cao, còn các nhóm khác nhau thì khác biệt đáng kể.

Một ví dụ quen thuộc là tổ chức ảnh trong một bộ sưu tập cá nhân trên mạng xã hội. Hệ thống có thể muốn nhóm các bức ảnh chụp cùng một người lại với nhau, dù không có nhãn hay thông tin về số người xuất hiện. Một giải pháp là trích xuất khuôn mặt trong từng ảnh, sau đó sử dụng thuật toán phân cụm để nhóm các khuôn mặt tương tự nhau. Kết quả kỳ vọng là mỗi nhóm tương ứng với một người cụ thể, giúp người dùng dễ dàng tổ chức và truy xuất hình ảnh.

12.1.2. Những thách thức trong Học máy không giám sát#


Một trong những thách thức lớn nhất trong học máy không giám sát là đánh giá hiệu quả của mô hình học. Khác với học có giám sát – nơi tồn tại nhãn đầu ra đúng để so sánh – các bài toán học không giám sát không có sẵn thông tin nhãn, do đó không có “đáp án” rõ ràng để xác minh liệu mô hình có đang học được điều gì có ý nghĩa hay không.

Trong bối cảnh kinh tế và kinh doanh, điều này thể hiện rõ qua các ví dụ thực tế. Chẳng hạn, khi một ngân hàng áp dụng kỹ thuật phân cụm khách hàng để xây dựng chiến lược tiếp thị, thuật toán có thể nhóm khách hàng theo mức chi tiêu hoặc tần suất giao dịch. Tuy nhiên, hệ thống không biết đâu là cách “đúng” để phân loại khách hàng – theo giá trị vòng đời (CLV), theo rủi ro tín dụng, hay theo sở thích sản phẩm. Trong trường hợp này, mô hình có thể tạo ra các nhóm hợp lý về mặt toán học nhưng không phục vụ đúng mục tiêu kinh doanh, và không có cơ sở rõ ràng để đánh giá độ chính xác của kết quả, ngoài việc xem xét thủ công hoặc thử nghiệm A/B.

Một ví dụ khác là khi doanh nghiệp sử dụng giảm chiều dữ liệu để trực quan hóa hành vi người tiêu dùng dựa trên dữ liệu từ hàng trăm đặc trưng (như tần suất mua hàng, loại sản phẩm, thời điểm mua, kênh thanh toán…). Kết quả trực quan có thể giúp nhà phân tích phát hiện các nhóm hành vi đặc trưng, nhưng không có chuẩn mực khách quan để xác nhận tính đúng đắn của các biểu diễn đó, ngoài việc kiểm tra chủ quan hoặc sử dụng các chỉ số nội tại (internal validation).

Chính vì vậy, các kỹ thuật học không giám sát thường được sử dụng trong bối cảnh khám phá dữ liệu (exploratory analysis), khi nhà phân tích cần hiểu rõ hơn về cấu trúc ẩn trong dữ liệu thay vì tối ưu hóa hiệu suất một hệ thống tự động. Đồng thời, học không giám sát còn đóng vai trò quan trọng như một bước tiền xử lý trong quy trình học có giám sát. Ví dụ:

  • Trong dự báo nhu cầu tiêu dùng, việc áp dụng giảm chiều dữ liệu giúp loại bỏ các đặc trưng dư thừa và giảm rủi ro quá khớp cho mô hình dự báo.

  • Trong chấm điểm tín dụng, các biểu diễn mới từ học không giám sát có thể bổ sung cho các đặc trưng truyền thống, giúp mô hình học có giám sát (như logistic regression) hoạt động hiệu quả hơn.

  • Trong phát hiện gian lận, học không giám sát giúp tìm ra các hành vi bất thường, từ đó tạo nhãn cho mô hình học có giám sát về sau.

Trước khi đi vào các thuật toán học không giám sát chuyên sâu, chương này sẽ bắt đầu với một số phương pháp tiền xử lý cơ bản thường được sử dụng rộng rãi. Mặc dù các kỹ thuật như chuẩn hóa và co giãn đặc trưng (scaling, normalization) thường xuất hiện trong học có giám sát, bản thân các phương pháp này không sử dụng thông tin nhãn, do đó về bản chất vẫn được phân loại là kỹ thuật không giám sát.

NỘI DUNG TIẾP THEO CỦA CHƯƠNG ĐANG ĐƯỢC PHÁT TRIỂN VÀ CẬP NHẬT