Phương pháp phân cụm: mô tả, khái niệm cơ bản, tính năng ứng dụng

Mục lục:

Phương pháp phân cụm: mô tả, khái niệm cơ bản, tính năng ứng dụng
Phương pháp phân cụm: mô tả, khái niệm cơ bản, tính năng ứng dụng
Anonim

Phương pháp phân cụm là nhiệm vụ nhóm một tập hợp các đối tượng sao cho chúng trong cùng một nhóm giống nhau hơn so với các đối tượng trong các ngành khác. Đây là nhiệm vụ chính của khai thác dữ liệu và một kỹ thuật phân tích thống kê chung được sử dụng trong nhiều lĩnh vực, bao gồm học máy, nhận dạng mẫu, nhận dạng hình ảnh, truy xuất thông tin, nén dữ liệu và đồ họa máy tính.

Vấn đề tối ưu hóa

sử dụng phương pháp phân cụm
sử dụng phương pháp phân cụm

Bản thân phương pháp phân cụm không phải là một thuật toán cụ thể, mà là một nhiệm vụ chung cần được giải quyết. Điều này có thể đạt được với các thuật toán khác nhau có sự khác biệt đáng kể trong việc hiểu những gì tạo thành một nhóm và cách tìm nó một cách hiệu quả. Việc sử dụng phương pháp phân nhóm để hình thành các siêu dự án bao gồm việc sử dụng một nhóm vớikhoảng cách nhỏ giữa các thành viên, các vùng không gian dày đặc, các khoảng hoặc các phân bố thống kê nhất định. Do đó, phân cụm có thể được xây dựng như một bài toán tối ưu hóa đa mục tiêu.

Cài đặt tham số và phương pháp thích hợp (bao gồm các mục như hàm khoảng cách để sử dụng, ngưỡng mật độ hoặc số lượng cụm dự kiến) phụ thuộc vào tập dữ liệu riêng lẻ và mục đích sử dụng kết quả. Phân tích như vậy không phải là một nhiệm vụ tự động, mà là một quá trình lặp đi lặp lại để khám phá kiến thức hoặc tối ưu hóa đa mục tiêu tương tác. Phương pháp phân cụm này bao gồm các lần thử và thử lỗi. Thường cần phải sửa đổi các thông số tiền xử lý dữ liệu và mô hình cho đến khi kết quả đạt được các thuộc tính mong muốn.

Ngoài thuật ngữ "phân cụm", có một số từ có ý nghĩa tương tự, bao gồm phân loại tự động, phân loại số, phân tích cả hai loại và phân tích kiểu chữ. Sự khác biệt nhỏ thường nằm ở việc sử dụng phương pháp phân cụm để hình thành các mối quan hệ siêu đối tượng. Trong khi trích xuất dữ liệu, các nhóm kết quả được quan tâm, trong phân loại tự động, nó đã là sức mạnh phân biệt thực hiện các chức năng này.

Phân tích cụm được dựa trên nhiều tác phẩm của Kroeber vào năm 1932. Nó được Zubin đưa vào tâm lý học năm 1938 và Robert Tryon năm 1939. Và những công trình này đã được Cattell sử dụng từ năm 1943 để chỉ ra sự phân loại của các phương pháp phân cụm trên lý thuyết.

Hạn

cách sử dụngphương pháp
cách sử dụngphương pháp

Không thể định nghĩa chính xác khái niệm "cụm". Đây là một trong những lý do tại sao có rất nhiều phương pháp phân cụm. Có một mẫu số chung: một nhóm các đối tượng dữ liệu. Tuy nhiên, các nhà nghiên cứu khác nhau sử dụng các mô hình khác nhau. Và mỗi cách sử dụng phương pháp phân cụm liên quan đến dữ liệu khác nhau. Khái niệm được tìm thấy bởi các thuật toán khác nhau khác nhau đáng kể về các thuộc tính của nó.

Sử dụng phương pháp phân cụm là chìa khóa để hiểu sự khác biệt giữa các hướng dẫn. Các mẫu cụm điển hình bao gồm:

  • Centroid s. Ví dụ: đây là khi phân cụm k-mean đại diện cho mỗi cụm với một vectơ trung bình.
  • Mô hình kết nối s. Ví dụ: đây là phân nhóm phân cấp, xây dựng mô hình dựa trên kết nối khoảng cách.
  • Mô hình phân phối s. Trong trường hợp này, các cụm được mô hình hóa bằng cách sử dụng phương pháp phân cụm để tạo thành các phân phối thống kê siêu đối tượng. Chẳng hạn như phân tách thông thường đa biến, được áp dụng cho thuật toán tối đa hóa kỳ vọng.
  • Mô hình mật độ s. Ví dụ, chúng là DBSCAN (Thuật toán phân cụm không gian với tiếng ồn) và OPTICS (Điểm thứ tự để phát hiện cấu trúc), xác định các cụm là các vùng dày đặc được kết nối trong không gian dữ liệu.
  • Mô hình không gian con c. Trong phân nhóm (còn được gọi là đồng nhóm hoặc hai chế độ), các nhóm được lập mô hình với cả hai phần tử và với các thuộc tính thích hợp.
  • Mẫu s. Một số thuật toán khôngmối quan hệ tinh chỉnh cho phương pháp phân nhóm của họ để tạo ra kết quả meta-subject và chỉ đơn giản là cung cấp nhóm thông tin.
  • Mô hình dựa trên đồ thị s. Một clique, nghĩa là, một tập hợp con của các nút, sao cho mỗi hai kết nối trong phần cạnh có thể được coi là một nguyên mẫu của hình dạng cụm. Sự suy yếu của tổng cầu được gọi là gần như bè phái. Tên chính xác được trình bày trong thuật toán phân cụm HCS.
  • Mô hình thần kinh s. Mạng không giám sát được biết đến nhiều nhất là bản đồ tự tổ chức. Và chính những mô hình này thường có thể được đặc trưng là tương tự như một hoặc nhiều phương pháp phân nhóm ở trên để hình thành các kết quả meta-subject. Nó bao gồm các hệ thống không gian con khi mạng nơ-ron thực hiện dạng phân tích thành phần chính hoặc độc lập cần thiết.

Thực tế, thuật ngữ này là một tập hợp các nhóm như vậy, thường chứa tất cả các đối tượng trong tập các phương thức phân cụm dữ liệu. Ngoài ra, nó có thể chỉ ra mối quan hệ của các cụm với nhau, chẳng hạn như hệ thống phân cấp được tích hợp sẵn với nhau. Nhóm có thể được chia thành các khía cạnh sau:

  • Phương pháp phân cụm centroid cứng. Ở đây, mỗi đối tượng thuộc về một nhóm hoặc nằm ngoài nhóm đó.
  • Hệ thống mềm hoặc mờ. Tại thời điểm này, mỗi đối tượng đã thuộc về một mức độ nhất định đối với bất kỳ cụm nào. Nó còn được gọi là phương pháp phân cụm mờ c-mean.

Và cũng có thể có những khác biệt tinh tế hơn. Ví dụ:

  • Phân cụm phân vùng chặt chẽ. Đâymỗi đối tượng thuộc đúng một nhóm.
  • Phân cụm phân vùng chặt chẽ với các trường hợp ngoại lệ. Trong trường hợp này, các đối tượng cũng có thể không thuộc bất kỳ cụm nào và được coi là không cần thiết.
  • Phân cụm chồng chéo (cũng có thể thay thế, với nhiều chế độ xem). Ở đây, các đối tượng có thể thuộc nhiều hơn một nhánh. Thường liên quan đến các cụm rắn.
  • Phương pháp phân cụm phân cấp. Các đối tượng thuộc nhóm con cũng thuộc hệ thống con chính.
  • Hình thành không gian con. Mặc dù tương tự như các cụm chồng chéo, trong một hệ thống được xác định duy nhất, các nhóm tương hỗ không được chồng chéo lên nhau.

Hướng dẫn

sử dụng phương pháp phân cụm để hình thành
sử dụng phương pháp phân cụm để hình thành

Như đã nêu ở trên, các thuật toán phân cụm có thể được phân loại dựa trên mô hình phân cụm của chúng. Bài đánh giá sau đây sẽ chỉ liệt kê những ví dụ nổi bật nhất của những hướng dẫn này. Vì có thể có hơn 100 thuật toán được xuất bản, không phải tất cả đều cung cấp mô hình cho các cụm của chúng và do đó không thể dễ dàng phân loại.

Không có thuật toán phân cụm chính xác một cách khách quan. Nhưng, như đã nói ở trên, chỉ dẫn luôn nằm trong tầm nhìn của người quan sát. Thuật toán phân cụm phù hợp nhất cho một vấn đề cụ thể thường phải được chọn bằng thực nghiệm, trừ khi có lý do toán học để thích mô hình này hơn mô hình khác. Cần lưu ý rằng một thuật toán được thiết kế cho một loại thường không hoạt động vớimột tập dữ liệu có chứa một chủ đề hoàn toàn khác. Ví dụ: k-mean không thể tìm thấy các nhóm không lồi.

Phân nhóm dựa trên kết nối

phương pháp phân cụm
phương pháp phân cụm

Liên minh này còn được biết đến với tên gọi của nó, mô hình phân cấp. Nó dựa trên ý tưởng điển hình rằng các đối tượng được kết nối với các bộ phận lân cận hơn là với những bộ phận ở xa hơn nhiều. Các thuật toán này kết nối các đối tượng, tạo thành các cụm khác nhau, tùy thuộc vào khoảng cách của chúng. Một nhóm có thể được mô tả chủ yếu bằng khoảng cách tối đa cần thiết để kết nối các phần khác nhau của cụm. Ở tất cả các khoảng cách có thể, các nhóm khác sẽ hình thành, có thể được biểu diễn bằng cách sử dụng biểu đồ dendrogram. Điều này giải thích nơi mà tên gọi chung "phân cụm phân cấp" đến từ đâu. Có nghĩa là, các thuật toán này không cung cấp một phân vùng duy nhất của tập dữ liệu, mà thay vào đó cung cấp một thứ tự quyền hạn rộng rãi. Đó là nhờ anh ta mà có một cống với nhau ở những khoảng cách nhất định. Trong biểu đồ dendrogram, trục y biểu thị khoảng cách mà các cụm đến với nhau. Và các đối tượng được sắp xếp dọc theo dòng X để các nhóm không trộn lẫn vào nhau.

Phân nhóm dựa trên kết nối là một nhóm các phương pháp khác nhau về cách chúng tính toán khoảng cách. Ngoài các lựa chọn thông thường về chức năng khoảng cách, người dùng cũng cần quyết định tiêu chí kết nối. Vì một cụm bao gồm một số đối tượng, nên có nhiều tùy chọn để tính toán nó. Một lựa chọn phổ biến được gọi là nhóm đòn bẩy đơn, đây là phương phápliên kết đầy đủ, chứa UPGMA hoặc WPGMA (tập hợp không trọng số hoặc có trọng số của các cặp có giá trị trung bình số học, còn được gọi là cụm liên kết trung bình). Ngoài ra, hệ thống phân cấp có thể được tích hợp (bắt đầu với các phần tử riêng lẻ và kết hợp chúng thành các nhóm) hoặc phân chia (bắt đầu với một tập dữ liệu hoàn chỉnh và chia nó thành các phần).

Phân cụm

phương pháp phân cụm để hình thành
phương pháp phân cụm để hình thành

Những mô hình này có liên quan chặt chẽ nhất đến thống kê dựa trên sự phân tách. Có thể dễ dàng xác định cụm là các đối tượng có nhiều khả năng thuộc cùng một phân phối. Một tính năng hữu ích của cách tiếp cận này là nó rất giống với cách tạo tập dữ liệu nhân tạo. Bằng cách lấy mẫu các đối tượng ngẫu nhiên từ một bản phân phối.

Mặc dù cơ sở lý thuyết của các phương pháp này là tuyệt vời, nhưng chúng lại mắc phải một vấn đề chính, được gọi là overfitting, trừ khi các giới hạn được đặt ra đối với độ phức tạp của mô hình. Một liên kết lớn hơn thường sẽ giải thích dữ liệu tốt hơn, gây khó khăn cho việc chọn phương pháp phù hợp.

Mô hình hỗn hợp Gaussian

Phương pháp này sử dụng tất cả các loại thuật toán tối đa hóa kỳ vọng. Ở đây, tập dữ liệu thường được lập mô hình với số lượng phân phối Gaussian cố định (để tránh ghi đè) được khởi tạo ngẫu nhiên và có các tham số được tối ưu hóa lặp đi lặp lại để phù hợp hơn với tập dữ liệu. Hệ thống này sẽ hội tụ đến mức tối ưu cục bộ. Đó là lý do tại sao một số lần chạy có thể mang lạikết quả khác nhau. Để có được sự phân cụm chặt chẽ nhất, các đối tượng địa lý thường được gán cho phân phối Gaussian mà chúng có nhiều khả năng thuộc về nhất. Và đối với các nhóm nhẹ nhàng hơn, điều này là không cần thiết.

Phân nhóm dựa trên phân phối tạo ra các mô hình phức tạp mà cuối cùng có thể nắm bắt được mối tương quan và sự phụ thuộc giữa các thuộc tính. Tuy nhiên, các thuật toán này tạo thêm gánh nặng cho người dùng. Đối với nhiều bộ dữ liệu trong thế giới thực, có thể không có một mô hình toán học được xác định chính xác (ví dụ: giả sử phân phối Gaussian là một giả định khá mạnh).

Phân cụm dựa trên mật độ

nhóm lại để tạo thành
nhóm lại để tạo thành

Trong ví dụ này, các nhóm về cơ bản được xác định là các khu vực có độ không thấm cao hơn phần còn lại của tập dữ liệu. Các vật thể trong những bộ phận hiếm hoi này, cần thiết để tách tất cả các thành phần, thường được coi là nhiễu và điểm cạnh.

Phương pháp phân cụm dựa trên mật độ phổ biến nhất là DBSCAN (Thuật toán phân cụm tiếng ồn không gian). Không giống như nhiều phương pháp mới hơn, nó có một thành phần cụm được xác định rõ ràng được gọi là "khả năng tiếp cận mật độ". Tương tự như phân cụm dựa trên liên kết, nó dựa trên các điểm kết nối trong các ngưỡng khoảng cách nhất định. Tuy nhiên, phương pháp này chỉ thu thập những mặt hàng thỏa mãn tiêu chí tỷ trọng. Trong phiên bản gốc, được định nghĩa là số lượng tối thiểu các đối tượng khác trong bán kính này, cụm bao gồm tất cảcác mục liên quan đến mật độ (có thể tạo thành một nhóm dạng tự do, không giống như nhiều phương pháp khác) và tất cả các đối tượng nằm trong phạm vi cho phép.

Một thuộc tính thú vị khác của DBSCAN là độ phức tạp của nó khá thấp - nó yêu cầu một số lượng tuyến tính các truy vấn phạm vi đối với cơ sở dữ liệu. Và điều bất thường là nó sẽ tìm thấy các kết quả về cơ bản giống nhau (điều này là xác định đối với các điểm lõi và nhiễu, nhưng không phải đối với các phần tử biên) trong mọi lần chạy. Do đó, không cần phải chạy nó nhiều lần.

Nhược điểm chính của DBSCAN và OPTICS là chúng mong đợi một số giảm mật độ để phát hiện ranh giới cụm. Ví dụ, trong các tập dữ liệu có phân bố Gaussian chồng chéo - một trường hợp sử dụng phổ biến cho các đối tượng nhân tạo - các ranh giới cụm được tạo bởi các thuật toán này thường xuất hiện tùy ý. Điều này xảy ra bởi vì mật độ của các nhóm liên tục giảm. Và trong tập dữ liệu hỗn hợp Gaussian, các thuật toán này hầu như luôn hoạt động tốt hơn các phương pháp như phân cụm EM, có thể mô hình hóa chính xác các loại hệ thống này.

Dịch chuyển trung bình là một cách tiếp cận phân cụm, trong đó mỗi đối tượng di chuyển đến khu vực dày đặc nhất trong vùng lân cận dựa trên ước tính của toàn bộ hạt nhân. Cuối cùng, các đối tượng hội tụ với mức tối đa khả năng xuyên thủng cục bộ. Tương tự như phân cụm k-mean, những "bộ thu hút mật độ" này có thể đóng vai trò là đại diện cho một tập dữ liệu. Nhưng sự thay đổi có ý nghĩacó thể phát hiện các cụm có hình dạng tùy ý tương tự như DBSCAN. Do thủ tục lặp lại tốn kém và ước tính mật độ, độ dịch chuyển trung bình thường chậm hơn so với DBSCAN hoặc k-Means. Ngoài ra, khả năng áp dụng thuật toán dịch chuyển điển hình sang dữ liệu chiều cao là khó khăn do hành vi không đồng nhất của ước tính mật độ hạt nhân, dẫn đến phân mảnh quá mức của các đuôi cụm.

Đánh giá

phương pháp phân cụm để hình thành siêu đối tượng
phương pháp phân cụm để hình thành siêu đối tượng

Việc xác minh kết quả phân nhóm cũng khó như chính việc phân nhóm. Các cách tiếp cận phổ biến bao gồm cho điểm "nội bộ" (trong đó hệ thống được giảm xuống thành một thước đo chất lượng duy nhất) và tất nhiên, cho điểm "bên ngoài" (trong đó phân nhóm được so sánh với phân loại "sự thật cơ bản" hiện có). Và điểm thủ công của chuyên gia con người và điểm gián tiếp được tìm thấy bằng cách kiểm tra tính hữu ích của phân nhóm trong ứng dụng dự kiến.

Các biện pháp cờ nội bộ gặp phải vấn đề là chúng đại diện cho các tính năng mà bản thân chúng có thể được coi là mục tiêu phân cụm. Ví dụ: có thể nhóm dữ liệu được đưa ra bởi hệ số Silhouette, ngoại trừ việc không có thuật toán hiệu quả nào được biết để làm như vậy. Sử dụng thước đo nội bộ như vậy để đánh giá, tốt hơn là so sánh mức độ giống nhau của các vấn đề tối ưu hóa.

Dấu bên ngoài cũng có vấn đề tương tự. Nếu có những nhãn "chân lý căn bản" như vậy, thì không cần phải phân cụm lại. Và trong các ứng dụng thực tế, thường không có các khái niệm này. Mặt khác, các nhãn chỉ phản ánh một phân vùng có thể có của tập dữ liệu, điều này không có nghĩa làrằng không có cụm nào khác (thậm chí có thể tốt hơn).

Vì vậy, không có phương pháp nào trong số này cuối cùng có thể đánh giá chất lượng thực tế. Nhưng điều này cần sự đánh giá của con người, mang tính chủ quan cao. Tuy nhiên, những số liệu thống kê như vậy có thể cung cấp thông tin trong việc xác định các cụm xấu. Nhưng không nên hạ thấp đánh giá chủ quan của một người.

Dấu bên trong

Khi kết quả của một phân nhóm được đánh giá dựa trên dữ liệu đã được phân nhóm, thì điều này được gọi là thuật ngữ này. Các phương pháp này thường gán kết quả tốt nhất cho một thuật toán tạo ra các nhóm có độ tương đồng cao trong và thấp giữa các nhóm. Một trong những nhược điểm của việc sử dụng các tiêu chí nội bộ trong đánh giá cụm là điểm cao không nhất thiết dẫn đến các ứng dụng truy xuất thông tin hiệu quả. Ngoài ra, điểm số này thiên về các thuật toán sử dụng cùng một mô hình. Ví dụ: phân cụm k-mean tự nhiên tối ưu hóa khoảng cách đối tượng và một tiêu chí nội bộ dựa trên tiêu chí đó có khả năng đánh giá quá cao việc phân nhóm kết quả.

Do đó, các thước đo đánh giá này phù hợp nhất để có được ý tưởng về các tình huống trong đó một thuật toán hoạt động tốt hơn thuật toán khác. Nhưng điều này không có nghĩa là mỗi thông tin cho kết quả đáng tin cậy hơn những thông tin khác. Khoảng thời gian hiệu lực được đo lường bởi một chỉ số như vậy phụ thuộc vào sự khẳng định rằng cấu trúc tồn tại trong tập dữ liệu. Một thuật toán được phát triển cho một số loại sẽ không có cơ hội nếu tập hợp đó hoàn toàn chứathành phần khác nhau hoặc nếu đánh giá đo lường các tiêu chí khác nhau. Ví dụ: phân cụm k-mean chỉ có thể tìm thấy các cụm lồi và nhiều chỉ số điểm giả định cùng một định dạng. Trong tập dữ liệu có mô hình không lồi, không thích hợp sử dụng phương tiện k và các tiêu chí đánh giá điển hình.

Đánh giá bên ngoài

Với loại balling này, kết quả phân nhóm được đánh giá dựa trên dữ liệu không được sử dụng để phân nhóm. Đó là, chẳng hạn như các nhãn lớp đã biết và các bài kiểm tra bên ngoài. Những câu hỏi như vậy bao gồm một tập hợp các mục đã được phân loại trước và thường được tạo ra bởi các chuyên gia (con người). Như vậy, bộ tài liệu tham khảo có thể được coi là tiêu chuẩn vàng để đánh giá. Các loại phương pháp tính điểm này đo lường mức độ gần gũi của phân nhóm với các lớp tham chiếu đã cho. Tuy nhiên, gần đây người ta đã thảo luận về việc liệu điều này có phù hợp với dữ liệu thực hay chỉ dành cho các tập hợp tổng hợp với sự thật cơ sở thực tế. Vì các lớp có thể chứa cấu trúc bên trong và các thuộc tính hiện có có thể không cho phép tách các cụm. Ngoài ra, theo quan điểm khám phá tri thức, việc tái tạo các dữ kiện đã biết có thể không nhất thiết tạo ra kết quả mong đợi. Trong một kịch bản phân nhóm có ràng buộc đặc biệt, nơi siêu thông tin (chẳng hạn như nhãn lớp) đã được sử dụng trong quá trình nhóm, việc giữ lại tất cả thông tin cho mục đích đánh giá là điều không hề nhỏ.

Giờ thì đã rõ điều gì không áp dụng cho các phương pháp phân cụm và những mô hình nào được sử dụng cho những mục đích này.

Đề xuất: