Lọc theo danh mục
  • Năm xuất bản
    Xem thêm
  • Lĩnh vực
liên kết website
Lượt truy cập
 Lượt truy cập :  15,233,612

Khoa học kỹ thuật và công nghệ

BB

Đỗ Viết Đức, Mai Đình Sinh, Ngô Thành Long; Mai Đình Sinh(1)

TIẾP CẬN PHÂN CỤM C-MEANS MỜ KHẢ NĂNG CỘNG TÁC CHO PHÂN TÍCH DỮ LIỆU NHIỀU CHIỀU

A COLLABORATIVE POSSIBILISTIC FUZZY C-MEANS CLUSTERING APPROACH FOR MULTI-DIMENSIONAL DATA ANALYSIS

Journal of Science and Technique: Section on Information and Communication Technology

2024

2

65

Sự phát triển nhanh chóng của các công nghệ thu thập dữ liệu đã dẫn đến sự bùng nổ các nguồn dữ liệu. Nhiều kỹ thuật và phương pháp khai phá dữ liệu truyền thống đã trở nên lỗi thời và không còn phù hợp để giải quyết các vấn đề dữ liệu lớn, dữ liệu nhiều chiều. Bài báo này đề xuất cải thiện thuật toán phân cụm mờ khả năng cộng tác để phân tích dữ liệu nhiều chiều bằng cách sử dụng kỹ thuật giảm chiều dựa trên phép chiếu ngẫu nhiên (CPFCM-FR). Kỹ thuật này cho phép bảo toàn khoảng cách tương đối sau khi giảm chiều, có thể giúp giảm độ phức tạp tính toán trong khi vẫn đảm bảo độ chính xác của thuật toán được đề xuất so với thuật toán trước khi giảm chiều. Thuật toán đề xuất triển khai trên mô hình phân cụm cộng tác có thể giúp chia sẻ thông tin về cấu trúc cụm tại các vị trí dữ liệu khác nhau (data site) trong quá trình tính toán. Mô hình cộng tác cho phép giải quyết các vấn đề khi dữ liệunằm phân tán trên các máy tính khác nhau trong hệ thống mạng. Các thực nghiệm được thực hiện trên hai tập dữ liệu nhiều chiều được tải xuống từ thư viện học máy UCI và dữ liệu ảnh viễn thám cho thấy phương pháp được đề xuất mang lại kết quả tốt hơn đáng kể so với một số phương pháp được đề xuất trước đây. Các kết quả thực nghiệm này cũng minh chứng cho tiềm năng phát triển các mô hình phân cụm cộng tác, kết hợp với các kỹ thuật giảm chiều, để giải quyết các vấn đề dữ liệu lớn, nhiều chiều, và phân tán.

The rapid development of data acquisition technologies has led to an explosion of data sources. Many traditional data mining techniques and methods have become outdated and are no longer suitable for solving large, high-dimensional data problems. The paper proposes improving the collaborative possibilistic fuzzy clustering algorithm for multi-dimensional data analysis using random projection feature reduction. The random projection feature reduction technique allows for the preservation of relative distances after dimensional reduction, which can help reduce computational complexity while still ensuring the accuracy of the proposed algorithm compared to the algorithm before dimensionality reduction. The proposed algorithm implemented on the collaborative clustering model can help share information about cluster structure at data sites during computation, allowing problems to be performed where data is located on different computers in a network. Experiments performed on two multidimensional datasets downloaded from the UCIMachine Learning Repository library and remote sensing image data show that the proposed method yields significantly better results than some previously proposed methods. These experimental results demonstrate the potential of developing collaborative clustering models, combined with dimensionality reduction techniques, to tackle high-dimensional and distributed large data problems.