liên kết website
Lượt truy cập
 Lượt truy cập :  13079543
  • Kết quả thực hiện nhiệm vụ

Khai phá luồng dữ liệu văn bản

Trường đại học Thủ Dầu Một

UBND Tỉnh Bình Dương

Cơ sở

TS. Võ Thị Hồng Thắm

Tiến sĩ Võ Thị Hồng Thắm (Chủ nhiệm nhiệm vụ), Nguyễn Minh Vũ (Thành viên), Võ Hắc Việt (Thành viên)

Khoa học tự nhiên

01/09/2021

01/09/2022

2022

Bình Dương

Mục đích của đề tài: Cải thiện hiệu quả phát hiện chủ đề bằng cách giải quyết các vấn đề như cấu trúc quan hệ đồng xuất hiện của từ, sự không rõ ràng của từ (từ đồng nghĩa), độ rời rạc và biểu diễn ẩn tuần tự trong văn bản bằng cách cải tiến biểu diễn tài liệu. Để thực hiện, chúng tôi áp dụng trích xuất các đồ thị con (GOW) phổ biến và mã hóa tài liệu bằng Gated Recurrent Unit (GRU). Nhờ lợi thế của mã hóa dựa trên GOW và GRU trong biểu diễn tài liệu, mô hình của chúng tôi có khả năng nâng cao độ chính xác phát hiện chủ đề từ các luồng văn bản. Để giải quyết một cách hiệu quả thách thức thay đổi chủ đề của dữ liệu đến liên tục trên luồng, chúng tôi sử dụng phương pháp tiếp cận dựa trên DPMM để gom cụm văn bản. Việc biểu diễn được mã hóa tuần tự ẩn và dựa trên GOW của tài liệu đạt được trong các bước trước đó sẽ được sử dụng để tích hợp với DPMM để xử lý suy diễn của mô hình nhằm khai thác các chủ đề ẩn từ luồng văn bản. Ngoài ra, trong quá trình suy diễn của mô hình, chúng tôi cũng triển khai cơ chế cập nhật thông tin cụm để hỗ trợ loại bỏ các chủ đề đã lỗi thời trong các lô tài liệu trước đó. Để chứng minh tính hiệu quả của phương pháp được đề xuất tốt hơn các phương pháp gom cụm luồng văn bản ngắn được công bố gần đây, chúng tôi thử nghiệm so sánh các mô hình với hai tập dữ liệu tiêu chuẩn gồm Twitter và Google Tin tức. Kết quả thực nghiệm cho thấy mô hình của chúng tôi đạt được độ chính xác cao hơn.

Khai phá; Dữ liệu; Văn bản

BDG-2022-064