Các nhiệm vụ khác
liên kết website
Lượt truy cập
 Lượt truy cập :  13079543
  • Kết quả thực hiện nhiệm vụ

102.01-2014.22

2019-53-778/KQNC

Phân tích ngôn ngữ tự nhiên và trích rút tri thức từ dữ liệu văn bản song ngữ ứng dụng cho dịch máy thống kê

Trường Đại học Công nghệ

Đại học Quốc gia Hà Nội

Quốc gia

PGS. TS. Lê Anh Cường

PGS. TS. Phạm Bảo Sơn, TS. Nguyễn Văn Vinh, PGS. TS. Huỳnh Văn Nam, TS. Lê Quang Hùng, ThS. Nguyễn Thị Xuân Hương, ThS. Hoàng Thị Ngọc Trang

Khoa học máy tính

01/03/2015

01/03/2019

2019

Hà Nội

11 tr. + Phụ lục

Phát triển các phương pháp hiệu quả để xây dựng các công cụ phân tích tiếng Việt cho các bài toán: xây dựng mô hình ngôn ngữ, phân tích cú pháp, xác định các loại cụm từ, phân tích quan điểm. Các công cụ có chất lượng tốt và khả năng xử lý dữ liệu với qui mô lớn. Các phương pháp mới cũng có thể được áp dụng để phân tích tiếng Anh và xây dựng các công cụ cho tiếng Anh. Phát triển các mô hình mới để khai phá tri thức song ngữ. Cải tiến các mô hình gióng hàng và ứng dụng cho bài toán dịch máy thống kê. Xây dựng hệ thống dịch máy thống kê cho cặp ngôn ngữ Anh – Việt. Các bài toán cơ bản cho phân tích tiếng Việt bao gồm: Tách từ (word segmentation) cho văn bản tiếng Việt; Gán nhãn từ loại (POS tagging) cho văn bản tiếng Việt. Dịch máy theo tiếp cận thống kê bào gồm: Các kĩ thuật làm trơn trong các mô hình gióng hàng IBM; Tích hợp thông tin ngôn ngữ học vào mô hình thống kê; Sử dụng kết quả học biểu diễn (ví dụ word2vec) trong mô hình dịch thống kê.

Xử lý dữ liệu; Dịch máy thống kê; Thông tin ngôn ngữ học

24 Lý Thường Kiệt, Hà Nội

16338