Mẫu 1

14/2014/TT-BKHCN

Đại học Quốc gia TP Hồ Chí Minh
Trường Đại học Bách khoa

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------


.....,ngày .... tháng .... năm....

 

PHIẾU THÔNG TIN

NHIỆM VỤ KHOA HỌC VÀ CÔNG NGHỆ ĐANG TIẾN HÀNH SỬ DỤNG NGÂN SÁCH NHÀ NƯỚC

1

Tên nhiệm vụ: Ứng dụng trí tuệ nhân tạo trong tự động chuyển đổi văn bản chữ viết tiếng Việt sang phát thanh tiếng Bana Kriem

2

3

4

Mã số nhiệm vụ (nếu có): 02-02-2020

5

Tên tổ chức chủ trì: Trường Đại học Bách khoa

Họ và tên thủ trưởng:
Địa chỉ: Tỉnh/thành phố:
Điện thoại: Fax:
Website:

6

Cơ quan chủ quản: Đại học Quốc gia TP Hồ Chí Minh

7

Chủ nhiệm nhiệm vụ: Phạm Trần Vũ

Họ và tên: Giới tính:
Trình độ học vấn: Chức danh khoa học:
Chức vụ:
Điện thoại: Fax:
Email:

8

Danh sách cá nhân tham gia nhiệm vụ: Phạm Trần Vũ; Võ Gia Nghĩa; Nguyễn Đức Dũng; Quản Thành Thơ; Lê Thanh Vân; Lưu Đình Hiệp; Bùi Huy Phúc; Trần Quang Ánh; Trần Ngọc Bảo Duy

9

Mục tiêu nghiên cứu:

10

Tóm tắt nội dung nghiên cứu chính: Nội dung 1: Thu thập, xử lý và lưu trữ dữ liệu mẫu phục vụ cho hoạt động nghiên cứu.
- Xây dựng báo cáo chuyên đề: Báo cáo quá trình và kết quả thu thập dữ liệu, chất lượng lượng dữ liệu.
Nội dung 2: Xây dựng bộ ngữ liệu tiếng Việt - Bana Kriem gồm những từ vựng và cụm từ vựng phổ thông để hỗ trợ cho quá trình dịch tự động.
- Xây dựng báo cáo chuyên đề: Báo cáo kết quả việc xây dựng ngữ liệu Việt - Bana Kriem.
Nội dung 3: Nghiên cứu và xây dựng giải pháp chuyển đổi văn bản tiếng Việt dạng ảnh từ file PDF sang dạng số hoá (có thể lưu trữ và xử lý).
- Xây dựng báo cáo chuyên đề: Báo cáo giải pháp chuyển đổi văn bản tiếng Việt từ PDF sang dạng số.
Nội dung 4: Nghiên cứu và xây dựng giải pháp dịch tự động từ văn bản số tiếng Việt sang văn bản tiếng Bana Kriem, sử dụng các phương pháp học sâu.
- Xây dựng báo cáo chuyên đề: Báo các giải pháp dịch tự động từ tiếng Việt sang Bana Kriem.
Nội dung 5: Nghiên cứu và xây dựng giải pháp phát âm tự động tiếng Bana Kriem từ văn bản số tiếng Bana Kriem sử dụng các phương pháp học máy.
- Xây dựng báo cáo chuyên đề: Báo cáo giải pháp phát âm tự động tiếng Bana Kriem từ văn bản.
Nội dung 6: Xây dựng phần mềm dùng cho việc huấn luyện các môn hình học máy và hệ thống phần mềm Web cho người sử dụng đầu cuối.
Nội dung 7: Triển khai vận hành, thử nghiệm, hiệu chỉnh và đánh giá hệ thống.
- Xây dựng báo cáo chuyên đề: Báo cáo quá trình thử nghiệm và đánh giá hệ thống.

11

Lĩnh vực nghiên cứu: Khoa học kỹ thuật và công nghệ

12

Mục tiêu kinh tế xã hội của nhiệm vụ:

13

Phương pháp nghiên cứu: Nội dung 1: Dữ liệu cần thu thập gồm 3 nhóm: dữ liệu văn bản tiếng Việt, bản dịch tương ứng tiếng Bana Kriem, và bản phát âm tiếng Bana Kriem. Vì vậy, để thu thập đúng loại dữ liệu và đáp ứng được yêu cầu đề tài, dữ liệu cần thu thập liên quan trực tiếp đến cộng đồng Bana Kriem:
- Các văn bản tiếng Việt dùng cho việc truyền tải thông tin đến cộng đồng Bana (1000 văn bản)
- Bản dịch tiếng Việt sang tiếng Bana phải do chuyên gia về tiếng Bana thực hiện (1000 văn bản)
- Phát âm tiếng Bana phải do người Bana thực hiện, và được ghi âm để lưu trữ (40 giờ ghi âm).
Nội dung 2: Bộ từ điển tiếng Bana được xây dựng dựa vào tập văn bản thu thập được ở nội dung 1. Việc lọc và tách từ sẽ do máy tính thực hiện. Tuy nhiên, việc dịch nghĩa từ tiếng Việt sang tiếng Bana sẽ do chuyên gia ngôn ngữ Bana thực hiện.
Nội dung 3: Đối với bài toán nhận dạng hình ảnh, từ PDF sang dạng số hoá, các phương pháp học sâu và thị giác máy tính sẽ được áp dụng.
Nội dung 4: Đối với bài toán dịch ngôn ngữ, chúng tôi sử dụng các mô hình học máy dạng seq2seq với dữ liệu huấn luyện phù hợp.
Nội dung 5: Đối với bài toán tổng hợp tiếng nói, chúng tôi sử dụng các mô hình học sâu tổng hợp tiếng nói, kết hợp với các giải thuật tiền và hậu xử lý.
Chúng tôi phát triển một mô hình ngôn ngữ tiếng Bana bằng học sâu để giúp nâng cao hiệu suất cho cả ba công việc trên.
Nội dung 6: Các phương pháp phát triển phần mềm sẽ được vận dụng cho hai nội dung này. Việc tính toán độ phức tạp của phần mềm sẽ được xây dựng dựa trên Công văn hướng dẫn 2589 của Bộ Thông tin và Truyền thông.
Nội dung 7: Việc đánh giá thử nghiệm sẽ được thực hiện trong môi trường thử nghiệm thực tế, bằng việc chuyển các văn bản tiếng Việt sang tiếng Bana, cho người sử dụng là cộng đồng người Bana, dưới sự giám sát của các chuyên gia về tiếng Bana.

14

Sản phẩm khoa học và công nghệ dự kiến:

1. Sản phẩm dạng II:
- Báo cáo tổng kết và Báo cáo tóm tắt.
- Hệ thống phần mềm dùng cho việc huấn luyện các môn hình học máy và hệ thống phần mềm Web cho người sử dụng đầu cuối.
- Các báo cáo chuyên đề:
+ Báo cáo quá trình và kết quả thu thập dữ liệu, chất lượng lượng dữ liệu.
+ Báo cáo kết quả việc xây dựng ngữ liệu Việt - Bana Kriem.
+ Báo cáo giải pháp chuyển đổi văn bản tiếng Việt từ PDF sang dạng số.
+ Báo các giải pháp dịch tự động từ tiếng Việt sang Bana Kriem.
+ Báo cáo giải pháp phát âm tự động tiếng Bana Kriem từ văn bản.
+ Báo cáo quá trình thử nghiệm và đánh giá hệ thống
2. Sản phẩm dạng III:
- Hai bài báo khoa học về kết quả nghiên cứu của đề tài.
- Tài liệu hướng dẫn sử dụng hệ thống phần mềm phần mềm dùng cho việc huấn luyện các môn hình học máy và hệ thống phần mềm Web cho người sử dụng đầu cuối.

15

Địa chỉ và quy mô ứng dụng dự kiến: - Các đài phát thanh tại các xã trên địa bàn tỉnh Bình Định - Công tác dân vận, công tác dân tộc - Ban dân tộc tỉnh Bình Định - UBND huyện Vĩnh Thạnh

16

Thời gian thực hiện: 24 tháng (từ 01/11/2020 đến 01/11/2022)

17

Kinh phí được phê duyệt: 838.63 triệu đồng
trong đó:

- Từ ngân sách nhà nước: 838.63 triệu đồng
- Từ nguồn tự có của tổ chức: 0
- Từ nguồn khác: 0

18

Quyết định phê duyệt: số 4393/QĐ-UBND ngày 26 tháng Tháng 10 năm 2020

19

Hợp đồng thực hiện: số ngày 01 tháng Tháng 1 năm 1970

XÁC NHÂN CỦA ĐƠN VỊ QUẢN LY NHIỆM VỤ
(Thủ trưởng ký, ghi rõ họ tên và đóng dấu)

NGƯỜI GHI THÔNG TIN
(Ký và ghi rõ họ tên)