liên kết website
Lượt truy cập
 Lượt truy cập :  13079543
  • Kết quả thực hiện nhiệm vụ

Nhận dạng và sửa lỗi văn bản OCR sử dụng các mẫu ký tự sửa lỗi và thuật toán tối ưu

Trung tâm Phát triển Khoa học và Công nghệ Trẻ

UBND TP. Hồ Chí Minh

Tỉnh/ Thành phố

ThS. Phạm Toàn Định

Lê Thị Kim Ngọc; Lê Đức Anh; Nguyễn Quốc Dũng; Phan Nguyệt Minh; Huỳnh Nhật Triều

Khoa học máy tính

01/12/2020

01/11/2021

2021

TP. Hồ Chí Minh

49 tr.

Xây dựng các tập dữ liệu training và test tiêu chuẩn, trong đó dữ liệu training cần được thực hiện sắp xếp canh hàng theo mức từ và mức ký tự giữa các văn bản OCR (chứa các từ lỗi OCR) và các văn bản gốc đúng (ground truth - GT) tương ứng. Xây dựng các bảng sửa lỗi ký tự từ các tập dữ liệu training. Các bảng sửa lỗi được tạo ra bằng cách tìm trong các văn bản gốc đúng các mẫu ký tự sửa lỗi cho các mẫu ký tự sai được tìm thấy trong các văn bản OCR bị lỗi tương ứng. Đồng thời, thiết kế và viết chương trình tạo các bảng sửa lỗi ký tự. Đề xuất và xây dựng mô hình hậu xử lý văn bản OCR bao gồm các giai đoạn: tách từ (tokenization), phát hiện từ lỗi OCR (error detection), tạo từ sửa lỗi (candidate generation) và tính điểm và xếp hạng từ sửa lỗi (candidate scoring and ranking). Đồng thời, thiết kế và viết chương trình cho các giai đoạn xử lý trong mô hình hậu xử lý văn bản OCR đề xuất. Đề xuất các mô hình ngôn ngữ n-gram trong việc tìm từ lỗi OCR; bên cạnh đó, đề xuất thuật toán tối ưu trong việc tìm từ sửa lỗi, cũng như nâng cao chất lượng các từ sửa lỗi và xếp hạng các từ sửa lỗi một cách hiệu quả. Đồng thời, thiết kế và viết chương trình cho các thuật toán và mô hình này.

Sửa lỗi văn bản; Nhận dạng ký tự quang học (OCR); Thuật toán tối ưu;

24 Lý Thường Kiệt, Hà Nội

HCM-151-2023