ĐịNh Nghĩa Tháng Mười

OCR là tên viết tắt của Nhận dạng ký tự quang học, một thành ngữ trong tiếng Anh có thể được dịch là Nhận dạng ký tự quang học . Khái niệm này được sử dụng trong khoa học máy tính để đặt tên cho một quy trình cho phép số hóa một văn bản thông qua một máy quét .

Trường hợp của OCR rất đặc biệt, vì nó mang lại cho máy tính một kỹ năng cơ bản đối với hầu hết con người: đọc sách. Điều đáng nói là nó không phải là một nhiệm vụ dễ dàng đối với cả hai chúng tôi, mặc dù trong trường hợp của chúng tôi, chúng tôi thường học cách làm nó từ khi còn rất nhỏ, đó là lý do tại sao chúng tôi có được một kỹ năng tuyệt vời, ngay cả khi chúng tôi phải đối mặt với một thư pháp khó hiểu.

Bất chấp sự tiến bộ của công nghệ, OCR vẫn gặp phải một số vấn đề. Lấy một hệ thống kỹ thuật số để nhận ra một văn bản viết tay, ví dụ, là khá khó khăn. Quá trình này thường gặp phải sự bất tiện để phân đoạn các đơn vị văn bản khác nhau. Điều tương tự xảy ra khi các từ xuất hiện rất gần nhau.

Các lỗi OCR khác có thể xuất hiện khi không có đủ độ tương phản giữa các từ và nền. Giả sử rằng một văn bản viết bằng chữ màu đen được in trên một tờ màu xám: có khả năng quá trình OCR không thể phân biệt các chữ cái và từ .

Chúng ta đừng quên rằng, giống như một hành động đơn giản như đi xuống phố đòi hỏi một loạt các hành động bổ sung để tránh chướng ngại vật và bảo vệ sự chính trực của chúng ta, việc đọc một văn bản in là kết quả của một số nhiệm vụ trinh sát đồng thời, mà chúng ta thực hiện gần như vô thức, nhưng họ đưa chúng ta làm việc.

Khi đối mặt với một văn bản, hệ thống OCR của chúng tôi chịu trách nhiệm tìm kiếm và nhận dạng tiêu đề, xác định các đoạn văn, dấu chấm câu, khoảng trắng giữa các từ và chữ viết tắt, trong số các yếu tố khác, cũng như cố gắng tìm hiểu các nguồn quá trang trí công phu hoặc không gọn gàng và để hoàn thành thông tin trong các khu vực đã chịu bất kỳ loại hao mòn nào, chẳng hạn như vết mực hoặc một mảnh giấy bị thiếu.

Đề XuấT