Trích xuất văn bản tiếng Việt từ ảnh mà không cần mạng với Image Reader (OCR)

Xuất văn bản tiếng Việt từ ảnh không cần mạng bằng Image Reader (OCR)

Image Reader (OCR)

Trong quá khứ, chúng ta đã giới thiệu nhiều công cụ trích xuất văn bản từ hình ảnh. Nhưng đáng tiếc, hầu hết chúng không hỗ trợ tiếng Việt, khiến văn bản trích xuất thường bị sai chính tả hoặc có lỗi ký tự, thật chán. Tuy nhiên, công cụ mang tên Image Reader (OCR), mà chúng tôi sẽ giới thiệu dưới đây, sẽ khắc phục nhược điểm trên và mang đến những ưu điểm tuyệt vời khác.

Image Reader (OCR) là gì?

Image Reader (OCR) là một tiện ích mở rộng hỗ trợ người dùng máy tính trích xuất văn bản từ hình ảnh, bao gồm cả tiếng Việt với độ chính xác cao. Ngoài ra, Image Reader (OCR) còn có cách sử dụng đơn giản, hoàn toàn miễn phí và đặc biệt là không cần kết nối internet.

Các tính năng nổi bật của Image Reader (OCR)

  • Sử dụng miễn phí và không có giới hạn
  • Hỗ trợ trên nhiều trình duyệt: Chrome, Cốc Cốc, EDGE Chromium, Opera, FireFox…
  • Hỗ trợ ngôn ngữ của 70 quốc gia, bao gồm tiếng Việt
  • Khả năng nhận diện văn bản chính xác thông qua 3 cấp độ tùy chỉnh
  • Hiển thị số ký tự, từ, dòng và đoạn trên văn bản đã trích xuất
  • Có thể sử dụng mà không cần kết nối mạng
  • Hoạt động trong một cửa sổ riêng biệt, không làm ảnh hưởng đến hiệu năng máy tính

Image Reader (OCR)

Hiện tại, Image Reader (OCR) chưa hỗ trợ trích xuất từ file PDF. Nếu bạn cần trích xuất văn bản từ định dạng này, bạn có thể sử dụng công cụ NewOCR.

Hướng dẫn trích xuất văn bản từ hình ảnh bằng Image Reader (OCR)

Bước 1: Sau khi cài đặt tiện ích Image Reader (OCR), bạn sẽ thấy biểu tượng của nó hiển thị ở góc trình duyệt. Nhấp vào biểu tượng để mở công cụ.

Bước 2: Trong giao diện của Image Reader, bạn có thể kéo thả hoặc nhấp vào biểu tượng dấu cộng để chọn hình ảnh cần trích xuất văn bản.

Hiện tại, công cụ chỉ cho phép chọn tối đa 1 hình ảnh.

Bước 3: Quá trình xử lý sẽ bắt đầu ngay lập tức. Đợi cho đến khi toàn bộ nội dung văn bản được quét và hiển thị trong ô bên dưới. Bạn có thể sao chép văn bản để sử dụng cho công việc của mình.

Tuy nhiên, bạn nên thiết lập lại 2 tùy chọn sau đây để Image Reader (OCR) có khả năng nhận diện văn bản chính xác hơn:

  • Mục phải: Mặc định là “Low”, tốc độ quét nhanh nhưng văn bản có thể có lỗi. Nếu bạn muốn chất lượng tuyệt đối, hãy chọn “Best”.
  • Mục trái: Mặc định là “English”, bạn nên chọn ngôn ngữ văn bản trong hình ảnh – ví dụ, tiếng Việt.

Image Reader (OCR)

Sau khi thay đổi, công cụ sẽ xử lý lại và hiển thị văn bản trích xuất mới. Bạn cũng có thể thấy thông tin về độ chính xác (dưới dạng phần trăm) và số lượng ký tự, từ, dòng và đoạn trên văn bản đã trích xuất. Thật hữu ích!

Theo đánh giá của tôi, dù vẫn còn trong giai đoạn hoàn thiện, Image Reader (OCR) đã hoạt động rất tốt, giúp chúng ta trích xuất văn bản từ bất kỳ đoạn hình ảnh nào một cách chính xác. Trong tương lai không xa, Image Reader (OCR) hứa hẹn sẽ thay thế các công cụ trích xuất văn bản tiếng Việt với những nhược điểm mà chúng ta đã biết từ trước đây.

Để biết thêm thông tin, vui lòng truy cập EZChiaSe.Com | Blog chia sẻ mọi thứ trên Internet.

Rate this post

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *