Інструменти для оптичного розпізнавання символів із зображення в слово: 7 найкращих у 2023 році

  • Jul 19, 2023

Це не дивно, що ви можете отримати електронною поштою документ, надісланий вам у зображення або, можливо, як файл PDF, і вам потрібно мати можливість редагувати або мати текст у редагованому вигляді форму. Іноді вам може знадобитися відсканувати деякі документи за допомогою сканера, і потрібно мати можливість редагувати їх у текстовому процесорі.

Редагування зображення або безпосередньо відсканованого файлу неможливо само по собі, і якщо у вас немає вільного часу, ви не захочете вводити все самостійно. Те, що вам потрібно, це те, що вже давно існує під назвою оптичне розпізнавання символів (OCR), яке перетворює текст на зображеннях у текст, який можна редагувати. Одними з найкращих програмних пакетів OCR є Omnipage і FineReader, але вони коштують великих грошей. Ось добірка переважно безкоштовних способів перетворити ваш текст у форму, яку можна редагувати.

1. FreeOCR
БЕЗКОШТОВНО FreeOCR.net

FreeOCR — це програма оптичного розпізнавання тексту на основі механізму Tesseract з відкритим кодом, який підтримується Google і вважається дуже точним. Він може приймати вхідні дані безпосередньо зі сканера, PDF-файлу та кількох різних типів форматів зображень, включаючи багатосторінкові файли TIFF, одночасно підтримуючи конвертацію за допомогою 11 різних мов. Ви також можете вибрати певні частини вхідного документа для перетворення, що корисно для кількох блоків або стовпців тексту, а вихідні дані можна експортувати безпосередньо в Word або у форматі форматованого тексту.

Будьте уважні під час встановлення, оскільки програма використовує Install Manager, щоб запропонувати вам кілька біт рекламного ПЗ. FreeOCR працює на Windows XP до Windows 8, для користувачів XP потрібна інсталяція .NET Framework v2. FreeOCR також дозволено використовувати для комерційного та особистого використання.

Завантажте FreeOCR


2. SimpleOCR

SimpleOCR

Програмне забезпечення SimpleOCR є безкоштовним для особистого, освітнього та комерційного використання та приймає дані зі сканера, JPG, BMP та багатосторінкових зображень TIFF. Отриманий текст можна зберегти як стандартний текстовий файл або документ Word. Після інсталяції, коли ви запускаєте SimpleOCR вперше, переконайтеся, що ви вибрали верхню опцію «Машинний друк», яка є безкоштовною, нижня опція — це 14-денна демонстрація розширенішого програмного забезпечення. Потім виберіть одну з 4 мов для свого профілю та натисніть «Вибрати».

Кілька сторінок можна додати, натиснувши кнопку «Додати сторінку», і конвертувати їх за допомогою «Перетворити на текст». Після завершення розпізнавання символів у нижньому вікні відобразиться отриманий текст із кольоровими словами, щоб повідомити про потенційні проблеми з орфографією. Синій – підозрілі слова, червоний – слова, яких немає в словнику програми тощо, і кожне з цих слів можна перевірити за допомогою спадного списку запропонованих альтернатив.

Завантажте SimpleOCR


3. i2OCR

i2OCR

i2OCR — це безкоштовний і необмежений онлайн-сервіс перетворення OCR від Sciweavers.org, який приймає вхід із зображень у форматах TIF, JPG, PNG, BMP, GIF, PBM, PGM і PPM. Існує підтримка 33 мов, і хоча максимальний розмір файлу обмежено 10 Мб, його має бути достатньо для загального використання.

Користуватися досить просто, просто виберіть кнопку для пошуку файлу на своєму комп’ютері або параметр URL-адреси може отримати файл безпосередньо з онлайн-розташування, наприклад Dropbox тощо. Виберіть свою мову зі спадного меню та натисніть велику кнопку, щоб конвертувати файл. Під час тестування час конвертації становив лише кілька секунд. Здається, точність перетворення чудова, хоча це лише звичайний текст, який відображатиметься поряд з оригіналом зображення внизу у вікні, яке потім можна клацнути, щоб виділити та скопіювати в документ або зберегти безпосередньо як Word .DOC файл. Sciweavers також має кілька інших корисних інструментів для перетворення форматів, зокрема конвертація файлів у PDF.

Відвідайте i2OCR


4. Онлайн OCR

Онлайн OCR

Free Online OCR має безкоштовну та платну послуги, безкоштовна дає змогу конвертувати до 15 сторінок на годину. Це включає завантаження документів JPG, BMP, TIF, PNG, PCX, GIF і багатосторінкових PDF-документів для обробки на 1 із 32 розпізнаних мов розміром до 4 МБ кожна. Результатом може бути документ Word (DOC), електронна таблиця Excel (XLS) або звичайний текстовий файл (TXT).

Виберіть локальний файл для завантаження, натисніть кнопку «Завантажити», введіть пронумеровану кодову перевірку та встановіть необхідну мову та формат виводу. Потім клацніть «Розпізнати» та зачекайте кілька секунд, доки відбудеться перетворення. Отриманий текст з’явиться під ним разом із кнопкою для завантаження його як вибраного формату файлу.

Відвідайте Online OCR


5. Безкоштовне розпізнавання символів онлайн

Безкоштовне розпізнавання символів онлайн

Цей онлайн-сервіс підтримує завантаження найпопулярніших форматів зображень JPG, GIF, BMP, PNG, TIFF, а також підтримує оптичне перетворення PDF-документів. Після перетворення отриманий текст також можна виводити в кілька різних форматів Word DOC, Richtext RTF, звичайний TXT, а також багатошаровий документ PDF. Програма також робить усе можливе, щоб макет тексту та форматування були якомога ближчими до оригінальної копії.

Щоб скористатися послугою, просто виберіть файл для завантаження та виберіть формат, у якому його потрібно зберегти, а потім натисніть кнопку. Ви отримуєте гарний індикатор прогресу, на який можна дивитися під час перетворення, а після його завершення з’явиться кнопка завантаження. Здавалося, що безкоштовне онлайн-оптичне розпізнавання символів працювало досить добре та в більшості випадків зберігало розмір шрифту та форматування. Послуга безкоштовна для використання, але немає жодної згадки про розмір файлу чи обмеження на використання, що незначно збиває з пантелику, оскільки ми не знаємо, чи воно справді необмежене, чи вони просто не згадали, які це обмеження є…

Відвідайте безкоштовний онлайн OCR


6. NewOCR

NewOCR

Цей безкоштовний онлайн-сервіс оптичного розпізнавання тексту, безперечно, має велику підтримку форматів введення. Існує 9 поширених форматів зображень, підтримка зображень у архівах Zip, багатосторінкових документів, таких як PDF, TIFF і DjVu, а також файлів DOCX і ODT. Список вихідних даних менший, але все ще корисний із доступним збереженням файлів TXT, DOC і PDF. Розпізнавання виконується механізмами Tesseract і Cuneiform і може розпізнавати загалом 58 мов, а також текст у кілька стовпців, а також зображення нижчої якості.

Щоб використовувати NewOCR, просто виберіть свій локальний файл або файл безпосередньо з URL-адреси, виберіть мову розпізнавання та натисніть кнопку «Попередній перегляд». Це завантажить сторінку попереднього перегляду, а під нею відобразиться перетворений OCR текст. Якщо ви не бачите текст, натисніть синю кнопку OCR. Текст можна експортувати різними способами, включаючи стандартне завантаження в один із 3 форматів файлів, копіювання в буфер обміну, завантажуючи його через перекладачі Google або Bing, вставляючи онлайн у Pastebin або Pastie і навіть надсилаючи безпосередньо до Документи Google. NewOCR має необмежену кількість завантажень і не потребує реєстрації.

Відвідайте NewOCR


7. Microsoft Office Document Imaging

Microsoft Office Document Imaging

Як ми знаємо, Microsoft Office не є безкоштовним продуктом, але велика кількість користувачів, ймовірно, матиме якусь його версію. Інструмент Office Document Imaging може виконувати оптичне розпізнавання тексту в документі, і результати дуже хороші, але, на жаль, він доступний не у всіх версіях Office. У Office 2003 він має бути включений у вашу інсталяцію за замовчуванням, користувачам Office 2007 доведеться додавати його вручну за допомогою параметра додавання компонентів, і його навіть немає в Office 2010 за замовчуванням. Інструкції, як додати MODI до Office 2010 можна знайти на Microsoft.com.

Параметр Microsoft Office Document Imaging можна знайти в меню «Пуск» -> Програми -> Microsoft Office -> Інструменти Microsoft Office. Він розпізнає лише зображення TIFF як джерело вхідних даних, тому вам, ймовірно, доведеться конвертувати документи заздалегідь. Відкрийте файл і натисніть значок ока на панелі інструментів під назвою «Розпізнати текст за допомогою OCR». Потім натисніть кнопку праворуч, щоб надіслати текст прямо в Word.

Примітка редактора:OCROnline була перевірена ще одна безкоштовна служба, але ви маєте лише 5 безкоштовних переходів на одну сторінку на тиждень, що є надто обмеженим, і вам також потрібно створити обліковий запис. Хоча якість перетворення дуже добра, якщо вам час від часу потрібна лише непарна сторінка.

Google Docs також має можливість конвертувати PDF-файли та зображення в документи за допомогою OCR. Перейдіть на свій Google Диск і натисніть «Параметри» -> «Налаштування завантаження» -> «Конвертувати текст із завантажених PDF-файлів і файлів зображень», а також виберіть опцію підтвердження. Після цього вас запитають, чи бажаєте ви розпізнати зображення або PDF-файл під час завантаження файлу на Диск Google.

Не розголошуйте мою особисту інформацію.