Визначення OCR

OCR - це абревіатура оптичного розпізнавання символів , вираз англійською мовою, яку можна перекласти як оптичне розпізнавання символів . Поняття використовується в інформатиці, щоб назвати процедуру, яка дозволяє оцифровувати текст за допомогою сканера .

OCR

Те, що робить OCR можливим, полягає в тому, що при передачі тексту через певний пристрій система розпізнає символи як частину алфавіту . Таким чином, відсканований документ можна редагувати за допомогою текстового процесора , оскільки він не зберігається як зображення.

Таким чином, OCR полегшує роботу, яку багато людей мають робити. Якщо хтось сканує книгу з наміром зробити резюме, завдяки розпізнаванню можна взаємодіяти з текстом, який сканується за допомогою такої програми, як Microsoft Word , вирізати, копіювати та вставляти будь-яке слово, щось неможливо, якщо такий процес розпізнавання не виконано, оскільки комп'ютер не може зрозуміти текст, який знаходиться на зображенні.

Крім очевидної переваги зберігання тексту як такого, а не як зображення, існує значна різниця у вазі: зображення може займати набагато більше місця на диску, ніж тексти, і це необхідно враховувати, якщо ви хочете мати книги все скановане. Звичайно, не у всіх випадках бажано, щоб комп'ютер виконував розпізнавання, особливо якщо немає наміру редагувати вміст.

Цікаво, що тільки одна програма може так сильно змінити ємність одного комп'ютера, але це те, що відбувається у всіх випадках: хоча сучасні процесори можуть бути дуже ефективними, особливо у поєднанні з пам'яттю і дисками останнього покоління, вони марні без правильних програм, тому одна й та сама машина може перейти від марності до надзвичайно просунутого програмного забезпечення .

Випадок OCR дуже особливий, оскільки він надає комп'ютеру навички, які є базовими для більшості людей: читання. Варто згадати, що це нелегке завдання для будь-кого з нас, хоча в нашому випадку ми зазвичай вчимося робити це з самого юного віку, тому ми отримуємо велику майстерність, навіть коли нам доводиться стикатися з каліграфією, яку важко зрозуміти.

Незважаючи на розвиток технологій , OCR все ще стикається з багатьма проблемами. Наприклад, отримання цифрової системи для розпізнавання рукописного тексту досить складно. Процес зазвичай стикається з проблемами для сегментації різних текстових одиниць. Те ж саме відбувається, коли слова здаються дуже близькими.

Інші помилки OCR можуть з'являтися, коли контраст між словами та фоном недостатньо. Припустимо, що текст, написаний чорними літерами, друкується на сірому аркуші: цілком імовірно, що процес OCR не може розрізняти букви і слова .

Не будемо забувати, що подібно до дії, яка, очевидно, така ж проста, як прогулянка по вулиці, потрібна серія додаткових дій для уникнення перешкод і захисту нашої цілісності, читання друкованого тексту є результатом декількох одночасних завдань розвідки, які ми виконуємо майже несвідомо, але вони беруть нас до роботи.

Якщо зіткнутися з текстом, наша власна система розпізнавання відповідає за пошук і розпізнавання назви, визначення абзаців, знаків пунктуації, пробілів між словами і абревіатурами, серед інших елементів, а також прагнення зрозуміти джерела занадто витончена або неохайна, а також для поповнення інформації в регіонах, які зазнали будь-якого типу зносу, наприклад, чорнильного плями або відсутнього аркуша паперу.

border=0

Пошук іншого визначення