Новини Технологии и концепции
бр. 1, 2012

Какво могат модерните OCR технологии

от , 21 януари 2012 0 523 прочитания,

Ако често работите с документи, неизбежно ще стигнете до въпроса „защо трябва повторно да се набира текст, след като някой нягога е направил това?“. Наистина е направо обидно да дублирате работа, която някой друг вече е свършил. Разбира се производителите на софтуер не можеха да останат равнодушни към тази толкова типична ситуация и така бяха създадени системите за оптично разпознаване на текст (OCR), чиито възможности стават все по-значителни

Софтуерните продукти, създаващи електронно копие на хартиения документ стават все по-търсени. По света и у нас те печелят доста потребители, в организации, където успешно е въведена система за документооборот и в компании, които са открили удобството на електронните архиви. OCR е основен елемент в концепцията за безхартиения офис - бизнес модел в който хартиеният носител е недопустим във вътрешно фирмения документооборот и се използва само при комуникации с външни фирми. OCR софтуера конвертира пристигащите документи в електронен формат и те стават достъпни за всички потребители.

През годините, сферата на приложение на OCR софтуера значително се разшири. Първоначално този тип програмни продукти се прилагаха предимно във финансови и банкови институции – автоматизираха се специфични задачи по въвеждане на данни от анкети и въпросници. Днес обаче, OCR програмите се прилагат масово за работа с всякакви документи и са сред най-необходимите софтуерни продукти и за офисния, и за домашния компютър. В тази статия ще се спрем на някои от най-популярните OCR системи и на техните особености.

Класификация

За да улесним по-нататъшното разглеждане нека споненем основните типове системи за оптично разпоснаване на текст, предлагани към момента. Това са т.нар. OCR системи (Optical character recognition, OCR) и ICR системи (Intelligent Character Recognition, ICR). Ако си позволим известно опростяване на разликите между тях, можем да приемем, че ICR системите са следващото поколение в развитието на OCR системите. В ICR много по-активно и сериозно се използват възможностите на изкуствения интелект – в частност, ICR системите често се използват за разпознаване на ръкописни текстове и декоративни шрифтове. Един ярък пример за възможностите на ICR е прилагането им за преодоляване на защитата от спам ботове, която осигуряват CAPTCHA тестовете. Типичен CAPTCHA тест е показването на разкривени букви, които потребителят трябва да въведе. Вече има обаче софтуер, базиран на ICR технологии, който разчита някои от по-ранните версии на CAPTCHA.

Трето, за сега още теоретично ниво в развитието на технологиите за разпознаване на текст е IWR (Intelligent word recognition) – при тези технологии се разчитат и разпознават не отделни символи, а цели свързани фрази.

Интелигентни системи за разпознаване на текст

В актуалното към момента направление ICR няколко програмни продукта се ползват с най-голяма популярност – това са FineReader, OmniPage Professional, Readiris Corporate, Type Reader.

>> ABBYY FineReader е продукт, който е познат на българските потребители. Компанията производител (ABBYY) е базирана в Москва, макар че има офиси и в 7 други страни, включително САЩ, UK, Украйна и т.н. Първата версия на FineReader излиза през 1993 г., а към момента в разпространение е версия 11. Софтуерът разпознава текст на около 190 езика, а освен това поддържа не само възстановяване на текста на изходния документ, а и възстановяване на неговата структура. Последното е особено полезно при работа с бизнес документи, когато е важна не само съдържателната част, но също така оформлението и композицията на документа. Едно от важните нововъведения във FineReader 11 са разширените възможности за предварителна обработка на подлежащите на конвертиране изображения с цел постигане на по-голяма прецизност. Специално за българските потребители известно предимство на FineReader, произтичащо от самия произход на продукта са отличните му възможности за работа с текстове на кирилица.

>> OmniPage е продукт на Nuance Communications (преди ScanSoft). Компанията е базирана в САЩ и има регионални офиси в 35 страни. OmniPage разпознава текстове на повече от 120 езика. Сред предимствата на продукта са възможностите му за разпознаване на снимки, получени направо от цифрови камери. OmniPage може да конвертира разпознавания текст във формати PDF, Microsoft Word и Excel, HTML. Текущата версия на продукта е 18.

>> Readiris е разработка на I.R.I.S. Group. Компанията е базирана в Белгия и има още 7 регионални офиси в други страни. Текущата версия на продукта - Readiris 12 осигурява конвертиране на хартиени документи, PDF файлове и изображения в текст, при съхраняване на изходното форматиране. Продуктът поддържа разпознаването на повече от 120 езика. Интересен факт е, че още от 2006 г. OCR/ICR технологията на I.R.I.S. е въведена в продуктите на Adobe – т.е. предпочетена е за да замени собствената OCR разработка на Adobe, която бе разпространявана години наред в рамките на пакета Aсrobat Capture.

>> TypeReader е продукт на американската компания ExperVision. Системата е разработена съвместно от ExperVision и Университетът Невада в Лас Вегас. Това решение се разпространява по света по много начини – например чрез интегриране в крупнии системи за управление на документи, участие на компанията в много от реализираните в САЩ програми за автоматична обработка на формуляри (Forms Processing Services, FPS) и т.н. Освен като традиционно приложение за настолна система TypeReader е достъпен и като корпоративна web услуга, и като облачно приложение “под наем”.

Безплатни OCR

Интересно решение за разпознаване на текст развива и Google. Tesseract бе комерсиален OCR продукт, създаден от Hewlett-Packard и развиван от компанията в периода 1985 и1995 г. След това обаче, HP закри този свой проект и пусна продукта като open source през 2005 г. Google започна собствена разработка на тази база и пусна свой продукт под свободен лиценз на Apache.

Към момента Tesseract има славата на един от най-точните и качествени безплатни продукти за разпознаване на текст. И все пак Tesseract е класическа OCR за обработка на текст – на входа на програмата се подава изображение в TIFF формат, а на изхода се получава текст. Не се провежда анализ за композицията на текста или стиловете на оформление. Осигурява се разпознаване в най-проста форма. Повече удобство при работа с Tesseract потребителите постигат като го комбинират с помощни програми от типа на OCRopus или OCRFeeder.


Още едно безплатно OCR решение е CuneiForm/OpenOCR. CuneiForm е разработка на Cognitive Technologies, която преди време бе пусната като OpenSource, а новият проект в рамките на който продуктът се развива се нарича OpenOCR. При разпознаването с CuneiForm се запазва структурата на документа и неговото форматиране. Осигурена е работата с текстове от матрични принтери, некачествени ксерокопия и факсове. Поддържа се разпознаване на повече от 20 езика – английски, немски, френски, руски, италиански, украински, шведски и др.

Освен споменатите безплатни решения се предлагат и множество алтернативни онлайн услуги, които също могат да се ползват без инвестиции – сред тях са например CVisionTech, OnlineOCR, FreeOCR, OCRTerminal, GoodOCR и др. Струва си да споменем и инициативата на Google в това направление. В началото на 2011 г. интернет гигантът добави към своите “облачни” услуги от фамилията Docs, функция за разпознаване на текстове на 29 езика. Всъщност, “онлайн – разпознавачката” на Google беше анонсирана още през юни 2010 г., но тогава възможностите и бяха сведени до основните за Европа и САЩ езици – английски, испански, италиански, немски, френски. Сега OCR услугата на Google вече се справя с руски, китайски и гръцки език, а също така с български, сръбски, украински, корейски, индонезийски, японски. Разпознаването на китайски текстове се ограничава до документи с опростения набор от йероглифи, приет сега в китайската страна. И все пак, при анонса на услугата програмистът от Google Джейрон Шефер писа в корпоративния блог, че “тя работи най-добре, когато разпознаваното изображение е с висока резолюция”.

Впрочем, след като разглеждаме възможностите за използване на OCR под формата на онлайн услуга, трябва да отбележим, че и комерсиалните пакети се предлагат по този начин. Например FineReader Online и има над 70 хил. потребители, но услугата се ползва платено.

В заключение

Факт е, че към момента по света се предлагат над 100 различни OCR продукти. В тази статия се спряхме на най-известните сред тях, както и на няколко безплатни решения, които заслужават внимание и все пак имат доста по-малко възможности от водещите комерсиални продукти. Несъмнено, за определен кръг от задачи, безплатните OCR пакети и онлайн услуги, биха били полезни. При по-крупни проекти, насочени към автоматизацията на голям обем документи и към оптимизацията на важни бизнес проекти ще бъде по-добре да заложите на комерсиалните системи от клас ICR.

ICON Facebook Tweet it! svejo.net dao.bg LinkedIn
Реклама

КОМЕНТАРИ

Трябва да сте регистриран потребител, за да коментирате статията
"Какво могат модерните OCR технологии"



    

Спонсорирани линкове
    © Ай Си Ти Медиа ЕООД 1997 - 2012 | Реклама | За нас |
    Действителни собственици на настоящото издание са Иво Георгиев Прокопиев и Теодор Иванов Захов