Program OCR? Ułatwia i zdecydowanie przyspiesza pracę. Sprawdź, co powinieneś o nim wiedzieć

Antoni Kwapisz
08.09.2020

Czym jest dokładnie OCR? Jeśli jeszcze nie wiesz, co to jest OCR, spieszymy wyjaśnić - to program do odczytywania tekstu ze zdjęć i skanów. Jeśli zatem masz zdjęcie lub skan tekstu, a chcesz aby ów tekst został przeniesiony do komputera, masz do wyboru dwie opcje - tradycyjną, czyli ręczne wprowadzenie tekstu lub zaawansowaną, czyli skorzystanie z oprogramowania OCR. Co warto wiedzieć na temat tego rozwiązania i dla kogo będzie ono niezastąpione w pracy? O tym w poniższym artykule

Skrót OCR pochodzi od angielskiego Optic Character Recognition, co tłumaczymy jako optyczne rozpoznawania znaków. To zaawansowana technologia pozwalająca na wyodrębnienie tekstu z obrazu strony. Zatem program OCR rozpoznaje tekst na obrazie (zdjęciu, skanie) i przetwarza go na odpowiednie znaki - czytelne dla komputera. 

Początki technologii OCR datowane są na rok 1913, kiedy to powstał Optofon - urządzenie będące rodzajem ręcznego skanera zaprojektowane z myślą o osobach niewidomych. Optofon przesuwany nad tekstem rozpoznawał litery i przekształcał je w dźwięki. Z kolei technologia OCR jaką znamy dzisiaj to zasługa wynalazcy i wizjonera Raya Kurzweila, który w latach 70 skonstruował urządzenie przekształcające skanowany tekst na mowę.

Dzisiejsze oprogramowanie OCR stanowi wysoko zaawansowaną technologię zaliczaną do rozwiązań z zakresu sztucznej inteligencji. OCR nie tylko rozpoznaje pojedyncze znaki i całe teksty w pliku graficznym, ale także ustala i identyfikuje, gdzie na stronie znajduje się tekst, a gdzie inne elementy, jak zdjęcia, tabele, czy grafiki. Co jednak istotne, program OCR analizuje obraz w sposób nie pozwalający powiązać następujących po sobie obrazów (stron) w jedną, logiczną całość. Stąd tez analiza i odczytywanie tekstu odbywa się w ramach pojedynczych stron, które dopiero na końcu są ze sobą łączone.

Jak to działa?

Wrzucasz do komputera zdjęcie lub skan i wiesz, że urządzenie odczyta je zapewne w formacie JPG, po prostu jako zbiór pixeli, bez względu na to, czy będzie to ilustracja, czy tekst. Zadaniem programu OCR jest natomiast zamiana zdjęcia lub skanu tekstu na plik zrozumiały dla komputera i pozwalający na przekształcenie go np. w plik TXT lub DOC. Jak przebiega proces rozpoznawania tekstu?

  • Pierwszy etap to dostarczenie tekstu. Najczęściej jest to skan strony czasopisma, książki, czy po prostu napisanego tekstu, który chcemy przekształcić do formy cyfrowej.
  • Program OCR przetwarza i analizuje obraz rozpoznając tekst oraz inne elementy grafiki, a także puste pola.
  • Zlokalizowane obszary tekstowe dzielone są na akapity, te z kolei na zdania i pojedyncze słowa oraz litery. Jeśli inne elementy strony zawierają słowa, np. tabele / wykresy, te także są identyfikowane i odpowiednio dzielone.
  • Kolejny etap to tzw. właściwe rozpoznawanie znaków we fragmentach tekstu i tabelach (np. litery B od cyfry 8, czy też litery O od cyfry 0). Etap ten dzieli się na fazę rozpoznawania wzorów oraz rozpoznawania cech.
  • Rozpoznawanie wzorów następuje przy wykorzystaniu biblioteki programu zawierającej różne kroje pisma. W rozpoznawaniu cech wykorzystuje się natomiast metody rozpoznawania rastra, rozpoznawania cech i klasyfikacji struktur. Dzięki temu program może jednoznacznie identyfikować każdy znak bez względu na czcionkę, jej wielkość, czy krój pisma.
  • W przedostatnim etapie OCR buduje tekst, jako całość korzystając z wcześniej rozpoznanych znaków, a także z wbudowanego w oprogramowanie słownika i reguł gramatycznych.
  • Na końcu OCR zapisuje tekst w postaci pliku tekstowego, pliku sformatowanego, czy PDF.

Komu OCR przyda się najbardziej?

Jeśli dla realizacji Twoich obowiązków zawodowych potrzebna jest edycja tekstów PDF lub jeśli na co dzień masz do czynienia z dużą ilością dokumentów pisanych odręcznie, a które chcesz lub potrzebujesz przekształcić do postaci cyfrowej - oprogramowanie OCR zdecydowanie usprawni Twoją pracę. Największą grupę użytkowników programu stanowią osoby odpowiedzialne za dygitalizację dokumentów, czy to w jednostkach publicznych, czy też w prywatnych przedsiębiorstwach, a także

  • urzędnicy,
  • notariusze,
  • archiwiści,
  • czy księgowi.

Oprogramowanie zdaje egzamin w urzędach statystycznych, bibliotekach i archiwach, także jako rozwiązanie uzupełniające np. w pracy architektów. Jednak jak się okazuje z zastosowaniem OCR możemy spotkać się również na co dzień przeglądając strony internetowe. ReCAPTCHA wykorzystywana do zabezpieczania zawartości niektórych stron, stosowana jest powszechnie jako rozwiązanie wspomagające systemy OCR. Wyświetlane dla użytkowników znaki są dla nich rozpoznawalne, jednak nie dla systemów. Ale poprawna trzykrotna weryfikacja ciągu znaków w formularzu (dla rozpoznania czy formularz rejestracyjny bądź komentarz wypełnia człowiek, a nie robot) przez użytkownika uznawana jest za prawidłową i wykorzystywana dalej np. podczas dygitalizacji zbiorów biblioteki. Stąd też nieświadomie większość z nas współpracuje przy udoskonalaniu oprogramowania OCR.

Artykuł partnera.

Zgłoś swój pomysł na artykuł

Więcej w tym dziale Zobacz wszystkie