Optyczne rozpoznawanie znaków

Z Wikipedii, wolnej encyklopedii
(Przekierowano z OCR)
Przejdź do nawigacji Przejdź do wyszukiwania

Optyczne rozpoznawanie znaków, OCR (ang. optical character recognition) – zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym o postaci rastrowej. Zadaniem OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie (na przykład papierowym formularzu lub stronie książki).

Szumami nazywamy pojawiające się na zdjęciu plamki na obszarach jednolitego koloru. Są one efektem bądź to ustawienia w aparacie zbyt dużej czułości ISO, bądź zbyt małego lub niedokładnie wykonanego fotosensora w aparacie, którym zdjęcie wykonano.CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) – rodzaj techniki stosowanej jako zabezpieczenie na stronach www, celem której jest dopuszczenie do przesłania danych tylko wypełnionych przez człowieka.

Niegdyś termin oznaczał samo rozpoznawanie ciągów znaków, głównie drukowanych, które są łatwiejsze do rozpoznania, dziś również pisma odręcznego oraz cech formatowania, jak krój pisma, stopień pisma, interlinia (techniki służące do tego typu zaawansowanego rozpoznawania nazywane są terminem ICR), a nawet układów tabelarycznych.

Krój pisma to charakterystyczny obraz kompletu znaków pisma o jednolitych podstawowych cechach graficznych: stylu, rytmie, proporcji, dukcie, układzie lub kształcie szeryfów, właściwościach optycznych (czytelności) itp. Może mieć wiele odmian, czasami nawet znacznie różniących się od kroju podstawowego, lecz nadal zachowujących w sposób konsekwentny podstawowe założenia graficzne danej rodziny krojów.Grafika rastrowa – prezentacja obrazu za pomocą pionowo-poziomej siatki odpowiednio kolorowanych pikseli na monitorze komputera, drukarce lub innym urządzeniu wyjściowym.

Techniki optycznego rozpoznawania znaków stosowane są, między innymi, przy digitalizacji zasobów bibliotek, a także jako ułatwienie przy odczytywaniu danych z formularzy wypełnianych pismem odręcznym. W obu przypadkach oprogramowanie OCR nie jest tak skuteczne jak człowiek, zatem w przypadkach wątpliwych (trudności z odczytaniem fragmentu) oraz w celu uniknięcia błędów nieodzowna jest weryfikacja wyniku OCR przez człowieka.

Plik danych, plik komputerowy, zwykle krótko plik – uporządkowany zbiór danych o skończonej długości, posiadający szereg atrybutów i stanowiący dla użytkownika systemu operacyjnego całość. Nazwa pliku nie jest jego częścią, lecz jest przechowywana w systemie plików.Segmentacja obrazu (ang. image segmentation) to proces podziału obrazu na części określane jako obszary (regiony), które są jednorodne (homogeniczne) pod względem pewnych wybranych własności. Obszarami są zbiory pikseli (punktów). Własnościami, które są często wybierane jako kryteria jednorodności obszarów są: poziom szarości, barwa, tekstura.

Nowoczesną metodą współpracy oprogramowania OCR z ludźmi jest technika reCAPTCHA. Nie wymaga ona zatrudniania osób specjalnie do weryfikacji OCR, lecz wykorzystuje rozproszoną aktywność milionów użytkowników Internetu, którzy wchodząc na strony internetowe zabezpieczone przez CAPTCHA rozpoznają fragmenty tekstu wymagające weryfikacji.

Library of Congress Control Number (LCCN) – numer nadawany elementom skatalogowanym przez Bibliotekę Kongresu wykorzystywany przez amerykańskie biblioteki do wyszukiwania rekordów bibliograficznych w bazach danych i zamawiania kart katalogowych w Bibliotece Kongresu lub u innych komercyjnych dostawców. Skaner – urządzenie służące do przebiegowego odczytywania: obrazu, kodu paskowego lub magnetycznego, fal radiowych itp. do formy elektronicznej (najczęściej cyfrowej). Skaner przeszukuje kolejne pasma informacji odczytując je lub rejestrując. Nie jest to więc zwykły czytnik, a czytnik krokowy (np. skaner obrazu nie rejestruje całego obrazu w jednej chwili jak aparat fotograficzny, a zamiast tego rejestruje kolejne linie obrazu - dlatego głowica czytająca skanera przesuwa się lub skanowane medium pod nią). Nazwa skanera jako czytnika przebiegowego, często przenoszona jest na czytniki nieprzebiegowe (np. elektroniczne).

Postęp w optycznym rozpoznawaniu znaków jest bardzo widoczny – drogie komercyjne oprogramowanie z lat 90. XX wieku wymagało dobrego skanu, najlepiej w językach zachodnioeuropejskich. W 2013 możliwe było rozpoznawanie mało dokładnych skanów, wykonanych telefonami komórkowymi z szumami na obrazkach, z tekstem napisanym pod nienaturalnymi kątami, w 120–186 językach (w zależności od programu).

Interlinia (światło międzywierszowe) – w DTP jedna z najważniejszych cech tekstu sformatowanego. Jest to odległość między sąsiednimi wierszami tekstu liczona jako odstęp pomiędzy dolną linią pisma w wierszu górnym i górną linią pisma w wierszu dolnym. W zecerstwie był to justunek długi w postaci wąskiej blaszki metalowej wkładanej pomiędzy wiersze tekstu złożone z czcionek lub wierszy linotypowych. Grubość takiej blaszki wynosiła od 1 do 4 punktów.Digitalizacja (ucyfrowienie) - w bibliotekarstwie i archiwistyce oznacza wprowadzenie do pamięci komputera tradycyjnych, drukowanych lub rękopiśmiennych materiałów bibliotecznych lub archiwalnych w postaci danych cyfrowych metodą skanowania. Powstający w wyniku skanowania plik graficzny ma postać bitmapy i nie stanowi użytecznej postaci dokumentu cyfrowego, ponieważ:

Zasada działania[ | edytuj kod]

Rozpoznawanie pisma jest możliwe dzięki zastosowaniu metod z dziedziny rozpoznawania wzorców (zaliczanej do sztucznej inteligencji). Oprogramowanie OCR wykorzystuje różne metody segmentacji obrazu, na przykład progowanie, aby wyodrębnić poszczególne znaki z obrazu, które następnie są najczęściej osobno klasyfikowane jako poszczególne litery. Zwykle w tym procesie wykorzystywane są sieci neuronowe. Zazwyczaj, by wyeliminować pomyłki, program sprawdza całość rozpoznanego tekstu lub poszczególne wyrazy pod kątem poprawności ortograficznej i gramatycznej danego języka.

Progowanie (ang. thresholding) – metoda uzyskiwania obrazu binarnego na podstawie obrazu kolorowego lub w odcieniach szarości. Polega na wyznaczeniu dla danego obrazu progu jasności. Następnie piksele jaśniejsze od wyznaczonego progu otrzymują jedną wartość, a ciemniejsze drugą. Częstym zastosowaniem progowania jest oddzielenie obiektów pierwszoplanowych od tła. Rozpoznawanie wzorców – pole badawcze w obrębie uczenia maszynowego. Może być definiowane jako działanie polegające na pobieraniu surowych danych i podejmowaniu dalszych czynności zależnych od kategorii do której należą te dane.

Zobacz też[ | edytuj kod]

 • rozpoznawanie pisma ręcznego
 • Przypisy[ | edytuj kod]

  1. Artykuł opisujący schemat działania reCAPTCHY. ocrwdokumentach.pl. [dostęp 2013-08-14].
  ICR (Intelligent Character Recognition) - zaawansowane techniki typu OCR służące do rozpoznawania różnych rodzajów pisma, włącznie z pismem odręcznym, a także jego właściwości, takich jak krój czcionki, interlinia, etc.Formatowanie tekstu – zmiana wyglądu i przekształcenie fragmentów tekstu w celu wyróżnienia, najczęściej w procesorze tekstu lub za pomocą języka znaczników (BBCode, HTML). Możemy wyróżnić formatowanie twarde (ręczne przypisanie cech) i miękkie (przypisanie stylu).
  Warto wiedzieć że... beta

  Grafika komputerowa – dziedzina informatyki zajmująca się wykorzystaniem technik komputerowych do celów wizualizacji artystycznej oraz wizualizacji rzeczywistości. Grafika komputerowa jest obecnie narzędziem powszechnie stosowanym w nauce, technice oraz rozrywce.
  Sieć neuronowa (sztuczna sieć neuronowa) – ogólna nazwa struktur matematycznych i ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie sygnałów poprzez rzędy elementów, zwanych sztucznymi neuronami, wykonujących pewną podstawową operację na swoim wejściu. Oryginalną inspiracją takiej struktury była budowa naturalnych neuronów, łączących je synaps, oraz układów nerwowych, w szczególności mózgu.
  Strona internetowa, strona WWW (ang. web page) – dokument HTML udostępniony w Internecie przez serwer WWW. Po stronie hosta użytkownika, strona WWW jest otwierana i wyświetlana za pomocą przeglądarki internetowej. Autorem pierwszych stron WWW jest Tim Berners-Lee.
  Kontrola autorytatywna – w terminologii bibliotekoznawczej określenie procedur zapewniających utrzymanie w sposób konsekwentny haseł (nazw, ujednoliconych tytułów, tytułów serii i haseł przedmiotowych) w katalogach bibliotecznych przez zastosowanie wykazu autorytatywnego zwanego kartoteką wzorcową.
  Sztuczna inteligencja (ang. Artificial Intelligence – AI) – nauka obejmująca zagadnienia logiki rozmytej, obliczeń ewolucyjnych, sieci neuronowych, sztucznego życia i robotyki. Sztuczna inteligencja to dział informatyki, którego przedmiotem jest badanie reguł rządzących inteligentnymi zachowaniami człowieka, tworzenie modeli formalnych tych zachowań i – w rezultacie – programów komputerowych symulujących te zachowania. Można ją też zdefiniować jako dział informatyki zajmujący się rozwiązywaniem problemów, które nie są efektywnie algorytmizowalne. Termin wymyślił John McCarthy.
  Oprogramowanie (ang. software) – całość informacji w postaci zestawu instrukcji, zaimplementowanych interfejsów i zintegrowanych danych przeznaczonych dla komputera do realizacji wyznaczonych celów. Celem oprogramowania jest przetwarzanie danych w określonym przez twórcę zakresie. Oprogramowanie to dział informatyki. Oprogramowanie jest synonimem terminów program komputerowy oraz aplikacja, przy czym stosuje się go zazwyczaj do określania większych programów oraz ich zbiorów.
  Gemeinsame Normdatei (GND) – kartoteka wzorcowa, stanowiąca element centralnego katalogu Niemieckiej Biblioteki Narodowej (DNB), utrzymywanego wspólnie przez niemieckie i austriackie sieci biblioteczne.

  Reklama