W biurowej rzeczywistości żyjemy szybko, pracujemy dużo i nieraz marzymy o pomocnej dłoni. Jej cyfrową formą może być technologia optycznego rozpoznawania znaków (OCR) stosowana w oprogramowaniu ABBYY FineReader PDF 15, która pozwala przenieść codzienną pracę z dokumentami na bardziej efektywny poziom.
Technologia OCR może zrobić znacznie więcej niż tylko digitalizować stare dokumenty, umożliwia bowiem przekształcenie pracy z wieloma plikami PDF w prawdziwie cyfrowy sposób.
Dlaczego OCR dla PDF?
Większość plików PDF doskonale nadaje się do wyświetlania na ekranie, ale sytuacja staje się znacznie trudniejsza, gdy chcemy skutecznie analizować, modyfikować i ponownie wykorzystywać ich zawartość. Pliki nie zawierają bowiem informacji o strukturze dokumentu. Oznacza to, że na podstawie samego pliku nie wiemy, które części są tekstem, obrazami, liniami lub innymi elementami. Nie możemy stwierdzić, jakie są role każdego z tych elementów i jak są one ze sobą powiązane. To właśnie OCR może pomóc w identyfikacji.
Jak działa OCR?
Wykraczając poza pracę z dokumentem PDF jako całością lub z zestawem stron, OCR umożliwia pracę z treścią dokumentu. Mowa tu chociażby o edycji tekstu, wyszukiwaniu pełnotekstowym, wyodrębnianiu tabel czy porównywaniu dokumentów. Potrzebny jest tu proces rozpoznawania zawartości, składający się z trzech głównych etapów.
Najpierw strony dokumentu są sprawdzane za pomocą systemu do analizy dokumentów (Document Analysis), który prawie dosłownie „patrzy” na każdą stronę i bada obraz, aby wykryć najmniejsze części mogące być oddzielnymi słowami i znakami. Na tym etapie oprogramowanie wykrywa również kody kreskowe, a także analizuje tabele, aby dowiedzieć się, które części obrazu tabeli są separatorami, a które komórkami, i co znajduje się w każdej z nich.
Drugim etapem jest poznanie wszystkich wcześniej wykrytych bitów. OCR „czyta” obrazy każdego znaku lub ich kombinacji, dając nam do dalszej pracy cyfrowy tekst w postaci kodu.
W trzecim kroku do gry wchodzi system Synthesis. Po zakończeniu procesu otrzymujemy informacje o tym, gdzie na stronie znajdują się teksty, obrazy i tabele, znamy położenie komórek tabeli i separatorów oraz inne szczegóły, takie jak sposób rozdzielania obrazu na wiersze i słowa oraz gdzie to się dzieje na stronie.
Edycja na poziomie akapitu PDF
Edycja akapitu w pliku PDF przetworzonym za pomocą OCR staje się prosta. Tekst jest pobierany z pliku PDF w takiej postaci, w jakiej istnieje. OCR wykrywa znaczniki, które musimy znać i przestrzegać, aby poprawnie edytować cały akapit.
Tekst cyfrowy pobrany z samego pliku PDF dopasowuje się do wykrytej struktury, umożliwiając edycję strony przez użytkownika. Ponieważ program zna i może śledzić strukturę akapitów, zmiany tekstu podczas edycji są wykonywane płynnie. Pozwala to na przejście od wiersza do wiersza oraz zachowanie jednolitości linii i odstępów między znakami, a czcionka jest wybierana automatycznie. Zmiany są wyświetlane w czasie rzeczywistym.
Gdy użytkownik zakończy edycję, tylko ta część, którą zmieniono, zostanie zaktualizowana w pliku PDF. Ponieważ zmiany są dokonywane w samym dokumencie oryginalnym, wszystko, co nie było edytowane, zachowuje swoją pierwotną formę.
Wyodrębnianie tabel
OCR pomaga również efektywnie wykorzystywać tabele, wyodrębniając je bezpośrednio z plików PDF. By umożliwić nam pełną edycję, OCR może opisać i odtworzyć strukturę tabeli na podstawie jej obrazu – tak otrzymujemy wyodrębnioną, w całości zrasteryzowaną wersję.
Dzięki temu użytkownik może bez problemu edytować dane „wyczytane” przez oprogramowanie czy też wkleić całą tabelę do innej aplikacji, takiej jak Excel czy Word.
Porównanie dokumentów PDF
OCR pomaga także porównywać cyfrowe pliki PDF. Zestawia dwie kopie dokumentu w dowolnym formacie, nie tylko w PDF, co pozwala na wykrycie wszelkich różnic między nimi. Dokumenty mogą nas bowiem zmylić, chociażby gdy ten sam tekst jest sformatowany w inny sposób lub umieszczony nieco inaczej na stronie, ale ogólna kolejność wyświetlania tekstu nie uległa zmianie. Tu znowu pomocna okazuje się analiza struktury dokumentu, którą poznajemy właśnie dzięki zastosowaniu narzędzi związanych z OCR.
To tylko trzy przykłady operacji na plikach PDF, które używają technologii OCR lub nawet od niej zależą. Takich zastosowań jest znacznie więcej. Zatem łatwo stwierdzić, że korzystanie z oprogramowania ABBYY FineReader PDF 15, stosującego wysokiej jakości OCR, może w znacznym stopniu uprościć codzienną pracę z dokumentami i uczynić ją szybszą oraz bardziej efektywną, bez konieczności chociażby żmudnego przepisywania dokumentów, nad którymi chcemy pracować.
Wypróbuj wszystkie funkcje i możliwości programu FineReader PDF 15, pobierając darmową wersję testową na finereader.pl/testuj.