Tag: OCR

23
sie

Profesjonalny OCR dokumentów: przewodnik dla tłumaczy i grafików

OCR w tłumaczeniach

Optyczne rozpoznawanie znaków (OCR) stało się nieodzownym narzędziem w arsenale współczesnych specjalistów branży tłumaczeniowej i projektowej. OCR umożliwia przekształcenie drukowanego, nieedytowalnego tekstu (np. ze skanu, zdjęcia lub tekstu zamienionego na krzywe) w format cyfrowy, edytowalny i przeszukiwalny poprzez konwersję wyglądu liter w tekst zakodowany maszynowo. Zupełnie, jak czowiek, który spogląda na stronę książki i przepisuje tekst do Worda.

Spis treści:

  1. Rodzaje OCR
  2. Transdoc z FineReader
  3. Draft_OCR – proste odwzorowanie
  4. Pełne odwzorowanie graficzne
  5. Korzyści płynące z doskonałego OCR
  6. Najlepsze praktyki OCR
  7. Optymalizacja plików DOCX dla narzędzi CAT
  8. Kluczowe wnioski

OCR stał się nieocenionym narzędziem dla tłumaczy. Niezależnie od typu dokumentu FineReader (podstawowe narzędzie do OCR) skutecznie skanuje i wyodrębnia tekst, usprawniając proces tłumaczenia. Czytając o FineReaderze (dla uproszczenia) zawsze należy przez to rozumieć Edytor OCR, który jest osobną aplikacją wchodzącą w skład programu FineReader. Należy jednak pamiętać, że OCR, mimo swojej skuteczności, nie jest bezbłędny. Drobne pomyłki w rozpoznawaniu mogą się zdarzać, dlatego konieczna jest uważna weryfikacja wyników.

OCR w projektowaniu graficznym

Graficy również docenili potencjał OCR, gdyż umożliwia szybkie wyodrębnianie tekstu z obrazów i manipulację nim w projektach. FineReader nie tylko przyspiesza pracę, ale również zwiększa precyzję (w porównaniu do ręcznego przepisywania). Graficy mogą skanować dokumenty, dostosowywać układ i ponownie wykorzystywać treść w spójny sposób, często bez kompromisów w zakresie oryginalnych elementów projektu. 

Tłumacz, grafik, specjalista DTP?

OCR, niegdyś domena wąskiej grupy specjalistów DTP, stała się integralną częścią codziennej praktyki wielu profesjonalistów z sektora językowego.

Na rynku pojawiła się również grupa specjalistów skoncentrowanych wyłącznie na OCR, których umiejętności można postrzegać jako wyspecjalizowany, ale wąski wycinek kompetencji pełnoprawnego specjalisty DTP. Co więcej, sami tłumacze coraz częściej sięgają po narzędzia OCR, wykorzystując je zarówno na własne potrzeby, jak i wspierając tym swoich współpracowników.

Takie połączenie kompetencji sprawia, że granice między rolami zawodowymi zacierają się. W kontekście niniejszego artykułu „grafik” będzie stosowany wymiennie z „tłumaczem”, odnosząc się do każdego profesjonalisty, który w swojej pracy wykorzystuje technologię OCR.

Rodzaje OCR

Optyczne rozpoznawanie znaków oferuje wiele rozwiązań, z których każde ma swoje unikalne zalety i zastosowania. W OCR mamy do czynienia z różnorodnością opcji dostosowanych do specyficznych potrzeb użytkowników i projektów.

Transdoc: tabela dwujęzyczna

Transdoc to plik składający się z dwujęzycznej tabeli, idealny dla tłumaczy pracujących nad dokumentami wymagającymi zestawienia tekstów w dwóch językach. Główną zaletą takiego przygotowania pliku do tłumaczenia jest zdolność do generowania tabelarycznych reprezentacji treści w różnych językach, zachowując przy tym formatowanie i kontekst. Transdoc nie tylko umożliwia dokładne odwzorowanie tekstu w obu językach, ale również zapewnia, że oba teksty są starannie ułożone obok siebie. Funkcjonalność ta znacząco ułatwia proces tłumaczenia, pozwalając tłumaczom na łatwe porównywanie wersji źródłowej i docelowej podczas ostatniej kontroli jakości. Zwykle wykorzystuje się Transdoc, gdy klient końcowy życzy sobie przygotowania tłumaczenia w wersji dwujęzycznej (np. umowy) lub grafik klienta zajmie się składem DTP tłumaczenia, więc płacenie za odwzorowanie graficzne mijałoby się z celem. 

Proste odwzorowanie: keep it simple

Proste odtworzenie układu graficznego to bezpośrednie i konkretne podejście do OCR, idealne do pracy z dokumentami, które nie wymagają oddania skomplikowanego formatowania. Metoda ta skupia się na dokładnym wyodrębnieniu tekstu, bez uwzględniania elementów takich jak czcionki, kolory czy złożone układy.

Przykładem zastosowania prostego odtworzenia może być konwersja protokołu ze spotkania z formatu papierowego na edytowalny. W tym przypadku kluczowe jest zapewnienie, że każda informacja zostanie precyzyjnie przetłumaczona. Chociaż metoda ta wydaje się prosta, wymaga dokładności. W tym przypadku odwzorowuje się oryginalne teksty z zachowaniem logicznego porządku oraz niezbędnych przepływów wraz z formatowaniem lokalnym takim, jak pogrubienia, podkreślenia, indeksy, pismo kursywne (i inne oczywiste wyróżnienia wewnątrz zdania, które mają zastosowanie funkcjonalne). Jeśli oryginalny dokument jest wielokolumnowy, zawiera różne fonty i ich wielkości, marginesy itd., to takie elementy nie zostaną oddane. Prosty OCR zapewnia określony standard przygotowania np. Format A4, Arial dla oryginalnych tekstów bezszeryfowych i Times New Roman dla szeryfowych. Nagłówki/tytuły wielkości 16 punktów, a reszta tekstów 12 punktów. Stałe marginesy 2,5 cm z każdej strony itd.

Pełne odwzorowanie układu i formatowania

Pełne odwzorowanie pozwala na dokładne odtworzenie wyglądu dokumentów. Metoda ta zachowuje nie tylko tekst, ale również style czcionek (jeśli są korporacyjne lub komercyjne, to klient musi je dostarczyć), rozmieszczenie obrazów i ogólny układ dokumentu. W zasadzie odwzorowanie pełne można nazwać roboczo odbudowaniem/odtworzeniem oryginalnego dokumentu.

W przypadku odwzorowania katalogu OCR musi wyciągnąć zarówno opisy produktów, jak i elementy wizualne, tworząc nowy dokument, który wygląda jak podobnie do oryginału.

Oczywiście często jest tak, że elementy graficzne trzeba ekstrahować ręcznie np. za pomocą Acrobata, Photoshopa, czy Illustratora, by stworzyć zasoby na potrzeby pełnego odwzorowania. Pamiętajmy, że pełne odwzorowanie nie kończy się na Wordzie. Często przygotowujemy tak zwany nowy oryginał w InDesign, by stworzyć dokument, który będzie miał „nowe” życie i potencjał rozwojowy (aktualizacyjny). W tym przypadku odwzorowujemy wszystko od formatu strony, przez fonty, kolory, marginesy, wcięcia, tabulatory, style, automatyzacje (odnośniki, spisy tabel, ilustracji, treści, indeksy…), grafiki itd.

Wybór scenariusza

Wybór odpowiedniego rodzaju OCR zależy od specyfiki projektu i potrzeb. Kluczowe pytania, które należy sobie zadać, to:

  1. Czy dokument jest głównie tekstowy, czy ma złożony projekt graficzny?
  2. Czy wymagana jest dwujęzyczna forma?
  3. Jak istotne są elementy wizualne dla zrozumienia treści?
  4. Jakie są wymagania odbiorców docelowych?
  5. Jakie są wymagania klienta końcowego?
  6. W jaki sposób będzie tłumaczony dany dokument (w CAT, czy bez CAT)?
  7. Czy po tłumaczeniu będzie wykonywany skład DTP i przygotowanie do druku, czy jest to dokument wewnętrzny?

Przy wyborze typu OCR kluczowe jest zrozumienie nie tylko technicznych aspektów dokumentu, ale również kontekstu jego wykorzystania. Czasem prostota jest najlepsza, innym razem potrzebujemy pełnego odtworzenia, aby zachować integralność przekazu.

Transdoc z FineReader

Konfiguracja FineReadera

Na początek należy upewnić się, że FineReader jest zainstalowany i aktualny. W ustawieniach FineReader, w menu „Narzędzia->Opcje”, znajduje się szereg opcji wymagających zmian. Kluczowe jest ustawienie preferencji językowych. Jeśli praca dotyczy dokumentu w języku polskim, należy wybrać właśnie ten język. Nie jest to jedynie sugestia, ale krytyczna konieczność – im dokładniejsze ustawienia językowe, tym lepsza będzie rozpoznawalność tekstu przez FineReader. Można wybrać kilka języków, ale nie warto z tym przesadzać – za duża ilość języków wpłynie negatywnie na prawidłowość rozpoznawania liter i słów.

Przykładowe ustawienia:

Zrzut ekranu ustawień oprogramowania w języku polskim, wyświetlający opcje przetwarzania obrazu, języków, OCR i innych konfiguracji, z zaznaczonymi opcjami włączenia OCR i automatycznego przetwarzania strony.Zrzut ekranu okna ustawień OCR, wyświetlający opcje trybu rozpoznawania PDF, precyzji, typu dokumentu, wykrywania elementów konstrukcyjnych, wykorzystania wbudowanych wzorców i czcionek do wyświetlania tekstu.Zrzut ekranu okna ustawień oprogramowania pokazujący opcje formatu dla różnych typów dokumentów, w tym PDF, DOCX i HTML. Widoczne są także różne opcje pól wyboru formatowania dokumentu.

Jeśli nie znasz języka dokumentu, to rozważ włączenie opcji „Zaznacz niepewne znaki” (tylko jeśli nie jest to, co druga litera w zdaniu). Będzie to bodźcem dla tłumacza, by rzucił okiem na oryginalny plik, upewniając się, że OCR jest prawidłowy. Oczywiście zatwierdzamy opcje przyciskiem „OK”.

Kolejnym krokiem jest import nieedytowalnego pliku do Edytora, wstępne rozpoznanie obszarów, poprawienie obszarów, rozpoznanie ich zawartości, poprawienie literówek oraz eksport do DOCX. W Wordzie mamy dwie opcje:

  1. Posprzątać błędne formatowania po eksporcie, by umożliwić konwersję tekstu na tabelę, wskutek czego wystarczy ją powielić, lewą ukryć i Transdoc gotowy.
  2. Stworzyć tabelę od początku, po kolei wkleić wyeksportowane teksty do lewej kolumny tej tabeli, a potem ją powielić i lewą ukryć.

Domyślnym skrótem na ukrywanie/odkrywanie treści w MS Word jest CTRL+SHIFT+H.

Rozwiązywanie problemów jest nieuniknioną częścią pracy z technologią. Jedną z najczęstszych przeszkód staje się sytuacja, gdy FineReader nie rozpoznaje określonych czcionek lub stylów w dokumencie. W przypadku Transdoc nie ma znaczenia odwzorowanie fontów, ale ich rozpoznawanie, to już inna sprawa. Jest to zaawansowana funkcjonalność, ale podpowiadamy, że z pomocą przyjdzie Douczanie wzorców (w „Narzędzia->Opcje->OCR”). Rozwiąże to także problem notorycznie błędnie rozpoznawanych konkretnych znaków w dokumencie.

Zaawansowane techniki Transdoc

Dla poszukiwaczy przygód funkcja przetwarzania wsadowego „Hot folder” oferująca możliwość jednoczesnego przetwarzania wielu dokumentów. Funkcja ta pozwala na przetworzenie kilku plików i otrzymanie ich wszystkich gotowych, co znacznie oszczędza czas. Funkcja ta dostępna jest w wyższych wersjach licencji FineReader.

Innym przydatnym narzędziem jest tworzenie własnego języka:

Okno edytora języków pokazujące opcje automatycznego lub ręcznego wyboru języków OCR z listy. Języki obejmują ganda, grecki, gudżarati, hausa i inne. Przyciski „OK” i „Anuluj” znajdują się na dole.

Po kliknięciu „Nowy” wybieramy język bazowy, na podstawie którego tworzymy wariant, a potem możemy wybrać litery alfabetu:

Otworzy się okno ustawień zatytułowane „Edytor języka”, wyświetlające różne opcje językowe. Podokno „Właściwości języka” pokazuje opcje wyboru języka źródłowego i ustawień słownika.

Dzięki temu – w końcu – zaczną rozpoznawać się prawidłowo znaki, które nie chciały rozpoznawać się wcześniej. Oczywiście chodzi o znaki, których nie było domyślnie w danym języku wbudowanym w FineReader. Na przykład, jeśli mamy znaki typu symbole: delta (w sumie całą gamę greckich symboli), średnica, ułamki itp., to one nie będą prawidłowo rozpoznanie, używając domyślnych ustawień. Po kliknięciu „Zaawansowane” mamy jeszcze większą kontrolę nad znakami przypisanymi do danego języka. Język polski domyślnie rozpoznaje następujące znaki:

!”#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]_abcdefghijklmnopqrstuvwxyz{|}~£¥§©«¬®°±»ÓóĄąĆćĘꣳŃńŚśŹźŻż—‘’‛“”„•′€™■□▲△►▻▼▽◄◅◊◎◦★☆♦✓❖

Draft_OCR – proste odwzorowanie

Przed rozpoczęciem OCR konieczne jest odpowiednie przygotowanie dokumentu. Starannie przygotowany materiał źródłowy znacząco zwiększa skuteczność nawet najbardziej zaawansowanego oprogramowania OCR.

Należy upewnić się, że dokument jest zeskanowany w rozdzielczości co najmniej 300 DPI (punktów na cal). Niższe rozdzielczości mogą skutkować rozmytym tekstem, utrudniającym pracę oprogramowania OCR i prowadzącym do niespójnych rezultatów. Istotne jest również usunięcie wszelkich zbędnych elementów, takich jak zagniecenia, znaki wodne, ziarno w tle czy ślady długopisu, które mogłyby zakłócić proces rozpoznawania. Nieraz potrzebny będzie program graficzny np. Photoshop, a innym razem wystarczy np. usunąć znak wodny lub zbędną (drugą) numerację wybierając odpowiednie opcje w edytorze PDF (Acrobat, PDF-XChange Editor itp.).

W FineReaderze zastosowanie mają takie same ustawienia jak wcześniej, ale z jednym wyjątkiem:

Obraz menu opcji oprogramowania wyświetlającego różne ustawienia typów i formatowania dokumentów, w tym opcje DOC(X)/RTF/ODT, domyślny format papieru i zachowanie metadanych.

Włączamy zachowanie numerów stron, nagłówków i stopek oraz możemy pokusić się o zmianę układu dokumentu na „Kopia do edycji”. Nie zawsze się to sprawdzi, a raczej wyłącznie w przypadku prostszych układów. Wybierając tę opcję, nic nie tracimy. W razie potrzeby można to zmienić później – bez dodatkowej pracy.

Konwersja do DOCX

Praca z FineReaderem będzie analogiczna, jak wyżej, czyli import nieedytowalnego pliku do Edytora, wstępne rozpoznanie obszarów, poprawienie obszarów, rozpoznanie ich zawartości, poprawienie literówek oraz eksport do DOCX. Jeśli eksport do Worda (gdyż mamy opcję zapisania do DOCX lub wysłania do Worda – można ich używać zamiennie – efekt pracy FineReadera jest taki sam) posiada masę ramek tekstowych lub pól, to oczywiście należy zmienić układ na tekst sformatowany i spróbować ponownie.

Podstawowe formatowanie

Po uzyskaniu edytowalnego tekstu przychodzi czas na jego dopracowanie. Podstawowe formatowanie to etap, na którym możemy tchnąć życie w nasz draft_OCR.

Jak pisaliśmy na początku: w tym przypadku odwzorowuje się oryginalne teksty z zachowaniem logicznego porządku oraz niezbędnych przepływów wraz z formatowaniem lokalnym takim, jak pogrubienia, podkreślenia, indeksy, pismo kursywne (i inne oczywiste wyróżnienia wewnątrz zdania, które mają zastosowanie funkcjonalne).

Na taką okoliczność warto stworzyć sobie arkusz styli, który zawsze importujemy do pliku po OCR i formatujemy nim cały dokument, osiągając, w ten sposób, spójny, czysty i przejrzysty plik przygotowany do tłumaczenia.

W przypadku dokumentów wielojęzycznych należy upewnić się, że języki, które nie będą źródłowym (dla tłumacza), zostaną ukryte na czas tłumaczenia lub zignorowane na etapie przygotowywania OCR.
Bardzo ważne jest, aby usuwać zbędne podziały tzn. twarde entery, bo wpłyną one na segmentację pliku w narzędziu CAT, a tam, gdzie podział jest niezbędny, to zastąpienie twardego entera miękkim. Jeśli jakieś zdania są podzielone twardymi enterami (np. Między stronami), to takie zdania trzeba połączyć w logiczną całość.

Kontrola jakości

Po ukończeniu draft_OCR należy uważnie przeczytać tekst, poszukując typowych błędów związanych z OCR, takich jak błędnie rozpoznane znaki czy nieprawidłowa interpunkcja. Chociaż narzędzia programowe mogą przyspieszyć ten proces, ludzkie oko pozostaje niezastąpione w wykrywaniu subtelnych nieprawidłowości. Stosunkowo niewielu użytkowników FineReadera korzysta z modułu kontroli pisowni wbudowanego w ten program. Rekomenduje się korzystanie z tej funkcjonalności – po to jest – ale, w ostateczności, można ten proces odroczyć i wykonać kontrolę pisowni (F7) w MS Word. Jest to etap, który prędzej, czy później będzie trzeba wykonać.

Wskazówki

W przypadku szczególnie wymagających dokumentów (np. dokumentów liczących setki stron) warto rozważyć podzielenie ich na mniejsze sekcje. Umożliwi to bardziej skoncentrowane rozpoznawanie OCR. 

Jeśli podziały stron są istotne, zaleca się użycie podziałów w stylach akapitowych w Wordzie zamiast ręcznych podziałów sekcji.

Nie należy bagatelizować wartości ręcznych poprawek. OCR, choć zaawansowane, nie jest nieomylne. Przygotowanie się na ręczne usuwanie pozostałych niedoskonałości stanowi część profesjonalnego podejścia do procesu.

Pełne odwzorowanie graficzne

Każdy element przygotowań może zadecydować o sukcesie lub porażce. Poświęcenie czasu na eksplorację i zrozumienie ustawień – od podstawowych opcji rozpoznawania języka po zaawansowane narzędzia formatowania (np. wybór fontów*) – przynosi korzyści. Dostosowanie paska narzędzi zwiększa efektywność pracy.

Jakość skanów stanowi fundament udanego OCR. Stosowanie rozdzielczości minimum 300 DPI dla dokumentów tekstowych jest zalecane. Oczywiście nie ma to znaczenia, jeśli pracujemy z plikiem PDF, który skanem nie jest. W przypadku skomplikowanych układów pomocna okazuje się funkcja automatycznego wykrywania struktury dokumentu.

*możemy wybierać spośród fontów zainstalowanych w systemie. Dzięki temu będą użyte już w eksporcie do DOCX.

Okno ustawień pokazujące opcje rozpoznawania tekstu OCR wraz z listą czcionek używanych podczas rozpoznawania. Dostępne są opcje zarządzania wybranymi czcionkami i przyciski OK, Anuluj, Czcionki domyślne i Zaznacz wszystko.

Lokalizacja grafik

Podstawowe opcje są dwie:

  1. Nanoszenie pól tekstowych na grafiki zawierające tekst do tłumaczenia.
  2. Tworzenie mini-transdoc, czyli tabelki-legendy pod grafiką, która wymaga tłumaczenia.

Obydwa warianty wymagają OCR i przygotowania, a o jego wyborze powinien zadecydować klient końcowy lub zleceniodawca.

Alternatywnie można wyeksportować wszystkie grafiki z PDF lub wykonując OCR nie zaznaczać tekstów na grafikach, wyciągając je (grafiki) w niezmienionej formie, aby później rozpakować DOCX (wystarczy zmienić rozszerzenie z DOCX na ZIP) i w podkatalogu word/media znaleźć wszystkie grafiki użyte w dokumencie, w celu ich lokalizacji poza Wordem (np. w Photoshopie).

Optymalizacja pod kątem CAT

OCR dla narzędzi CAT zwiększa efektywność pracy tłumaczy. FineReader pozwala eksportować wyniki do formatów kompatybilnych z systemami CAT. Niestety zdarza się, że eksport posiada zbędne style, „śmieciowe” formatowanie i inne elementy, które przeszkadzają tłumaczowi w pracy, generując zbędne tagi. Wskazane jest, by grafik przygotowujący plik do pracy w CAT posiadał np. Tradosa i mógł podejrzeć, jak wygląda OCR, zanim prześle go dalej. Dzięki temu widać problemy wymagające wyeliminowania przed przekazaniem pliku do kolejnego etapu produkcji. W internecie znajdziemy kilka makr lub skryptów do Worda, które eliminują spore ilości zbędnych tagów np. Codezapper. Należy jednak pamiętać, że każdy tak coś oznacza – usuwając tag, usuwamy coś więcej. Bez możliwości podglądu OCR przed i po usunięciu tagów jest ryzykowne i może się opłacić, ale nie musi. 50 na 50. Zastosowanie mają te same zasady, co wyżej, czyli optymalizacja twardych i miękkich enterów, łączenie podzielonych tekstów, dzielenie tekstów, które powinny być oddzielone, a brakuje podziałów, automatyczne numeracje zamiast ręcznych itd.

Wskazówki

MS Word ma limit wielkości strony – 55,88 cm x 55,88 cm – więc dokumenty o większym formacie, mogą wymagać przeskalowania (zmniejszenia).

Standardowo unika się używania pól tekstowych w OCR, ale schematy elektryczne, rysunki techniczne oraz projekty mogą wymagać użycia pól tekstowych.

Pola tekstowe muszą być właściwie i rozważnie kotwiczone do innych elementów np. akapitu lub strony. W przeciwnym razie, wskutek zmiany długości tekstu (w tłumaczeniu), zmienią swoje położenie. Ma to zastosowanie również do innych elementów graficznych, które występują w plikach o pełnym odwzorowaniu.

Razem z FineReaderem otrzymujemy również Screenshot Reader, który przydaje się do szybkiego, punktowego wyciągania pojedynczych tekstów np. na potrzeby tworzenia legend pod grafikami wymagającymi lokalizacji.

Zdarzają się problemy z ponownym otwarciem wiązki (zapisanego projektu FineReadera), więc rekomenduje się zakończenie prac nad otwartym dokumentem bez zamykania i ponownego otwierania FineReadera.

W ustawieniach formatu możemy wybrać niestandardowe ustawienia zapisywanych grafik, by wybrać między innymi stopień ich kompresji (Jakość):

Okno ustawień edytora dokumentów pokazujące opcje formatu DOC(X)/RTF/ODT oraz zdefiniowane przez użytkownika ustawienia rozdzielczości obrazu z suwakiem jakości obrazu.

Może się to przydać w przypadku dokumentów o dużej ilości grafik oraz stron, by uniknąć Worda „ważącego” kilkaset MB.

Korzyści płynące z doskonałego OCR

Dokładność stanowi fundament każdego udanego projektu tłumaczeniowego – cecha nadająca słowom znaczenie. Perspektywa odszyfrowywania nieczytelnej strony lub czytania tłumaczenia pełnego błędów nie jest atrakcyjna dla nikogo. Wzrost dokładności przekłada się na większe zadowolenie klientów. Efektywny proces OCR może znacząco skrócić czas realizacji projektu. Tłumacze, którzy umiejętnie wykorzystują zaawansowane techniki OCR, są w stanie osiągnąć imponującą wydajność bez kompromisów w zakresie jakości, przy okazji zyskując dodatkową przewagę konkurencyjną. 

Korzyści z efektywnego OCR wykraczają poza indywidualnych tłumaczy czy klientów, wpływając pozytywnie na całą branżę. Wyższa jakość prowadzi do mniejszej liczby korekt i poprawek, przyspieszając harmonogramy projektów i umożliwiając podejmowanie nowych zadań. Firmy o usprawnionej organizacji pracy są lepiej przygotowane do efektywnego rozwiązywania problemów, co przekłada się na ich konkurencyjność na rynku.

Idea jest prosta: bezbłędne przygotowanie procesów OCR poprawia każdy aspekt pracy tłumaczeniowej. Prawidłowo sformatowane dokumenty, bezbłędne teksty i bezproblemowa integracja oznaczają mniejszą presję na wszystkie zaangażowane strony, tworząc środowisko sprzyjające innowacjom i współpracy. Osiągnięcie tego poziomu jakości wymaga staranności i przemyślenia, ale efekty są warte wysiłku.

Najlepsze praktyki OCR

  1. Zanim rozpocznie się OCR, należy odpowiednio przygotować dokument. Zły stan dokumentu może nie tylko utrudnić pracę oprogramowania, ale także doprowadzić do frustracji podczas dalszej obróbki.
  2. Oceń jakość dokumentu źródłowego. Jeśli jest w złym stanie, zajmij się jego poprawą lub poproś o lepszą kopię. Upewnij się, że strony są płaskie, czyste i pozbawione zagnieceń czy plam. Podczas digitalizacji dokumentu papierowego, użyj skanera z minimalną rozdzielczością 300 DPI, aby uzyskać optymalną ostrość.
  3. Nadaj dokumentowi logiczną strukturę, jeśli jej brakuje. Ponumeruj strony, dodaj nagłówki i usuń wszelkie niepotrzebne elementy. Spójne przedstawienie dokumentu znacząco ułatwia pracę oprogramowania OCR.
  4. Każde oprogramowanie OCR ma swoje unikalne mocne i słabe strony. Kluczowe jest przeanalizowanie konkretnych potrzeb projektu. Narzędzia takie jak ABBYY FineReader doskonale radzą sobie z formatowaniem całych stron i interpretacją tabel – idealne do tłumaczenia obszernych raportów. Z kolei prostsze aplikacje mogą zapewnić szybkie wyniki, ale brakuje im precyzji w przypadku złożonych układów tekstu lub wielu języków.
  5. Korekta OCR wymaga precyzji i cierpliwości. OCR nieuchronnie popełnia błędy; niektóre litery lub liczby mogą zostać nieprawidłowo rozpoznane, a interpunkcja może wymagać korekty.
  6. Najlepszą praktyką jest porównywanie oryginalnego dokumentu z wynikiem OCR, strona po stronie. Może to wydawać się żmudne, ale zaniedbanie tego etapu może skutkować kosztownymi błędami, szczególnie w przypadku dokumentów technicznych lub prawnych.

Optymalizacja plików DOCX dla narzędzi CAT

Znajomość specyficznych wymagań wybranego narzędzia CAT jest fundamentem skutecznej optymalizacji. Każde oprogramowanie ma swoje unikalne cechy i ograniczenia, które należy uwzględnić.

Większość narzędzi CAT radzi sobie dobrze z plikami DOCX, jednak kluczowe jest zrozumienie ich specyfiki. Niektóre mogą mieć trudności z zaawansowanym formatowaniem lub osadzonymi obiektami. Warto dokładnie zapoznać się z dokumentacją techniczną oprogramowania, aby zidentyfikować jego możliwości i ograniczenia.

Szczególną uwagę należy zwrócić na zachowanie stylów, nagłówków, stopek i osadzonych obrazów po przetworzeniu przez narzędzie CAT. Dokładne zrozumienie tych aspektów pozwoli uniknąć nieprzyjemnych niespodzianek w trakcie procesu tłumaczenia.

Ustawienia segmentacji

Właściwe ustawienia segmentacji są kluczowe dla płynności procesu tłumaczenia. Umożliwiają one wyraźne oddzielenie segmentów tekstu, które narzędzie CAT będzie przetwarzać w formie jednostek tłumaczeniowych w celu zapisania w bazie tłumaczeniowej.

Większość narzędzi CAT oferuje domyślne reguły segmentacji, które można dostosować do struktury konkretnego dokumentu. Warto rozważyć modyfikację ustawień segmentacji w zależności od typu dokumentu i jego specyfiki. No tak, ale miało być o dostosowywaniu plików DOCX do CAT, a nie odwrotnie. Zgadza się! Aby tak zrobić, najpierw trzeba zrozumieć, jakie są te domyślne reguły segmentacji, aby grafik mógł przygotować plik, zachowując zgodność z tymi regułami. Na przykładzie Tradosa (kluczowe zasady dzielenia segmentów dla plików DOCX): 

  1. Kropki: segmentacja na końcu zdania, kiedy kropka jest zakończona białym znakiem, np. „To jest zdanie. To jest kolejne zdanie”.
  2. Wykrzykniki: segmentacja po wykrzykniku, np. „Uwaga! To jest ważne”.
  3. Znaki zapytania: segmentacja po znaku zapytania, np. „Czy to działa? Tak, działa”.
  4. Średniki: średniki mogą, ale nie muszą, inicjować dzielenia, w zależności od ustawień, np. „To jest przykład; to również jest przykład”.
  5. Podziały akapitów: każdy nowy akapit zazwyczaj zaczyna nowy segment.
  6. Cudzysłowy i nawiasy: tekst zamknięty w cudzysłowach lub nawiasach jest traktowany jako część bieżącego segmentu, chyba że kończy się kropką, wykrzyknikiem lub znakiem zapytania.

Tagi

Odpowiednie tagowanie pliku DOCX zwiększa przejrzystość i zapewnia płynniejszy proces tłumaczenia. Tagi działają jak drogowskazy, prowadząc tłumacza przez dokument i zabezpieczając formatowanie treści.

Wiele narzędzi CAT wykorzystuje tagi do identyfikacji elementów wewnątrz linii, takich jak pogrubienia, kursywa czy hiperłącza. Istotne jest, aby tagi były prawidłowo umieszczone i sformatowane. Przygotowując plik DOCX, należy upewnić się, że tagi odpowiadają zamierzonemu formatowaniu. Na przykład, jeśli fraza w tekście źródłowym jest pogrubiona, odpowiedni tag w DOCX powinien to odzwierciedlać, aby zachować takie samo wyróżnienie w tłumaczeniu. Zbędne taki potrafią katastrofalnie wpłynąć na wydajność tłumacza, a reperkusje przekroczonych terminów mogą być dotkliwe.

Przykład zbędnych tagów (źródło: community.rws.com):

Tabela zawierająca wiersze fioletowych znaczników z polem wyboru na końcu każdego wiersza. Tagi zawierają różny tekst, a niektóre wiersze są puste.

Przygotowanie glosariuszy i pamięci tłumaczeniowych

OCR można również wykorzystać do stworzenia wielojęzycznego glosariusza lub bazy pamięci tłumaczeniowej (z wcześniej wykonanych tłumaczeń). Dzięki OCR możliwe jest szybkie i efektywne wyodrębnienie tekstu z wcześniej przetłumaczonych dokumentów, co pozwala na ich dalsze wykorzystanie. Przykładowo można stworzyć glosariusz z 8-języcznej deklaracji zgodności lub 4-języcznego katalogu części w celu spójnego tłumaczenia tych samych fraz w przyszłości. Jeśli chodzi o bazy tłumaczeniowe, to może się zdarzyć, że klient będzie zmieniał biuro tłumaczeń. Od poprzedniego biura nie dostanie swoich baz tłumaczeniowych, a wie, że w jego tekstach jest dużo powtórzeń, za które wolałby nie płacić ponownie, co jest oczywiste. W takim wypadku może dostarczyć „stare” PDFy – źródłowe oraz przetłumaczone – z których wykonuje się OCR, a potem bazę tłumaczeniową, która jest wykorzystywana do podnoszenia jakości oraz redukcji kosztów we współpracy z nowym biurem tłumaczeń.

QA przed importem do narzędzia CAT

Wykonywanie końcowej kontroli przed importem pliku DOCX po OCR do narzędzia CAT jest kluczowe. Etap ten można porównać do próby generalnej przed występem – upewniamy się, że wszystkie elementy są na swoim miejscu i gotowe do działania.

Należy zwrócić szczególną uwagę na:

  • niechciane, często wielokrotne spacje,
  • niespójności w typografii (różne rozmiary lub style fontów),
  • nadgorliwe podziały wierszy,
  • literówki i błędy OCR,
  • pominięte/nieprzygotowane elementy graficzne.

Przeprowadzenie dokładnego sprawdzenia dokumentu nie tylko zwiększy pewność co do jego należytej jakości, ale może również ujawnić obszary wymagające dalszych korekt. 

Pamiętaj, że niektóre problemy można rozwiązać dużo szybciej i efektywniej na wczesnym etapie, a później będzie tylko gorzej. Błędy w dokumencie tłumaczonym docelowo na 27 języków będzie trzeba poprawić 27 razy w przetłumaczonych plikach!

Kluczowe wnioski

Dla profesjonalistów w dziedzinie tłumaczeń i projektowania graficznego kluczowe jest przyjęcie strategicznego podejścia do rozwiązań OCR. Umiejętność krytycznej oceny i efektywnego wykorzystywania narzędzi OCR oraz AI staje się niezbędna. Współpraca z dostawcami usług OCR może prowadzić do rozwoju bardziej zaawansowanych i dostosowanych narzędzi. Aktywny udział w kształtowaniu tych technologii pozwoli na lepsze dostosowanie ich do potrzeb branży.

Przyszłość OCR oferuje ekscytujące możliwości dla tłumaczy i grafików. Aktywne zaangażowanie w rozwój tych technologii pozwoli na wykorzystanie ich potencjału przy jednoczesnym zachowaniu wysokich standardów jakości i kreatywności w pracy.

Kontakt