Miesięcznik informatyków i menedżerów IT sektora publicznego

Systemowi nigdy nie brakuje słów

Łączna pula środków na zmniejszanie barier językowych Jednolitego Rynku Cyfrowego, wspieranie europejskiej wielojęzyczności i ochronę języków zagrożonych tzw. cyfrowym wyginięciem znacznie się zwiększyła. Rozmowa z Anną Kotarską, przedstawicielką krajową służb publicznych w programie European Language Resource Coordination (ELRC).

e-Translation to obecnie główna platforma wykorzystywana przez administrację publiczną w Unii Europejskiej (UE) do tłumaczenia maszynowego tekstów. Jakie jest jej znaczenie w kontekście innych usług podstawowych?

Platforma CEF.AT (od „Connecting Europe Facility Automated Translation”) może być wykorzystywana indywidualnie przez pracowników administracji publicznej w UE, a także na Islandii i w Norwegii, do tłumaczenia dokumentów i fragmentów tekstu za pośrednictwem strony internetowej. Jednym z głównych użytkowników narzędzia jest Komisja Europejska (KE), gdzie liczba stron przetłumaczonych w skali roku wynosi ponad 3 mln. System eTranslation można wykorzystać także jako element usług cyfrowych, dzięki czemu administracje publiczne, obywatele i przedsiębiorstwa w UE mogą korzystać z nich w wybranym przez siebie języku. Jest on zintegrowany z ponad 50 usługami cyfrowymi, jak np. ODR (system internetowego rozstrzygania sporów) czy portal eJustice (e-Sądy). Wracając do pojęcia unijnych usług podstawowych, tzw. CEF Building Blocks – eTranslation należy do mniej znanych niż pozostałe usługi z tej grupy, takie jak eID, eSignature, eDelivery czy eInvoicing. Usługi te mogą być łączone w ramach transgranicznych usług cyfrowych. Przykładowo przy realizacji projektu iADAATPA polegającego na zbudowaniu dynamicznego routera, zdolnego do płynnego przełączania się pomiędzy dziedzinowymi silnikami tłumaczeniowymi w celu uzyskania najwyższej jakości tłumaczeń maszynowych, eTranslation połączono z eDelivery.

Platforma e-Translation zastąpiła poprzednio stosowaną MT@EC. Jakie są przewagi tłumaczenia neuronowego nad technologią wykorzystywaną w MT@EC?

W uproszczeniu: tłumaczenie maszynowe wykorzystuje sieci neuronowe i ma dwie zasadnicze zalety: produkowany tekst brzmi bardziej naturalnie i idiomatycznie, jest też znacznie bardziej poprawny gramatycznie niż w przypadku poprzednich generacji systemów tłumaczenia maszynowego, czyli np. tłumaczenia statystycznego (SMT) oferowanego w ramach systemu MT@EC. Tłumaczenie neuronowe (NMT) u podstaw ma systemy pozwalające na przewidywanie, jakie będzie następne słowo w zdaniu, co sprawia, że zdania generowane przez NMT bardziej przypominają te sformułowane przez ludzi. Przede wszystkim jednak na potrzeby tłumaczenia neuronowego słownictwo dostępne w danych wykorzystywanych do szkolenia silników tłumaczących przetwarzane jest na liczby (wektory). Słowa o zbliżonym znaczeniu reprezentowane są przez zbliżone liczby, co umożliwia systemom tłumaczącym wykrywanie słów o zbliżonym znaczeniu (w oparciu o kontekst, w jakim występują) i przyczynia się do poprawy jakości tłumaczenia – systemowi nigdy nie brakuje słów, bo zawsze może sięgnąć po słowa o zbliżonym znaczeniu i może zastępować słowa ich synonimami, przez co tłumaczenie brzmi bardziej naturalnie.

W jaki sposób platforma e-Translation różni się od innych narzędzi wykorzystujących NMT?

Większość dostępnych na rynku platform oferujących tłumaczenie maszynowe (Google Translate, DeepL, Bing Translator, Facebook) wykorzystuje bardzo podobne oprogramowanie, które w dodatku często jest udostępniane publicznie w formie kodu źródłowego, co umożliwia dokonywanie porównań w zakresie stosowanych technik tłumaczeniowych. Główną różnicę stanowią dane, jakimi dysponują poszczególne instytucje, i sposoby filtrowania tych danych, np. Google bazuje głównie na tekstach równoległych znalezionych w trakcie przeszukiwania stron internetowych. eTranslation z kolei wykorzystuje pamięci tłumaczeniowe instytucji europejskich, sięgające aż do lat 60. Dane lingwistyczne wykorzystywane przez eTranslation stanowią zapewne jedną z największych – jeżeli nie największą – na świecie kolekcję ręcznie zrównoleglonych przez ludzi zdań i zawierają prawie wyłącznie teksty przetłumaczone na zlecenie instytucji europejskich.

[...]

Anna Kotarska – przedstawicielka krajowa służb publicznych w programie European Language Resource Coordination (ELRC). Funkcję pełni w oparciu o nominację Dyrekcji Generalnej ds. Sieci Komunikacyjnych, Treści i Technologii (DG CONNECT) Komisji Europejskiej oraz Niemieckiego Centrum Badań nad Sztuczną Inteligencją (DFKI). Jest absolwentką filologii angielskiej Uniwersytetu Gdańskiego oraz studiów podyplomowych w dziedzinie translatoryki (Uniwersytetu Warszawskiego), finansów przedsiębiorstw (PG/ESC de Rouen), logistyki (WSL w Poznaniu) oraz kursu eMBA w ochronie zdrowia. Członkini Polskiego Towarzystwa Tłumaczy Przysięgłych i Specjalistycznych TEPIS. Tłumaczka specjalistyczna języka angielskiego oraz koordynatorka projektów tłumaczeniowych, m.in. na Politechnice Gdańskiej i w Centrali NFZ.

Rozmawiała Katarzyna Wiszniewska

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma. Zapraszamy do składania zamówień na prenumeratę i numery archiwalne.
 
 

Polecamy

Biblioteka Informacja Publiczna

Specjalistyczne publikacje książkowe dla pracowników administracji publicznej

więcej