Atmosfera globalnego zrozumienia. Urządzenia tłumaczące najnowszej generacji
Najnowsza generacja sztucznej inteligencji może przekształcać wideo nakręcone w jednym języku na inny, zachowując w dużej mierze brzmienie głosu mówcy i modyfikując ruchy warg, aby dopasować je do nowej językowej wersji dialogu. W perspektywie krótkoterminowej nowa technologia powinna pozwolić na dubbingowanie znacznie większej liczby filmów na coraz większą paletę języków. Jednak najbardziej chyba obiecującą z całej palety innowacji perspektywą są prowadzone na żywo, płynnie rozmowy telefoniczne lub np. telekonferencyjne, w których maszyny tłumaczące pozwalają komunikować się osobom nieznającym wzajemnie swoich języków, bez potrzeby symultanicznego tłumaczenia.
Właśnie mniej więcej coś takiego zapowiedziała w listopadzie 2023 r. firma Samsung Electronics. Jej urządzenia nowej generacji będą wyposażone w usługę tłumaczenia połączeń w czasie rzeczywistym o nazwie AI Live Translate Call. Nie określiła daty jej wprowadzenia, ale oczekuje się, że zostanie zainstalowana w następnej generacji smartfonów Samsunga, w tym Galaxy S24. SK Telecom, wiodący południowokoreański operator telefonii komórkowej, zapowiedział, że jeszcze w tym roku wprowadzi aplikację podobną do Samsunga, nazwaną „A”. „Korzystając z naszej aplikacji AI, nasi koreańscy klienci będą mogli wykonywać połączenia telefoniczne z obcokrajowcami bez konieczności znajomości ich języków”, powiedział agencji UPI News Korea urzędnik SK Telecom.
W internecie raz po raz pojawia się nowa usługa dubbingowa. Latem ub. roku serwis YouTube, idąc zresztą w ślad za TikTokiem, Snapchatem i Instagramem zaprezentował narzędzie zdolne do automatycznego dubbingowania filmów w różnych językach, ogłaszając, że pracuje nad integracją narzędzia do tłumaczenia i dubbingowania filmów na wiele języków przy użyciu sztucznej inteligencji. Współpracuje w tym projekcie ze start-upem Aloud. YouTube dał dostęp do tego narzędzia setkom twórców w celu przetestowania go, poinformował Amjad Hanif, wiceprezes ds. produktów dla twórców w YouTube. W pierwszej wersji narzędzie tłumaczyło angielskie filmy na dwa języki, portugalski i hiszpański. Witryna Aloud podaje, że inne języki będą wkrótce dostępne, jednak nie podaje daty.
Podobne nieco do nowych usług YouTube pilotażowe oparte na AI tłumaczenie głosu w Spotify zmierza do tego, by autorzy podcastów mogli być rozumiani w wielu językach, a to wszystko z oryginalnym głosem autora.
Tłumaczenie z klonowaniem
Model Google Audio-Palm AI do tłumaczenia, zaprezentowany pod koniec czerwca 2023 r., może rozpoznawać, przetwarzać i generować zarówno tekst, jak i mowę, ale najbardziej imponującą cechą jest to, że może to zrobić za pomocą własnego głosu użytkownika. Naukowcy zademonstrowali wyniki swoich prac w dialogu między kilkoma osobami mówiącymi w różnych językach, a ich głosy zostały płynnie przetłumaczone na mówiony angielski. Programiści twierdzą, że nowy model „znacznie przewyższa istniejące systemy tłumaczenia mowy”. Audio-Palm to połączenie modelu językowego AI Palm z generatorem audio AI Audio-LM. Jest również używany w chat-bocie Google Bard.
ElevenLabs, start-up, który wykorzystuje moc uczenia maszynowego do klonowania i syntezy głosu, ogłosił w sierpniu 2023 r. rozszerzenie swojej platformy o nowy model zamiany tekstu na mowę, który obsługuje trzydzieści języków. Druga proponowana możliwość to dodatek, który daje użytkownikom możliwość klonowania własnych głosów lub generowania zupełnie nowych syntetycznych głosów (poprzez losowe próbkowanie parametrów wokalnych) do użytku z narzędziem syntezy. Gdy użytkownik wygeneruje swój własny głos, może podłączyć go do narzędzia zamiany tekstu na mowę, aby przekonwertować dowolną krótką lub długą treść na preferowaną mowę, bez żadnego wysiłku.
Alternatywnie mogą oni również korzystać z gotowych głosów generowanych przez AI od firmy lub tych stworzonych i udostępnionych przez społeczność. Obejmuje to m.in. koreański, holenderski, turecki, szwedzki, indonezyjski, wietnamski, filipiński, ukraiński, grecki, czeski, fiński, rumuński, duński, bułgarski, malajski, węgierski, norweski, słowacki, chorwacki, klasyczny arabski i tamilski. Zasadniczo oznacza to, że dana osoba może sklonować swój głos i używać go do tworzenia mowy w dziesiątkach języków skierowanych na różne rynki. Według ElevenLabs, użytkownik musi wprowadzić tekst w wybranym języku, wybrać żądany głos (gotowy, syntetyczny lub sklonowany) i dostosować kilka parametrów mowy. Model automatycznie zidentyfikuje język pisany i użyje ustawionych parametrów do wygenerowania w nim mowy. Zachowuje również unikalne cechy wybranego głosu we wszystkich językach, w tym jego oryginalny akcent.
Z kolei AI Video Translator firmy HeyGen ma zrewolucjonizować tworzenie treści poprzez płynne tłumaczenie i synchronizację filmów. HeyGen AI Video Translator umożliwia użytkownikom przesyłanie filmów zawierających treści mówione w jednym z obsługiwanych języków, w tym angielskim, hiszpańskim, francuskim, mandaryńskim, niemieckim, włoskim, portugalskim, holenderskim, hindi, polskim, tureckim, koreańskim i japońskim. Umożliwia to twórcom treści, firmom i osobom prywatnym łatwe udostępnianie swoich filmów globalnej publiczności poprzez dostarczanie napisów lub lektora w wielu językach. Usługę wyróżnia zdolność do synchronizacji przetłumaczonego głosu z ruchem warg lektora w filmie. Osiąga się to dzięki zaawansowanym algorytmom sztucznej inteligencji, które dostosowują ruchy warg i mimikę do nowego głosu. Wystarczy przesłać wideo spełniające podstawowe wymagania, takie jak długość co najmniej 30 sekund i obecność jednego mówcy. Narzędzie przetwarza wideo za pomocą jednego kliknięcia i dostarcza przetłumaczoną i zsynchronizowaną wersję. Użytkownicy mogą wybrać język, na który chcą przetłumaczyć swój film.
Podczas Event Tech Live, które odbyło się w dniach 26–27 kwietnia 2023 r. w Las Vegas, wielojęzyczny dostawca technologii i usług konferencyjnych Interprefy zaprezentował usługę Aivia, pierwszą na świecie zaawansowaną usługę automatycznego tłumaczenia mowy dla wydarzeń online i na żywo. Aivia wykorzystuje sztuczną inteligencję tłumaczenia mowy w czasie rzeczywistym. Rozwiązanie było początkowo dostępne w 24 językach i akcentach regionalnych. Udostępniono je indywidualnym odbiorcom, a także na głównych platformach, takich jak Microsoft Teams, Zoom i ON24.
Tłumaczenia wydarzeń dołączają do automatów tłumaczących całe strony firm i np. sklepów. Są badania wskazujące, że konsumenci są o 73 proc. bardziej skłonni do zakupu czegoś na stronie internetowej w swoim ojczystym języku. Dlatego wielkie korporacje dbają o tłumaczenie informacji o swoich produktach na lokalne języki. Microsoft przetłumaczył swoje produkty na ponad 90 języków, Toshiba na ponad 30, a Apple na 40. W dłuższej perspektywie tłumaczenie stron w sieci nie tylko zwiększa wskaźniki sprzedaży, ale także poprawia ogólną widoczność i znajomość marki.
Od statystyki po algorytmy
Pod ogólną nazwą techniki maszynowego tłumaczenia rozumie się różne narzędzia służące do konwersji tekstu z jednego języka na inny, w tym narzędzia do tłumaczenia wspomaganego komputerowo (CAT), oprogramowanie do tłumaczenia maszynowego (MT) oraz systemy zarządzania tłumaczeniami (TMS). Mogą zwiększyć produktywność, wydajność i ogólną skuteczność w zarządzaniu wielojęzycznymi treściami.
Przed pojawieniem się technologii tłumaczeniowych, tłumaczenia były wykonywane ręcznie, a tłumacze korzystali z papierowych słowników, kierowali się własną wiedzą i osądem. Można jednak wskazać bardzo dawne pierwociny technik znanych z nowoczesnych narzędzi tłumaczeniowych. Już w IX wieku arabski kryptograf o imieniu Al-Kindi opracował metodę analizy częstotliwości w języku, która jest nadal używana. Eksplozja maszynowego tłumaczenia nastąpiła jednak dopiero w połowie XX wieku, kiedy dostępne i przystępne cenowo stały się komputery.
W latach 50. XX wieku amerykański Uniwersytet Georgetown i IBM wprowadziły pierwszy na świecie system tłumaczenia maszynowego. Podejście to było oparte na wstępnie zaprogramowanych regułach i słownikach (RBMT). Chociaż ta wczesna forma MT okazała się zawodna i powolna, i tak należy ją uznać za rewolucyjną. W latach 70. Departament Obrony Stanów Zjednoczonych i Agencja Zaawansowanych Projektów Badawczych Obrony (DARPA) rozpoczęły opracowywanie technologii rozpoznawania mowy, które utorowały drogę dla technologii zamiany głosu na tekst. Wczesna technika tłumaczeń maszynowych dawała niezbyt zadowalające rezultaty. W rezultacie tłumaczenie maszynowe zyskało złą reputację samego swojego zarania. Ludzie zaczęli odrzucać tłumaczenie maszynowe jako gorsze niż to, które zapewniali ludzcy tłumacze.
Na początku lat 90. badacze IBM wprowadzili statystyczne tłumaczenie maszynowe (SMT). Systemy te opierały się na słowach i były szkolone do tłumaczenia jednego języka na inny poprzez porównywanie dużych ilości równoległych tekstów w obu językach (dwujęzyczne korpusy). W tej dekadzie pojawiła się większość komercyjnych narzędzi do tłumaczenia wspomaganego komputerowo (CAT) - kamień milowy, który na zawsze zmienił technologię tłumaczenia. Umożliwiły one całemu nowemu pokoleniu tłumaczy wydajniejszą i skuteczniejszą pracę. Potem pojawiła się nowa wersja statystycznego silnika tłumaczeniowego IBM, tym razem oparta na frazach, a nie na słowach. Stał się on komercyjnym standardem na wiele lat.
SMT było znacznym ulepszeniem w stosunku do RBMT, ale jego dokładność wciąż była niezadowalająca. Techniki MT ciągle rozwijano. Obecnie najnowszą i najlepszą dostępną technologią tłumaczenia maszynowego jest neuronowe tłumaczenie maszynowe (NMT), które wykorzystuje złożone modele głębokiego uczenia się do tłumaczenia tekstu. Tłumaczenia te są nie tylko dokładniejsze, ale także brzmią bardziej naturalnie niż tłumaczenia wykonane za pomocą technologii RMBT i SMT. Neuronowe oprogramowanie do tłumaczenia maszynowego działa z ogromnymi zbiorami danych i uwzględnia całe zdanie wejściowe na każdym etapie tłumaczenia, zamiast rozbijać je na pojedyncze słowa lub frazy jak inne metody. Jest bardziej zdolne do uchwycenia, a nawet zrozumienia, intencji lub znaczenia zdania, w wyniku czego szybko zastąpiło wiele starszych modeli statystycznych.
W 2006 r. Google uruchomił Google Translate (2), mechanizm wciąż statystyczny, który szturmem zdobył świat. System najpierw tłumaczył tekst wejściowy na język angielski, a następnie tłumaczył go na język docelowy. System wykorzystywał algorytmy predykcyjne, które zgadywały, które słowa powinny pojawić się w następnej kolejności, w oparciu o słowa i frazy, których „nauczył się” wcześniej. Te domysły często skutkowały niską dokładnością gramatyczną. W 2016 r. Google Translate wprowadziło neuronowe tłumaczenie maszynowe (NMT), które przewyższa narzędzia CAT oparte na frazach i stało się nowym standardem komercyjnym.
Dokładnie i bez halucynacji
Przełomem ostatnich lat w neuronowym tłumaczeniu maszynowym było stworzenie transformatorowych sieci neuronowych, które zasilają duże modele językowe lub LLM, takie jak ChatGPT OpenAI, Bard Google, Claude firmy Anthropic i szereg innych. Transformatory uczą się wzorców w języku, rozumieją kontekst tekstu wejściowego i generują odpowiednie dane wyjściowe. Korzystając z techniki zwanej „samouwagą”, mogą selektywnie skupiać się na różnych częściach zdania wejściowego, ważyć ich znaczenie w oparciu o to, jak istotne są dla siebie nawzajem, i identyfikować ważne relacje między nimi, dzięki czemu mogą dokładnie przetłumaczyć je na inny język. Są one również szkolone na ogromnych ilościach dwujęzycznych danych tekstowych, co pomaga im nauczyć się niuansów znaczeniowych i gramatycznych różnych języków, poprawiając ich zdolność do generowania dokładnych tłumaczeń.
„W przypadku modeli transformatorowych przewidujesz również [następne słowo], tak jak w przypadku każdego dużego modelu językowego, ale przewidujesz to w kontekście”, mówi w rozmowie z serwisem „Built In” Olga Beregovaya z firmy tłumaczeniowej Smartling. „Choć duże modele językowe są szkolone do różnych zadań, nowa generacja LLM świetnie radzi sobie z tłumaczeniami”. Na przykład, jeśli użytkownik poprosi ChatGPT w języku angielskim o podanie przepisu na eklerki czekoladowe w języku francuskim, wynik jest przykładem tłumaczenia maszynowego.
Panuje opinia, że neuronowe tłumaczenie maszynowe bez użycia modeli transformatorowych było dokładne, ale brakowało mu płynności języka naturalnego. Tekst generowany przez sztuczną inteligencję generatywną sprawia wrażenie bardziej naturalnego, ale specjaliści ostrzegają przed niedokładnościami i „halucynacjami” w dziedzinie translacji.
Wraz z ciągłym doskonaleniem technik tłumaczenia maszynowego oprogramowanie MT stało się silną opcją dla firm z potrzebami tłumaczeniowymi. Niemniej, idealna, uniwersalna usługa tłumaczenia maszynowego nie istnieje. Należy również pamiętać, że oprogramowanie MT nie ma na celu całkowitego zastąpienia tłumaczenia w wykonaniu ludzi. Wciąż gdy chodzi o tłumaczenie ważnych dokumentów, zaleca się, by po zakończeniu pierwszej rundy tłumaczenia przy użyciu MT, poprosić profesjonalnego tłumacza o sprawdzenie i dopracowanie tłumaczenia.
Na początku XXI wieku pojawiły się pierwsze rozwiązania TMS oparte na chmurze. Umożliwiały zespołom tłumaczeniowym bardziej elastyczną pracę i współpracę z innymi członkami firmy niezależnie od lokalizacji.
Istnieje również technika, zwana hybrydowym tłumaczeniem maszynowym, które polega na wykorzystaniu wielu typów tłumaczenia maszynowego, często opartego na regułach i statystycznego, do tworzenia tłumaczeń. Podobnie jak inne rodzaje tłumaczenia maszynowego, tłumaczenie hybrydowe może być niedokładne. W rezultacie ten rodzaj tłumaczenia może wymagać przeglądu przez tłumaczy-ludzi.
Nie tłumacze, lecz systemy zarządzania tłumaczeniami
Jakie są podstawowe zalety narzędzi do tłumaczenia maszynowego? Przede wszystkim oszczędność czasu, gdyż pozwalają przetłumaczyć znacznie więcej tekstu w krótkim czasie niż w przypadku tłumaczenia ręcznego. Kolejny ważny aspekt to łatwość użycia, bo zasadniczo każdy może korzystać z tłumacza maszynowego, nawet osoby z niewielką lub żadną znajomością języka. Są to też narzędzia niedrogie, zwłaszcza w porównaniu do usług profesjonalnego tłumacza. Niektóre programy do tłumaczenia można łatwo integrować z innymi platformami, eliminując potrzebę wielokrotnego kopiowania i wklejania. Inną ważną zaletą niektórych MT jest to, że mogą one przechowywać często używane struktury zdań i terminologię techniczną lokalnie lub w chmurze, umożliwiając lingwistom szybkie ich ponowne znalezienie. W przypadku firm tłumaczących ogromne ilości treści może to usprawnić przepływ pracy.
Jakość tłumaczenia maszynowego różni się w zależności od czynników, takich jak para językowa, tematyka oryginalnego tekstu, rodzaj treści i zastosowany silnik MT. Narzędzia do tłumaczenia wspomaganego komputerowo (CAT) to aplikacje stworzone w celu wspierania tłumaczy w ich codziennej pracy. Wykorzystują bazy danych wcześniejszych tłumaczeń (zwykle z określonego języka źródłowego i docelowego), a także informacje o częstotliwości, dane segmentacyjne i wiele innych zasobów, aby wspomóc proces tłumaczenia. Wizualnie, interfejs narzędzia CAT zazwyczaj wyświetla dwie kolumny lub panele. Jedna pokazuje tekst źródłowy, a druga tekst docelowy.
Narzędzia CAT mają zazwyczaj wiele funkcji, w tym pamięć historii tłumaczeń, które umożliwiają tłumaczom ponowne wykorzystanie poprzednich tłumaczeń, bazy terminów lub glosariusze, które mogą być wykorzystywane do wyszukiwania terminologii specyficznej dla projektu, możliwość przechodzenia do innych zasobów w celu uzyskania dodatkowego kontekstu, takiego jak obrazy lub komentarze pozostawione przez innych tłumaczy, kierownika projektu lub inne podmioty zaangażowane, zaawansowane narzędzia wyszukiwania i nawigacji, raporty wyszczególniające stopień ukończenia tłumaczenia, automatyczne uzupełnianie segmentów, jeśli są one dokładnie dopasowane do wcześniej przetłumaczonej treści, narzędzia zapewniania jakości do wyszukiwania błędów w tłumaczeniu, takich jak nieprzetłumaczone segmenty, brakujące liczby lub przypadki, w których to samo słowo ma dwa różne tłumaczenia, możliwość wygenerowania ostatecznego przetłumaczonego dokumentu, który automatycznie odzwierciedla format oryginalnego dokumentu, integracja z innymi narzędziami tłumaczeniowymi, takimi jak NMT.
Dla tłumaczy główną korzyścią jest to, że mogą wykorzystać czas zaoszczędzony na powtarzalnych zadaniach, aby bardziej skupić się na samym tłumaczeniu. Narzędzia CAT są również wysoce skalowalne i konfigurowalne. Ponieważ tłumaczenie maszynowe jest obecnie zintegrowane z większością nowoczesnych narzędzi CAT, można wspomóc pracę postredaktorów za pomocą funkcji narzędzi CAT, takich jak glosariusze, bazy terminów i pamięci tłumaczeniowe, a także księgi marki i przewodniki stylu.
System zarządzania tłumaczeniami (TMS) to platforma oprogramowania zaprojektowana w celu usprawnienia projektów tłumaczeniowych poprzez automatyzację ręcznych lub powtarzalnych zadań. Usprawnia proces tłumaczenia od początku do końca, tworząc przepływ pracy od początkowego żądania do zakończenia projektu i umożliwiając użytkownikom planowanie, przypisywanie i zarządzanie projektami tłumaczeniowymi w zorganizowany sposób. Rozwiązania TMS różnią się w zależności od potrzeb użytkowników. Niemniej jednak, ogólnie rzecz biorąc, wszystkie zawierają podstawowy zestaw funkcji: obsługa wielu języków i formatów plików, pulpit nawigacyjny, który wyświetla status projektu i zapewnia dostęp do niezbędnych narzędzi w jednym miejscu, opcja automatycznego przesyłania (importowania) treści do TMS w celu ich przetłumaczenia i pobierania (eksportowania) ich z powrotem po zakończeniu projektu, możliwość usprawnienia procesów poprzez dodawanie użytkowników lub importowanie istniejących zleceń tłumaczeniowych z innych systemów w celu ułatwienia współpracy z zewnętrznymi dostawcami, możliwość przypisywania, modyfikowania lub zwalniania zadań w dowolnym momencie projektu, funkcja raportowania zapewniająca przejrzysty przegląd postępów we wszystkich projektach, zarządzanie rolami użytkowników, które pozwala oddzielić osoby zarządzające projektami od tych, którzy je tłumaczą, współpraca w czasie rzeczywistym dla aktywnej pracy zespołowej i skrócenia czasu realizacji projektu, funkcje narzędzi CAT, takie jak glosariusze, bazy terminologiczne i pamięci tłumaczeniowe, funkcje tłumaczenia maszynowego, które pomagają przyspieszyć proces tłumaczenia, gotowe integracje i interfejsy programowania aplikacji (API) umożliwiające łączność z istniejącymi systemami i innymi narzędziami, takimi jak systemy zarządzania treścią (CMS), narzędzia do projektowania interfejsu użytkownika, systemy kontroli wersji i inne.
Najlepsze rozwiązania TMS są na tyle elastyczne, że pozwalają użytkownikom tworzyć własne środowiska pracy i dostosowywać oprogramowanie do potrzeb konkretnych projektów, organizacji i zespołów.
Automat nie ma prawdziwego mózgu
Jak sugerujemy wyżej, tłumaczenie maszynowe raczej nie wyeliminuje całkowicie pracy ludzkich tłumaczy. Tłumacze w świecie MT mają nowe role i nowe zadania, np. mogą tworzyć glosariusze określonych terminów i poprawne tłumaczenia dla tych terminów, ale to nie wszystko. Ich rola może być dużo istotniejsza, o ile dobrze zrozumieją wyzwania nowych czasów i techniki. W nowej rzeczywistości mogą bowiem stać się w pewnym sensie inżynierami oprogramowania, którzy dyktują zasady, których maszyna musi przestrzegać w trakcie tłumaczenia, a po jego zakończeniu mogą oni wprowadzić zmiany lub poprawki tam, gdzie jest to konieczne. Ten rodzaj pracy jest szczególnie ważny przy tworzeniu modelu tłumaczenia maszynowego, który jest bardziej precyzyjnie dostosowany do konkretnej branży lub firmy. Te same słowa mają różne znaczenia w różnych branżach i specjalistycznych kontekstach. Maszyny wciąż słabo to rozumieją. Łączenie, kojarzenie i tłumaczenie z głębokim zrozumieniem kontekstów to wciąż domena ludzi.
Jak każdy model sztucznej inteligencji, system tłumaczenia maszynowego wie tylko to, co zostało mu przekazane w zestawie danych szkoleniowych. A ponieważ głębokie uczenie wykorzystuje metody nienadzorowane, uczą się wszystkiego, pobierając dane ze świata, niezależnie od tego, czy dane te prowadzą na manowce, czy nie.
W wielu przypadkach tłumaczenie maszynowe nie wygeneruje dokładnego wyniku bez pewnej edycji lub pomocy ze strony ludzi. Tłumaczenie maszynowe ma tendencję do potykania się o różne zasady składni lub gramatyki, które są specyficzne dla poszczególnych języków. A jeśli silnik natknie się na rzadkie lub specjalistyczne słownictwo, na którym nie został przeszkolony, to pojawiają się błędy a wręcz niedorzeczności. Wiele języków zawiera wyrażenia idiomatyczne, które nie mają sensu w dosłownym tłumaczeniu. To sprawia rów-nież, że tłumaczenie maszynowe nie jest optymalnym rozwiązaniem do tłumaczenia bardziej kreatywnych treści, takich jak powieści czy nawet publicystyka.
„W tłumaczeniu maszynowym nie ma prawdziwego mózgu”, zauważa cytowana już wyżej Beregovaya ze Smartling. „To model matematyczny. A model matematyczny nie został zaprojektowany tak, by rozumieć figury retoryczne”. Są też niuanse kulturowe. Na przykład, niektóre języki używają różnych zaimków w zależności od osoby, do której się zwracają; np. jeśli ktoś zwraca się do swojego przyjaciela po francusku, powiedziałby „tu”, ale jeśli zwraca się do swojego szefa, powiedziałby „vous”. Silnik tłumaczenia maszynowego prawdopodobnie nie zrozumiałby tej subtelności, ponieważ nie rozumie, w jaki sposób gramatyka francuska przeplata się z kontekstem i kulturą. Takie rzeczy natomiast wie i rozumie człowiek.
Bezpłatne, czyli wcale nie gorsze i płatne, czyli dla profesjonalistów
Nie ma jednego narzędzia do tłumaczenia maszynowego, które przewyższałoby inne we wszystkich tych aspektach. Narzędzie, które działa dobrze w przypadku jednej pary języków, może nie działać w ogóle w przypadku innej pary języków. Na przykład, osoby mówiące po koreańsku często używają mało u nas znanego narzędzia Papago (3) jako tłumacza maszynowego, ponieważ inne MT, takie jak tłumacz Google, mają trudności z trafną konwersją koreańskich struktur zdaniowych na język angielski. Jeśli ryzyko nieścisłości jest wysokie, jak w przypadku tekstów medycznych lub prawnych albo nie jest możliwe późniejsze poprawienie błędów, jak w przypadku mediów drukowanych, wówczas korzystanie z narzędzi do tłumaczenia maszynowego może nie być odpowiednie, przynajmniej nie bez nadzoru człowieka-tłumacza.
Jednym z najbardziej znanych narzędzi jest Tłumacz Google, bezpłatny i dostępny w ponad stu trzydziestu językach, co czyni go narzędziem tłumaczeniowym o najszerszym zakresie obsługi języków. Oferuje szybkie tłumaczenia. Obsługuje również tryb konwersacji w urządzeniach mobilnych - podczas rozmowy z innymi osobami Tłumacz Google słucha i automatycznie tłumaczy tekst. Nadaje się dobrze do szybkich, ale na pewno nie ważnych merytorycznie tłumaczeń.
Oferowany przez Microsoft Translator to usługa tłumaczenia maszynowego w chmurze, która obsługuje ponad sto języków i tuzin systemów tłumaczenia mowy, które zasilają funkcję konwersacji na żywo w Microsoft Translatorze. Narzędzie jest częścią Microsoft Cognitive Services współpracujących z pakietem Microsoft Office, SharePointem, przeglądarką Microsoft Edge, komunikatorem Skype, programem Visual Studio itp. Bing oferuje tłumaczenie tekstu i mowy za pośrednictwem prostego interfejsu użytkownika, który jest podobny do Tłumacza Google. Nie można przechowywać tłumaczeń do ponownego wykorzystania w przyszłości, a lokalne wersje języków są ograniczone, na przykład dostępna jest tylko opcja hiszpańskiego i nie można jej podzielić na kraje hiszpańskojęzyczne. Microsoft Translator oferuje kilka innych fajnych funkcji, takich jak automatyczne wykrywanie języka, powszechnie używane zwroty w różnych językach oraz opcję odsłuchania tłumaczenia i pobrania aplikacji. Ponadto Microsoft Translator umożliwia tłumaczenie z obrazów, głosu, opcji i linków, które tworzą wartość i zapewniają przyjazne dla użytkownika środowisko.
Gwiazdą tłumaczeń w ostatnich latach stał się DeepL (4). Narzędzie oparte na algorytmach AI zyskało na popularności dzięki dokładniejszym niż inne popularne translatory wynikom. DeepL często jest uważany za lepszy niż narzędzie tłumaczące Google. Zdaniem recenzentów trafnie przechwytuje kontekst i niuanse oryginalnego tekstu, dzięki czemu tłumaczenia są bardziej naturalne i płynne. Dzięki bezpłatnemu planowi, znajomemu interfejsowi, płynnej integracji z Windows i iOS oraz wtyczce do Chrome, DeepL jest dostępny dla każdego. Istnieje możliwość dodania glosariusza, co pozwala ustawić zasady tłumaczenia słów i zwrotów. Pełna siła słownika dostępna jest jednak dopiero w płatnej wersji. DeepL oferuje również łatwy w użyciu tłumacz dokumentów online w czasie rzeczywistym. Można tłumaczyć pliki PDF, Word, PPT i inne za pomocą jednego kliknięcia, zachowując ich oryginalny format. Deepl obsługuje jednak znacznie mniejszą liczbę języków - nieco powyżej trzydziestu.
Poza tymi trzema najbardziej chyba znanymi narzędziami jest wiele innych, często znanych jedynie specjalistom; np. Reverso, darmowe oprogramowanie do tłumaczenia AI, które obsługuje tłumaczenia w osiemnastu językach. Oprócz tłumaczeń, Reverso pomaga użytkownikom w doskonaleniu umiejętności językowych i poszerzaniu znajomości słownictwa. Przetłumaczone teksty zawierają powiązane przykłady i wyjaśnienia, aby pomóc użytkownikom w dalszym doskonaleniu umiejętności pisania, mówienia i czytania.
Inny program o nazwie memoQ to oprogramowanie tłumaczeniowe stworzone przez doświadczoną grupę tłumaczy. Oferuje coś, co dla profesjonalistów jest cenne - pamięć tłumaczeń, przechowując każde przetłumaczone zdanie, dzięki czemu nie trzeba niczego tłumaczyć dwa razy. Wystarczy jedno kliknięcie, by zaimportować tabele lub zewnętrzną bazę terminów. Dostępne jest tu zarządzanie przepływem pracy i jakością.
Znane tłumaczom (ma czterdziestoletnią historię) narzędzie Systran Translation, obsługujące ponad pięćdziesiąt języków, to oprogramowanie do tłumaczenia w czasie rzeczywistym, które umożliwia firmom współpracę i łatwą komunikację z klientami i członkami zespołu. Pozwala użytkownikom tłumaczyć dokumenty, teksty, obrazy, strony internetowe i wiadomości e-mail z jednego języka na inny. Tłumaczy całe pliki lub foldery za pomocą kilku kliknięć.
Smartling to z kolei system zarządzania tłumaczeniami dla dokumentów, zasobów stron internetowych i lokalizacji aplikacji. Zapewnia integrację z oprogramowaniem i narzędziami, w tym Adobe Illustratorem, Photoshopem, Sketchem i Figma. Smartling ma stromą krzywą uczenia się, ale użytkownicy uwielbiają elastyczność konfigurowania swoich przepływów pracy tłumaczeniowej w oparciu o inne platformy. Podobnie jak inne programy omawiane w tej części raportu jest to narzędzie komercyjne, płatne w postaci abonamentu. Podobnie jest z Crowdin, platformą zarządzania tłumaczeniami i lokalizacją, która pomaga firmom i osobom prywatnym tłumaczyć różne rodzaje treści na inne języki. Oferuje różnorodne narzędzia i opcje przeglądania, aby proces tłumaczenia był jak najłatwiejszy. Ma wbudowaną pamięć tłumaczeń. Do grupy tej klasy programów należy również TextUnited - to narzędzie do zarządzania tłumaczeniami, które służy do współpracy pomiędzy tłumaczami, menedżerami i korektorami. Warto wspomnieć też o innych narzędziach oferujących podobny pakiet usług językowych, np. Pairaphrase i Memsource.
Płatnym narzędziem jest także Amazon Translate, usługa tłumaczenia maszynowego, która wykorzystuje model głębokiej nauki maszynowej. Obsługuje różne formaty treści, dokumenty Word, arkusze kalkulacyjne Excel i prezentacje Powerpoint. Ponadto Amazon Translate obsługuje automatyczne tłumaczenie wiadomości e-mail, czatu, helpdesku i aplikacji biletowych.
Generatory tłumaczeń
Obecnie nie można nie wspomnieć o narzędziach tłumaczących wykorzystujących najnowszą falę dużych modeli LLM i generatorów.
Oczywiście można skorzystać do tłumaczenia z generatora „ogólnego” takiego np. jak ChatGPT. Nie został on stworzony jedynie do tłumaczenia. Jak wiadomo, służy do wszystkiego, więc też i do tł-maczenia. Potrafi to w ponad pięćdziesiąt językach. Jego translacje są szybkie. Ręczny proces kopiowania i wklejania tekstu do przetłumaczenia przy zwykłym trybie, choć daje wynik w postaci tłumaczenia, dowodzi, że nie jest to narzędzie do tłumaczenia w sensie poważnym.
Przykładem wyspecjalizowanego programu opartego na tej samej technice jest Lokalise AI, które określa się jako generator AI oraz TMS w jednym. Zapewnia niezwykle dokładne tłumaczenia w szybkim tempie i na dużą skalę. Wystarczy dodać treść, importując ją za pośrednictwem integracji lub przesyłając plik, wybrać język podstawowy i języki docelowe (obsługiwane są różne dialekty) i przetłumaczyć treść zbiorczo. Dodając kontekst, taki jak styl, ton głosu i glosariusz, można ustawić reguły i przekazać sztucznej inteligencji instrukcje, dostosowując tłumaczenia do swoich potrzeb i branży. Z czasem tłumaczenia będą coraz dokładniejsze. Aby uzyskać dodatkową dokładność, używać można pamięci tłumaczeniowej. Obsługuje trzydzieści języków i ich odmian. Tłumaczy masowo na tyle języków, na ile potrzeba. Istnieje też możliwość dodania kontekstu - przewodnik stylu, rozmieszczenie treści, ton głosu. Narzędzie obsługiwane jest przez duży model językowy pochodzący od OpenAI, więc zasadniczo, ma ten sam „mózg” co ChatGPT.
Inne generatywne narzędzie translacyjne to Taia Translations, platforma, która pomaga tłumaczyć i lokalizować dokumenty, strony internetowe i inne treści przy użyciu kombinacji tłumaczeń wspomaganych przez sztuczną inteligencję i doskonalonych przez człowieka. Taia obsługuje prawie siedemdziesiąt różnych formatów plików i można powiedzieć sztucznej inteligencji, jaki rodzaj treści jest do przetłumaczenia. Istnieje pięć rodzajów tłumaczeń do wyboru, w zależności od wymaganej jakości. Tłumaczenia AI kosztują od nieco powyżej pięćdziesięciu centów dla bardziej popularnych języków do 2,70 dolara w przypadku języków takich jak japoński. To, że otrzymujemy natychmiastową wycenę tłumaczeń, a więc z góry wiemy, ile jest do wydania, uznać można za zaletę. Obsługuje prawie sto języków. Brak jest jednak opcji dodania glosariusza i przewodnika po stylach. Taia nie działa zbyt szybko i wcale nie jest oceniana jako wysoce dokładna.
Dzięki interfejsowi użytkownika w stylu Chat-GPT, Copy.ai jest łatwy w użyciu. Wystarczy podłączyć monit, prosząc o przetłumaczenie treści na języki docelowe. Copy.ai jednak nie specjalizuje się w tłumaczeniach. Koncentruje się na tworzeniu i optymalizacji treści, niejako przy okazji tłumacząc na prawie sto języków. Ma możliwość wgrania przewodnika głosowego, jednak brak jest opcji dodania glosariusza i pamięci tłumaczeń.
Kolejne narzędzie o podobnym charakterze to Smartcat AI, od niedawna rozszerza swoje funkcje na tłumaczenia multimedialne, oferując transkrypcję wideo i audio, integrację napisów i usługi lektorskie oparte na AI. Cenną możliwością tego rozwiązania jest opcja integracji programu tłumaczącego i generującego treści z popularnymi platformami, np. WordPressem, Jira, Salsify, Zapierem, Drupalem, Google Docs, Figmą i innymi, co umożliwia automatyzację publikacji pracy.
W końcu jest też Unbabel, która, jak sama o sobie pisze, ułatwia komunikację międzykulturową. Tłumaczony tekst przechodzi w niej przez trójfazowy proces, tłumaczenie maszynowe, redakcję przez ludzi i ostateczną edycję przez starszego redaktora. Unbabel może tłumaczyć różne typy treści w ponad trzydziestu językach i integruje się z platformami takimi jak Intercom, Salesforce i Oracle.
Gadżety, które znoszą bariery
Na modelach i algorytmach, które opisujemy powyżej, bazuje rosnąca gama sprzętu, coraz mniejszego i coraz bardziej poręcznego w użyciu. Na rynku dostępne są produkty wyposażone w specjalny sprzęt audio, np. wkładki douszne, zaprojektowane w celu zapewnienia dodatkowych możliwości. Na przykład niektóre urządzenia aktywnie słuchają mowy w innym języku i automatycznie tłumaczą ją na język ojczysty użytkownika bezpośrednio do słuchawki. Taki sprzęt audio jest sparowany z urządzeniem podłączonym do Internetu, które wykonuje tłumaczenie. Dodatkowo istnieją systemy translatorów, które zawierają własne platformy do łączenia się z internetem w celu wykonywania tłumaczeń (nie są to aplikacje do pobrania na telefony lub tablety).
Jednym z nowszych gadżetów tłumaczących jest Fluentalk T1 Mini obsługujący trzydzieści sześć języków tłumaczonych „na żywo” i umiejętność odróżnienia 88 akcentów języków. Kompaktowe urządzenie jest stylizowane na smartfona, z ekranem dotykowym, kamerą, mikrofonem, systemem głośników i oprogramowaniem zasilanym sztuczną inteligencją, która aktywnie tłumaczy mowę lub obrazy zawierające napisy na rozliczne języki w czasie rzeczywistym po naciśnięciu przycisku.
T1 Mini nagrywa dialogi i transkrybuje je, tłumacząc je na wybrany język. Użytkownik może odpowiadać w swoim ojczystym języku, a T1 Mini konwertuje odpowiedź na tekst i mowę. Podobne jak rozpoznająca napisy na obrazach usługa Lens Google’a urządzenie pomaga odczytywać szyldy, plakaty, menu w restauracjach lub znaki drogowe z napisami w obcym języku. Kamera T1 Mini o rozdzielczości 5 MP aktywnie rozpoznaje i tłumaczy napisy w nawet 39 językach. Będący jedną z marek znanej na rynku urządzeń translacyjnych firmy Timekettle, nowy gadżet ma wyświetlacz o przekątnej 2,8 cala. Opóźnienie w tłumaczeniu symultanicznym wynosi, jak zapewnia producent, najwyżej 0,5 sekundy. Fluentalk T1 Mini waży 86 gramów lub 3 uncje i jest zasilany baterią o pojemności 1500 mAh, która ładuje się przez USB-C i zapewniać ma do siedmiu dni użytkowania po pełnym naładowaniu.
Inna typowa dla ostatnich lat propozycja rynku to inteligentna słuchawka Pilot firmy Waverly Labs, która w czasie rzeczywistym tłumaczy wypowiedzi z języka obcego na język ojczysty. Jest niewielka, bezprzewodowa i do tego komunikuje się ze smartfonem. Służy też do prowadzenia rozmów. Przy tym nie trzeba znać języka obcego, żeby pogadać z obcokrajowcem. Obie konwersujące osoby muszą mieć słuchawki w uszach. Wówczas urządzenie rejestruje mowę, aplikacja mobilna tłumaczy ją na język ojczysty każdego z użytkowników, a chwilę później urządzenie odczytuje już zrozumiałe wypowiedzi.
Komputerowe tłumaczenia w tej czy innej postaci stały się już dla większości z nas codziennością. Tłumaczymy słowa i krótkie wypowiedzi zapisane w internecie w nieznanych nam językach, tłumaczymy całe artykuły i serwisy internetowe. W serwisach wideo korzystamy z tłumaczonych na żywo napisów, piszemy e-maile i inne wiadomości, które są natychmiast tłumaczone na obce języki. Z maszynowych tłumaczeń głosu w trybie symultanicznym korzystamy jeszcze stosunkowo rzadko, ale upowszechnienie tych usług wydaje się tylko kwestią czasu. Po tym jak zmniejszyła świat i skróciła czas komunikacji z najdalszymi zakątkami globu, technika cyfrowa zaczyna wymazywać bariery językowe, co w efekcie być może doprowadzi do zbliżenia od-ległych sobie do tej pory ludzi w sensie kulturowym. To byłoby ciekawe.
Mirosław Usidus