Databáze mnohojazyčných vět zboří jazykové bariéry

Databáze mnohojazyčných vět zboří jazykové bariéry

SDÍLEJTE
By: woodleywonderworks
Evropská komise činí další krok na cestě k mnohojazyčnosti, která je základem „jednoty v rozmanitosti“ Evropské unie. Komise vlastní databázi, jež obsahuje zhruba milion vět velmi kvalitních překladů do 22 úředních jazyků EU (ze stávajících 23). Jedná se o nejrozsáhlejší databázi s takovým množstvím jazyků, včetně jazyků nových členských států.Databáze je nyní volně přístupná. Obsahuje data, která jsou žádána vývojáři systémů zajišťujících strojový překlad, v jejichž rámci se překladový software „učí“ z překladů provedených skutečnými překladateli. Jde o to, jak slova a věty překládat správně a v kontextu. Data mohou sloužit i k vývoji dalších lingvistických softwarových nástrojů, jako je kontrola gramatiky a překlepů, slovníky on-line a mnohojazyčné systémy určené ke klasifikaci textů.

Komisař pro mnohojazyčnost Leonard Orban řekl: „Evropská komise chce touto akcí podpořit rozvoj technologií v oblasti lidské řeči, rozvinout mnohojazyčnost, usnadnit a zlevnit překlad podporovaný počítačem a učinit jej přístupnějším. Občanům používajícím méně rozšířené jazyky to usnadní přístup k dokumentům a internetovým stránkám, jež jsou k dispozici pouze v jazycích používaných větším počtem lidí.“

Janez Potočnik, komisař pro vědu a výzkum, řekl: „Tato databáze s jazykovými daty, jedinečná svého druhu, napomůže při tvorbě nové generace softwarových nástrojů určených ke zpracování lidské řeči. Podpoří i konkurenční prostředí v oblasti jazyků. Ta patří již dnes k nejrychleji se rozvíjejícím hospodářským sektorům Evropské unie.“

Orgány a instituce EU disponují větším množstvím mnohojazyčných textů než kterákoli jiná organizace. Je to důsledkem požadavku, aby právo EU bylo dostupné ve všech 23 úředních jazycích. Překladatelské odbory a oddělení těchto institucí pracují s 253 možnými jazykovými kombinacemi a ročně přeloží zhruba 1,5 milionu stránek.

Na internetu lze dohledat velké množství překladů v angličtině a ve francouzštině. V lotyštině a rumunštině jsou však takové texty spíše vzácností. U jazykových kombinací, kde je málo překladatelů, pak texty v podstatě neexistují.

Komise proto ve spolupráci svých překladatelů a interních vědeckých pracovníků uvolňuje rozsáhlou databázi vět pocházejících z právních dokumentů. Texty se zabývají technickými, politickými i sociálními tématy a jsou k dispozici ve 22 jazycích. V databázi lze najít věty s ekvivalenty ve všech ostatních úředních jazycích. Jen překlady do irštiny nejsou prozatím k dispozici. Zpřístupnění jazykových dat je příkladem jak Komise chápe politiku otevřenosti při využívání svých jazykových databází a následuje po předchozím otevření databáze dokumentů Eur-Lex a terminologické databáze IATE.

Komise má rozsáhlé zkušenosti s vývojem nástrojů pro zpracování mnohojazyčných textů a v oblasti mnohojazyčnosti stojí v přední řadě. Poskytuje totiž veřejně dostupné vyhledávací servery zpráv, které pokrývají až 35 jazyků (tzv. Media Monitoring). Podpora strojového překladu a technologií zabývajících se jazyky je součástí sedmého rámcového programu pro výzkum a vývoj v sekci komunikačních technologií.

SDÍLEJTE