Tous Actualités
Suivre
Abonner Schweizerischer Nationalfonds / Fonds national suisse

Schweizerischer Nationalfonds / Fonds national suisse

Maschinelles Übersetzen über die Satzgrenze hinaus

Bern (ots)

Die Algorithmen der maschinellen Übersetzung verarbeiten Texte Satz für Satz. So entgeht ihnen ein Grossteil des Kontexts, was zu Übersetzungsfehlern führt. Ein vom SNF unterstütztes Projekt hat nun einen Ansatz entwickelt, der es möglich macht, Texte stärker als Ganzes zu erfassen.

Die vom Schweizerischen Nationalfonds (SNF) unterstützten Forschenden haben einen neuen Weg zur Verbesserung maschineller Übersetzungstools gefunden. Ein solches Tool ist auch die berühmte Software Google Translate, die täglich rund 100 Milliarden Wörter von einer Sprache in eine andere überträgt. Was die Informatiker und Sprachwissenschaftler, die an diesem Projekt mitarbeiten, erstmals zeigen konnten: Übersetzungstools werden besser, wenn man die künstliche Intelligenz dazu bringt, über die satzweise Verarbeitung hinaus Informationen zu berücksichtigen, die an anderen Stellen im Text stehen. Ihr Ansatz findet inzwischen weltweit Beachtung. Am 3. April stellen die Wissenschaftler ihre jüngsten Ergebnisse (*) im Rahmen einer Konferenz der Association for Computational Linguistics in Valencia (Spanien) vor.

Übersetzen ohne Textverständnis

«Maschinelle Übersetzungstools verstehen nicht wirklich den Sinn der Texte, die sie verarbeiten», erklärt Andrei Popescu-Belis, Projektleiter und Leiter der Natural Language Processing Group im Forschungsinstitut Idiap in Martigny (Wallis). Sie wenden statistische Regeln an, um Inhalte von einer Sprache in eine andere zu übertragen. Dabei gehen sie Satz für Satz vor. Allerdings fehlen den einzelnen Sätzen oft Informationen, die für ihre korrekte Übertragung wichtig sind. Die Tools müssten daher auch Dinge berücksichtigen können, die an anderen Stellen im Text stehen.»

Um ihre Annahme zu belegen, haben sich die Forschenden insbesondere mit den Pronomen beschäftigt - kleinen Wörtern, wie «er» oder «diese», die auf andere Textteile verweisen. Da diese Bezugswörter oft ausserhalb des zu übersetzenden Satzes stehen, machen die Übersetzungstools viele Fehler. Popescu-Belis nennt ein einfaches Beispiel aus dem Französischen, das sogar ausgeklügelte Tools in die Irre führt: «Meine Tante hat eine tolle Limousine gekauft. Sie ist aber nicht so schön.» Google Translate macht daraus im Englischen: «My aunt has bought a great sedan. But she is not so beautiful.» Das Tool übersetzt «sie» mit «she». Da sich dieses Pronomen aber nur auf Personen weiblichen Geschlechts bezieht, versteht der englische Leser, dass «meine Tante» «nicht sehr hübsch» ist.

Die Fallen der Statistik

Das Tool wird in die Irre geführt, weil es weiss, dass das Attribut «nicht sehr hübsch» sich häufiger auf Personen als auf Gegenstände bezieht. Stünde an seiner Stelle «rostig» oder «defekt» - also ein Begriff, der sich in der Regel auf Gegenstände bezieht, wären die Chancen für die korrekte Übersetzung «it» grösser.

Um ein passendes Ergebnis zu erhalten, hätte das maschinelle Übersetzungstool Informationen heranziehen müssen, die im ersten Satz enthalten sind. Das ist grob, was das Tool der Forschenden des Idiap leistet, das sie in Zusammenarbeit mit den sprachwissenschaftlichen Fachbereichen der Universitäten Genf und Utrecht (Niederlande) sowie dem Institut für Computerlinguistik der Universität Zürich entwickelt haben.

Die Wissenschaftler setzen in erster Linie selbstlernende («machine learning») Techniken ein. Bei jedem Versuch lassen sie die Algorithmen Hunderte von Parametern abgleichen, die hinzugefügt oder entfernt werden, bis sich das Ergebnis verbessert. «Im Prinzip geben wir dem System an, wie viele der voranstehenden Sätze es in welcher Weise analysieren muss. Dann testen wir es unter realen Bedingungen.»

Google rekrutiert Mitarbeitende des Projekts

Laut Popescu-Belis sind die Ergebnisse vielversprechend. Bei Sprachpaarungen wie Französisch-Englisch oder Spanisch-Englisch führen Pronomen die maschinellen Übersetzungstools in rund der Hälfte aller Fälle in die Irre. «Indem wir das Tool zwingen, auch Informationen zu berücksichtigen, die ausserhalb des gerade übersetzten Satzes stehen, können wir die Fehlerquote inzwischen auf 30 Prozent senken», sagt der Wissenschaftler.

Für die Forschenden geht die Herausforderung weit über die Problematik der Pronomen hinaus: Weitere Übersetzungsprobleme, die sich im Wesentlichen nur lösen lassen, wenn der Text nicht in einzelnen Sätzen, sondern in seiner Gesamtheit betrachtet wird, sind beispielsweise die Zeitenfolge, die Auswahl der passenden Terminologie und die richtige Sprachebene.

Auch wenn die von Popescu-Belis und seinen Kolleginnen und Kollegen entwickelten Techniken noch nicht für die breite Anwendung ausgereift sind, haben sie doch das Interesse der Akteure in diesem Bereich geweckt. «Unsere Arbeit hat gezeigt, dass das maschinelle Übersetzen sich von der reinen Satz-für-Satz-Übertragung lösen muss. Was uns besonders freut: Drei an diesem Projekt beteiligte Nachwuchsforschende arbeiten nun bei Google in Zürich zu diesem Thema. Das zeigt, wie gross das Interesse an unserem Ansatz ist.»

LINKS

Projekt "MODERN" in der Projekt-Datenbank des SNF http://p3.snf.ch/project-147653

(*) N. Q. Luong and A. Popescu-Belis: Machine translation of Spanish personal and possessive pronouns using anaphora probabilities. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL), Valencia, 5-7 April 2017. http://publications.idiap.ch/downloads/papers/2017/Luong_EACL_2017.pdf

(*) X. Pu, L. Mascarell and A. Popescu-Belis: Consistent Translation of Repeated Nouns using Syntactic and Semantic Cues. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL), Valencia, 5-7 April 2017. http://publications.idiap.ch/downloads/papers/2017/Pu_EACL_2017.pdf

(*) L. Miculicich Werlen and A. Popescu-Belis: Using Coreference Links to Improve Spanish-to-English Machine Translation. Proceedings of the EACL Workshop on Coreference Resolution beyond OntoNotes (CORBON), Valencia, 4 April 2017. http://publications.idiap.ch/downloads/papers/2017/Werlen_CORBON_2017.pdf

(*) A. R. Gonzales and D. Tuggener: Co-reference Resolution of Elided Subjects and Possessive Pronouns in Spanish-English Statistical Machine Translation. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL), Valencia, 5-7 April 2017. http://www.zora.uzh.ch/136447/1/CoReferenceAwareMT.pdf

Kontakt:

Andrei Popescu-Belis
Idiap Research Institute
Centre du Parc, CP 592
1920 Martigny
Tel.: +41 (0)27 721 77 29
E-Mail: andrei.popescu-belis@idiap.ch

Plus de actualités: Schweizerischer Nationalfonds / Fonds national suisse
Plus de actualités: Schweizerischer Nationalfonds / Fonds national suisse
  • 27.03.2017 – 08:00

    Einfluss der Sonne auf den Klimawandel erstmals beziffert

    Bern (ots) - Modellrechnungen zeigen erstmals eine plausible Möglichkeit auf, wie Schwankungen der Sonnenaktivität einen spürbaren Effekt auf das Klima haben. Gemäss den vom Schweizerischen Nationalfonds geförderten Arbeiten könnte sich die menschgemachte Erderwärmung in den nächsten Jahrzehnten leicht verlangsamen: Eine schwächere Sonne wird voraussichtlich ein halbes Grad Abkühlung beitragen. Es gibt den ...

  • 08.03.2017 – 08:00

    Wie Stalldreck vor Allergien schützt

    Bern (ots) - Vom Schweizerischen Nationalfonds unterstützte Forschende liessen Labormäuse im Kuhstall aufwachsen. Damit studierten sie, wie die Umwelt des Bauernhofs das Immunsystem verändert und vor Allergien schützt. Durch eine verbesserte Hygiene sind Infektionskrankheiten grösstenteils aus unserem Alltag verbannt worden. Der Erfolg hat allerdings eine Schattenseite: Die Zahl der Allergien nimmt stetig zu. Wenn ...

  • 01.03.2017 – 08:05

    Bessere Gesundheitsversorgung für chronisch kranke Menschen

    Bern (ots) - Der Schweizerische Nationalfonds startet das Nationale Forschungsprogramm "Gesundheitsversorgung". 29 Forschungsteams suchen nach Lösungen, um chronisch kranke Menschen besser und kosteneffizienter zu versorgen. Immer mehr alte und chronisch kranke Menschen benötigen langfristig ausgelegte Behandlung und Pflege. Rund 80 Prozent der Versorgungskosten fallen in diesen Bereich. Der Schweizerische Nationalfonds ...