Machine Translation with Minimal Reliance on Parallel Resources

 
 
Springer (Verlag)
  • erschienen am 9. August 2017
  • |
  • IX, 88 Seiten
 
E-Book | PDF mit Adobe-DRM | Systemvoraussetzungen
E-Book | PDF mit Wasserzeichen-DRM | Systemvoraussetzungen
978-3-319-63107-3 (ISBN)
 
This book provides a unified view on a new methodology for Machine Translation (MT). This methodology extracts information from widely available resources (extensive monolingual corpora) while only assuming the existence of a very limited parallel corpus, thus having a unique starting point to Statistical Machine Translation (SMT). In this book, a detailed presentation of the methodology principles and system architecture is followed by a series of experiments, where the proposed system is compared to other MT systems using a set of established metrics including BLEU, NIST, Meteor and TER. Additionally, a free-to-use code is available, that allows the creation of new MT systems. The volume is addressed to both language professionals and researchers. Prerequisites for the readers are very limited and include a basic understanding of the machine translation as well as of the basic tools of natural language processing.
1st ed. 2017
  • Englisch
  • Cham
  • |
  • Schweiz
Springer International Publishing
  • 30
  • |
  • 17 s/w Abbildungen, 30 farbige Tabellen
  • |
  • 17 schwarz-weiße Abbildungen, 30 farbige Tabellen, Bibliographie
  • 2,47 MB
978-3-319-63107-3 (9783319631073)
10.1007/978-3-319-63107-3
weitere Ausgaben werden ermittelt
George Tambouratzis graduated from the Electrical Engeneering Department of the National Technical University of Athens (1989), and received his M.Sc. (1990) and Ph.D. (1993) degrees from Brunel University. Since 1996 he has been with the Institute for Language and Speech Processing (ILSP), working on machine learning, neural networks and evolutionary computation algorithms for computational linguistics. He is the Director of Research at ILSP and the Head of the Machine Translation Department. He co-ordinated several EU-funded projects.
Marina Vassiliou studied Linguistics and holds a Master's degree in Generative Syntax from the University of Athens. As a research associate at ILSP since 2000 she has worked on various, mainly European, research projects concerning specifications for syntactic analysis, machine translation, stylometry, controlled languages, multilingual thesauri and business ontologies as well as the development of a coreference resolution system for Greek language.
Sokratis Sofianopoulos graduated from the University of Ioannina in 2002 and holds a M.Sc. from Heriot-Watt University (2003) and a PhD from the National Technical University of Athens (2010). Since 2005 he is a research associate at ILSP. He has worked in several European R&D programs in the field of NLP and machine translation, such as METIS-II (FP6-IST-003768), PRESEMT (FP7-ICT-248307), QTLaunchPad (FP7-ICT-296347).

Chapter 1: Preliminaries 1

1.1 Challenges in MT - Relevance to the European environment 1

1.2 A brief review of MT development history. 2

1.3 Advantages and disadvantages of main MT paradigms 3

1.4 The PRESEMT methodology in a nutshell 7

1.5 Closing note on implementation. 9

1.6 References 9

1.7 Glossary of Terms 12

Chapter 2: Implementation. 14

2.1 Introduction: Summary of the approach. 14

2.2 Linguistic resources: Data and existing linguistic tools 15

2.2.1 External processing tools 16

2.2.2 Lemma-based bilingual dictionary. 17

2.2.3 The parallel corpus 19

2.2.4 The TL monolingual corpus 22

2.3 Processing the parallel corpus 22

2.3.1 Phrase Aligner Module. 23

2.3.2 Phrasing Model Generation. 28

2.4 Creating a language model for the target language. 30

2.5 References 32

Chapter 3: Main translation process 34

3.1 Introduction. 34

3.2 Translation Phase one: Structure Selection. 35

3.2.1 The Dynamic Programming algorithm.. 37

3.2.2 Example of how Structure Selection works 39

3.3 Phase two: Translation Equivalent Selection. 40

3.3.1 Applying the language model to the task. 42

3.3.2 Example of how TES works 44

3.4 References 45

Chapter 4: Assessing PRESEMT. 47

4.1 Evaluation dataset 47

4.2 Objective evaluation metrics 48

4.3 System evaluation. 49

4.3.1 Evaluation objectives 49

4.3.2 Evaluation results 50

4.3.3 Expanding the comparison. 51

4.3.4 Experimenting with further data. 52

4.4 Comparing PRESEMT to other MT systems 53

4.5 Conclusions 56

4.6 References 57

Chapter 5: Expanding the system.. 58

5.1 Preparing the system for new language pairs 58

5.2 Examining language-pair-specific issues 60

5.2.1 Agreement within a nominal phrase. 60

5.2.2 Case mismatches 61

5.2.3 The null subject parameter 61

5.2.4 Word order 62

5.3 Notes on implementation. 62

5.4 Conclusions 63

5.5 References 63

Chapter 6: Extensions to the PRESEMT methodology. 64

6.1 Splitting SL sentences into phrases more accurately. 64

6.1.1 Design and implementation of TEM.. 65

6.1.2 Experimental evaluation. 68

6.1.3 Conclusions 70

6.2 Combining language models of different granularity. 71

6.2.1 Extracting the n-gram models 72

6.2.2 Experimental results 74

6.2.3 Discussion. 75

6.3 References 76

Chapter 7: Conclusions and future work. 78

7.1 Review of the effectiveness of the PRESEMT methodology. 78

7.2 Likely avenues for improvements in translation quality. 79

7.2.1 Automatic enrichment of dictionary. 79

7.2.2 Design and implementation of TEM.. 80

7.2.3 Grouping of tokens and PoS tags into related classes 81

7.2.4 Revision of the Structure Selection translation phase. 81

7.2.5 Improving the alignment of words/phrases 82

7.2.6 Augmenting the TL language model to cover supra-phrasal segments 83

7.2.7 A closing evaluation of translation accuracy. 84

7.3 References 85
DNB DDC Sachgruppen

Dateiformat: PDF
Kopierschutz: Adobe-DRM (Digital Rights Management)

Systemvoraussetzungen:

Computer (Windows; MacOS X; Linux): Installieren Sie bereits vor dem Download die kostenlose Software Adobe Digital Editions (siehe E-Book Hilfe).

Tablet/Smartphone (Android; iOS): Installieren Sie bereits vor dem Download die kostenlose App Adobe Digital Editions (siehe E-Book Hilfe).

E-Book-Reader: Bookeen, Kobo, Pocketbook, Sony, Tolino u.v.a.m. (nicht Kindle)

Das Dateiformat PDF zeigt auf jeder Hardware eine Buchseite stets identisch an. Daher ist eine PDF auch für ein komplexes Layout geeignet, wie es bei Lehr- und Fachbüchern verwendet wird (Bilder, Tabellen, Spalten, Fußnoten). Bei kleinen Displays von E-Readern oder Smartphones sind PDF leider eher nervig, weil zu viel Scrollen notwendig ist. Mit Adobe-DRM wird hier ein "harter" Kopierschutz verwendet. Wenn die notwendigen Voraussetzungen nicht vorliegen, können Sie das E-Book leider nicht öffnen. Daher müssen Sie bereits vor dem Download Ihre Lese-Hardware vorbereiten.

Bitte beachten Sie bei der Verwendung der Lese-Software Adobe Digital Editions: wir empfehlen Ihnen unbedingt nach Installation der Lese-Software diese mit Ihrer persönlichen Adobe-ID zu autorisieren!

Weitere Informationen finden Sie in unserer E-Book Hilfe.


Dateiformat: PDF
Kopierschutz: Wasserzeichen-DRM (Digital Rights Management)

Systemvoraussetzungen:

Computer (Windows; MacOS X; Linux): Verwenden Sie zum Lesen die kostenlose Software Adobe Reader, Adobe Digital Editions oder einen anderen PDF-Viewer Ihrer Wahl (siehe E-Book Hilfe).

Tablet/Smartphone (Android; iOS): Installieren Sie die kostenlose App Adobe Digital Editions oder eine andere Lese-App für E-Books (siehe E-Book Hilfe).

E-Book-Reader: Bookeen, Kobo, Pocketbook, Sony, Tolino u.v.a.m. (nur bedingt: Kindle)

Das Dateiformat PDF zeigt auf jeder Hardware eine Buchseite stets identisch an. Daher ist eine PDF auch für ein komplexes Layout geeignet, wie es bei Lehr- und Fachbüchern verwendet wird (Bilder, Tabellen, Spalten, Fußnoten). Bei kleinen Displays von E-Readern oder Smartphones sind PDF leider eher nervig, weil zu viel Scrollen notwendig ist. Mit Wasserzeichen-DRM wird hier ein "weicher" Kopierschutz verwendet. Daher ist technisch zwar alles möglich - sogar eine unzulässige Weitergabe. Aber an sichtbaren und unsichtbaren Stellen wird der Käufer des E-Books als Wasserzeichen hinterlegt, sodass im Falle eines Missbrauchs die Spur zurückverfolgt werden kann.

Weitere Informationen finden Sie in unserer E-Book Hilfe.


Download (sofort verfügbar)

58,84 €
inkl. 7% MwSt.
Download / Einzel-Lizenz
PDF mit Adobe-DRM
siehe Systemvoraussetzungen
E-Book bestellen

58,84 €
inkl. 7% MwSt.
Download / Einzel-Lizenz
PDF mit Wasserzeichen-DRM
siehe Systemvoraussetzungen
E-Book bestellen