Band 59: Dörr, Simone (2005): Vom WWW zur Kollokation: Praxisorientiertes Verfahren zur Kollokations- und Terminologieakquisition für Übersetzer und Dolmetscher
ISBN 3-88476-783-6, (146 S.; 25 Abb.; 13 Tab.), EUR 26,50, CD-ROM
Durch die neuen Medien und Technologien ergibt sich ein verändertes Anforderungsprofil für Übersetzer und Dolmetscher. Eine zentrale Bedeutung kommt der eigenständigen, übersetzungsbezogenen Sprach- und Fachdatenrecherche zu. Das Internet bietet die Möglichkeit, sich individuell ein Sachgebiet zu erschließen, wobei Texte im WWW zu einem Korpus gesammelt und linguistisch sowie terminologisch aufbereitet werden. Die vorliegende Arbeit versucht, mithilfe einfacher Techniken und Tools ein effizientes Verfahren zur Kollokations- und Terminologieakquisition für Übersetzer und Dolmetscher zu entwickeln.
Nachdem Kollokationen als zentrales Problem und qualitätskonstituierendes Merkmal der Sprachmittlung erläutert werden, wird umfassend auf das WWW als computerlinguistische Ressource, auf die Korpuslinguistik und auf das Office-Programm ContentSaver als Werkzeug der Korpuskompilation eingegangen. Es folgen Ausführungen zur Kollokations- und Terminologieextraktion mithilfe zweier Textanalyseprogramme und zur Äquivalenzsuche, bevor die Ergebnisse der Korpusanalysen präsentiert werden. Abschließend wird die Kollokationsdatenbank von Lighthouse Unlimited vorgestellt und eine grafische Benutzeroberfläche zur automatischen Integration der extrahierten Kollokationen und Fachtermini in die Datenbank entwickelt.
INHALTSVERZEICHNIS:
0 Einleitung 4
1 Ziele und Methodik 7
1.1 Abgrenzung des Themas 7
1.2 Zielsetzung 7
1.3 Methodik 8
1.4 Voraussetzungen 9
2 Kollokationen 10
2.1 Kollokationen in der Sprachwissenschaft 11
2.1.1 Geschichte 11
2.1.2 Definition und Typologie 12
2.1.2.1 Die Terminologie des Britischen Kontextualismus 13
2.1.2.2 Der Ansatz Hausmanns 13
2.1.3 Abgrenzung 15
2.1.3.1 Kollokationen und freie Verbindungen 15
2.1.3.2 Kollokationen und Idiome 16
2.1.3.3 Kollokationen und Komposita 16
2.2 Kollokationen und Sprachmittler 17
2.3 Kollokationswörterbücher 18
2.3.1 Kollokationswörterbücher im Printformat 19
2.3.2 Kollokationsdatenbanken 19
3 Das WWW als computerlinguistische Ressource 20
3.1 Das Internet als multifunktionales, -mediales und -linguales
Medium 20
3.2 Computerlinguistik 21
4 Das Office-Programm ContentSaver 23
4.1 Allgemeines 25
4.1.1 Testversion und Vollversion 25
4.1.2 Die Systemanforderungen 25
4.1.3 Mögliche Eingabeformate 26
4.1.4 Die Benutzeroberfläche 26
4.2 Die verschiedenen Funktionen 28
4.2.1 Das Sammeln von Information 28
4.2.2 Verwalten und Organisieren von Dokumenten und
Wissensbeständen 29
4.2.3 Verwerten und Weiterverarbeiten 29
4.3 Nützliche Tastenkombinationen 29
4.4 Fazit 30
5 Korpora: Geschichte, Definition, Typologie, Beispiele 32
5.1 Geschichte 32
5.2 Definition und Typologie 33
5.2.1 Definition 33
5.2.2 Korpustypen 33
5.2.3 Annotierte Korpora: Tokenisierung, Tagging, Chunking, Parsing 34
5.3 Beispiele 35
5.3.1 BNC 35
5.3.2 IDS 35
5.3.3 Das WWW als Korpus 36
6 Contentsaver als Werkzeug der Korpuskompilation 37
6.1 Allgemeine Überlegungen zur Korpuserstellung 37
6.1.1 Einsprachig vs. zweisprachig vs. parallel 37
6.1.2 Gemeinsprachlich vs. fachsprachlich 37
6.1.3 Kriterien nach Vintar 38
6.2 Relevante technische Aspekte 39
6.2.1 Aufbereitung und Kodierung 39
6.2.2 Größe 39
6.2.3 Einfluss der Vorverarbeitung auf weitergehende Analysen 40
6.3 ContentSaver-Korpus: Kriterien zur Auswahl von Texten 40
6.3.1 Quelle und Qualität 40
6.3.2 Zeit 41
6.3.3 Diskurs 41
6.3.4 Land 42
6.3.5 Copyright 42
6.4 Praxisschritte zur Korpuserstellung 43
6.5 Korpusrepräsentation: Externe Speicherung des
ContentSaver-Korpus 44
7 Korpusanalyse: Kollokations- und Termextraktion mithilfe zweier Textanalyseprogramme 47
7.1 Abfragesysteme für Textkorpora 47
7.1.1 Konkordanzsuche 47
7.1.2 Musterbasierte Suche 48
7.1.3 Statistische Analyse 48
7.1.4 Korpusabfrage und Kollokationsextraktion 49
7.2 Analysewerkzeuge TerminologyExtractor und SCP 51
7.2.1 TerminologyExtractor und Kollokationsextraktion 52
7.2.1.1 Technische Aspekte 55
7.2.1.2 Der Kollokationsbegriff von TerminologyExtractor 55
7.2.1.3 Selektionskriterien nach Caro Cedillo 56
7.2.1.4 Kollokationsextraktion für das Englische 57
7.2.1.5 Kollokationsextraktion für die deutsche Sprache 70
7.2.1.6 Probleme und Fazit 78
7.2.2 Simple Concordance Program (SCP) und Termextraktion 80
7.2.2.1 Technische Aspekte 81
7.2.2.2 Termextraktion für die deutsche Sprache 81
7.2.2.3 Extraktion von Komposita für die englische Sprache 89
7.2.2.4 Probleme und Fazit 92
8 Äquivalenzsuche 93
9 Ergebnisse der Kollokationsextraktion und
Äquivalenzfindung 99
9.1 Fallbeispiel I: Kommunikationstechnik 99
9.2 Fallbeispiel II: Wirtschaft 110
9.2.1 Extraktion englischer fachsprachlicher Kollokationen 110
9.2.2 Extraktion deutscher Mehrworttermini 112
9.3 Fallbeispiel III: Gemeinsprachliches Zeitungskorpus 112
9.3.1 Extraktion englischer Kollokationen 113
9.3.2 Extraktion deutscher Kollokationen 114
10 Repräsentation der extrahierten Kollokationen in einer
Datenbank 116
10.1 Externe Speicherung der Ergebnisse 116
10.2 Die Kollokationsdatenbank von Lighthouse Unlimited 117
10.3 Ergänzende Überlegungen zur Kollokationsdatenbank von
Lighthouse Unlimited 120
10.4 Halbautomatische Bestückung der Datenbank:
das Interface CollocLink: Anforderungsspezifikation 121
10.4.1 Allgemeine Überlegungen zu CollocLink 122
10.4.2 Design und Struktur von CollocLink 123
10.4.2.1 Die Tabelle AS 124
10.4.2.2 Die Tabelle ZS 125
10.4.2.3 Die Tabelle Beispiele 126
10.4.3 Unterstützte Sprachen 127
10.4.4 Export und Erweiterung 128
10.4.5 Probleme und Fazit 128
10.4.6 Programmiertechnische Aspekte 129
11 Zusammenfassung und Ausblick 130
12 Quellen 133
12.1 Literatur 133
12.2 Nachschlagewerke 137
12.3 Internetadressen 138
12.4 Abbildungsverzeichnis 140
12.5 Tabellenverzeichnis 142
13 Anhang - Stopplisten 143
13.1 Deutsche Stoppliste 143
13.2 Englische Stoppliste 144