duden.de

Das Dudenkorpus

Eine Redakteurin oder ein Redakteur muss, um einen Wörterbuchartikel zu schreiben, beispielsweise entscheiden: Heißt es das Tahin oder der Tahin? Muss der Genitiv des Check-ins lauten oder ist auch des Check-in möglich? Werden manche Ausdrücke hauptsächlich in bestimmten Regionen gebraucht? Verwendet man heute wegen oftmals mit dem Dativ? Welche Schreibweise überwiegt, wenn mehrere Varianten möglich sind? Solche Fragen beantwortet die Redaktion auf Basis der Daten des Dudenkorpus.  

Das Korpus ist eine umfangreiche Zusammenstellung digitaler Texte aus dem deutschsprachigen Raum und enthält inzwischen rund sieben Milliarden Wortformen. Es dient der Dudenredaktion zur Beobachtung des täglichen Sprachgebrauchs und beinhaltet Zeitungs- und Zeitschriftenartikel, literarische Texte, Schulbuchinhalte, Vorträge, Webtexte oder auch Reparaturanleitungen. Es deckt somit auch Teile der Wortschätze verschiedenster Fachgebiete (z. B. Biologie, Chemie, Informatik, Medizin, Technik, Wirtschaft) ab.

Neben der Ausgewogenheit und Vielfalt der Textquellen spielen genaue linguistische Informationen zu jeder der Wortformen eine zentrale Rolle. Im Dudenkorpus finden sich deshalb nicht nur Wörter, sondern jedes Wort und jede einzelne Wortform ist „annotiert“. Das bedeutet, dass sie mit sprachlichen und metasprachlichen Informationen angereichert werden, zum Beispiel zur Wortart oder zum Datum des Auftretens.

Auf der Basis des Korpus kann die Redaktion neue Erkenntnisse über die Häufigkeit und die Veränderung bestimmter sprachlicher Strukturen gewinnen. Die Ergebnisse quantitativer und qualitativer Analysen schlagen sich direkt in der Qualität der Duden-Nachschlagewerke nieder. 

Vor allem hilft das Dudenkorpus der Redaktion dabei, sich neu etablierende Wörter ausfindig zu machen, die Kandidaten für die Aufnahmen in Duden-Wörterbücher sein könnten. Wie kommt ein Wort in den Duden? 

Die kontinuierliche Erweiterung des Korpus durch neue Texte und Sprachdaten wird durch Partnerschaften ermöglicht. Eine Auswahl unserer Partnerschaften in alphabetischer Reihenfolge: