Das DWDS hat in den Jahren 2000–2005 eine große Textdatenbank erstellt, die sich aus fünf verschiedenen Textsorten zusammensetzt: Belletristik, journalistische Prosa, Wissenschafts-sprache, Gebrauchsliteratur und gesprochene Sprache. Die Textdatenbank umfasst mehr als 1 Milliarde laufende Textwörter in 2 Millionen Dokumenten und etwa 8,9 Millionen verschiedene Wortformen. Ziel der Erschließung dieses Materials ist es, einen völlig neuen Überblick über die deutsche Lexik zu bekommen. Aufgrund der Materialfülle setzt das Projekt hierfür verschiedene computerlinguistische Werkzeuge ein. Diese reichen von der Vorverarbeitung über die morphologische Analyse bis hin zu einer flachen syntaktischen und semantischen Analyse. Der morphologischen Analyse kommt im Deutschen eine besondere Bedeutung aufgrund der produktiven Kompositionsbildung zu. Beispielsweise verzeichnet die DWDS-Datenbank über 10.000 verschiedene Bildungen mit ‚Selbst. Zum Vergleich: der 10-bändige Duden (1999) führt lediglich 240 Formen auf. Die morphologische Analyse muss daher in der Lage sein, transparente Bildungen auf die entsprechenden Einträge im Wörterbuch zurückzuführen bzw. als neue Wörter zu erkennen. Die syntaktische Analyse dient dazu, neue Wörter aufgrund ihrer Kontexte zu klassifizieren bzw. bei mehrdeutigen Wörtern wie z.B. Fischer zu entscheiden, ob es sich um einen Eigennamen oder ein Substantiv handelt. Schließlich wird im Projekt eine flache semantische Analysekomponente eingesetzt, die einerseits für die lexikographische Analyse bei der Erkennung von Verbkontexten, andererseits für die thematische Zuordnung von Wörtern in Dokumenten genutzt werden kann. Ein Beispiel hierfür ist die Berechnung der ZEIT-Wörter der Woche, die die statistisch häufigsten Wörter der ZEIT in die Kategorien Personen, Organisationen, Orte, Ereignisse, Artefakte, Tiere und Pflanzen sowie sonstige Schlagwörter einordnet.