| Hubert1965 |
Verfasst am: 15. März 2011 09:21 Titel: Wortformen-Datenbank, Synonym-Datenbank |
|
Im Zuge meiner Diplomarbeit muss ich mit Hilfe eines von mir zu schreibenden Computerprogramms deutsche Texte aus dem Internet analysieren. Um genau zu sein geht es darum, aus einer langen Liste von kurzen Texten (durchschnittlich jeweils ca. 80 Zeichen lang) Paare von Texten mit gleichem Inhalt herauszufinden.
Dazu ist es notwendig, dass ich erkennen kann, dass z.B. "Häufchen" und "Haufens" oder "luden" und "geladen" jeweils zwei Formen desselben Wortes sind. Ich muss auch erkennen können, dass mit "Schabe" und "Kakerlake", oder mit "Angst", "Furcht" und "Phobie" (fast) identische Begriffe gemeint sind.
Um diese Aufgabe lösen zu können, brauche ich Tabellen, die mir sagen, dass "längst" und "länglich" Wortformen von "lang" sind, und dass ein "Fernsprechapparat" ein "Telefon" ist.
Weiß jemand, wo man solche Datenbestände beziehen kann? Von großem Vorteil wäre dabei natürlich ein möglichst kleiner Preis (am besten gratis). |
|