„Text Mining“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
K Kleinkram
 
(32 dazwischenliegende Versionen von 24 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
'''Text Mining''', seltener auch '''Textmining''', '''Text Data Mining''' oder '''Textual Data Mining''', ist ein Bündel von [[Algorithmus]]-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit [[Sprachstatistik|statistischen]] und [[Quantitative Linguistik|linguistischen]] Mitteln erschließt Text-Mining-[[Software]] aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem dazu in der Lage, [[Hypothese]]n zu generieren, diese zu überprüfen und schrittweise zu verfeinern.
'''Text Mining''', seltener auch '''Textmining''', '''Text Data Mining''' oder '''Textual Data Mining''', ist ein Bündel von [[Algorithmus]]-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit [[Sprachstatistik|statistischen]] und [[Quantitative Linguistik|linguistischen]] Mitteln erschließt Text-Mining-[[Software]] aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem in der Lage, [[Hypothese]]n zu generieren, diese zu überprüfen und schrittweise zu verfeinern.


== Konzept ==
== Konzept ==
Das 1995 von [[Ronen Feldman]] und [[Ido Dagan]] als ''Knowledge Discovery from Text (KDT)''<ref>{{Internetquelle| seiten = 112–117| autor = Ronen Feldman, Ido Dagan| titel = Knowledge Discovery in Texts| kommentar = First International Conference on Knowledge Discovery (KDD)|url=http://u.cs.biu.ac.il/~dagan/publications/KnowledgeDiscovery.ps|zugriff=2015-01-27}}</ref> in die Forschungsterminologie eingeführte Text Mining<ref name=":0">{{Cite journal|volume=20|issue=1|last=Hotho|first=Andreas|coauthors=Andreas Nürnberger, Gerhard Paaß|title=A Brief Survey of Text Mining|journal=Zeitschrift für Computerlinguistik und Sprachtechnologie|accessdate=2011-11-11|date=2005|url=http://www.kde.cs.uni-kassel.de/hotho/pub/2005/hotho05TextMining.pdf|format=PDF}}</ref> ist kein klar definierter Begriff. In Analogie zu [[Data-Mining]] in der [[Knowledge Discovery in Databases]] (''KDD'') ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.<ref name=":2">{{Cite journal|volume=20|issue=1|last=Mehler|first=Alexander|coauthors=Christian Wollf|title=Einleitung: Perspektiven und Positionen des Text Mining|journal=Zeitschrift für Computerlinguistik und Sprachtechnologie|accessdate=2011-11-11|date=2005|url=http://pub.uni-bielefeld.de/luur/download?func=downloadFile&recordOId=1773642&fileOId=2311304|format=PDF}}</ref> Umfassender kann Text Mining als Prozess der Zusammenstellung und Organisation, der formalen Strukturierung und algorithmischen Analyse großer Dokumentsammlungen zur bedarfsgerechten Extraktion von Informationen und der Entdeckung versteckter inhaltlicher Beziehungen zwischen Texten und Textfragmenten gesehen werden.
Das 1995 von [[Ronen Feldman]] und [[Ido Dagan]] als ''Knowledge Discovery from Text (KDT)''<ref>{{Internetquelle |autor=Ronen Feldman, Ido Dagan |url=http://u.cs.biu.ac.il/~dagan/publications/KnowledgeDiscovery.ps |titel=Knowledge Discovery in Texts |seiten=112–117 |offline=1 |archiv-url=https://web.archive.org/web/20140901191050/http://u.cs.biu.ac.il/~dagan/publications/KnowledgeDiscovery.ps |archiv-datum=2014-09-01 |archiv-bot=2023-01-20 12:44:16 InternetArchiveBot |abruf=2015-01-27 |kommentar=First International Conference on Knowledge Discovery (KDD)}}</ref> in die Forschungsterminologie eingeführte Text Mining<ref name=":0">{{Literatur |Autor=Andreas Hotho, Andreas Nürnberger, Gerhard Paaß |Titel=A Brief Survey of Text Mining |Sammelwerk=Zeitschrift für Computerlinguistik und Sprachtechnologie |Band=20 |Nummer=1 |Datum=2005 |Online=http://www.kde.cs.uni-kassel.de/hotho/pub/2005/hotho05TextMining.pdf |Format=PDF |Abruf=2011-11-11}}</ref> ist kein klar definierter Begriff. In Analogie zu [[Data-Mining]] in der [[Knowledge Discovery in Databases]] (''KDD'') ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.<ref name=":2">{{Literatur |Autor=Alexander Mehler, Christian Wollf |Titel=Einleitung: Perspektiven und Positionen des Text Mining |Sammelwerk=Zeitschrift für Computerlinguistik und Sprachtechnologie |Band=20 |Nummer=1 |Datum=2005 |Online=https://web.archive.org/web/20150402143908/http://pub.uni-bielefeld.de/luur/download?func=downloadFile&recordOId=1773642&fileOId=2311304 |Format=PDF |Abruf=2011-11-11}}</ref> Umfassender kann Text Mining als Prozess der Zusammenstellung und Organisation, der formalen Strukturierung und algorithmischen Analyse großer Dokumentsammlungen zur bedarfsgerechten Extraktion von Informationen und der Entdeckung versteckter inhaltlicher Beziehungen zwischen Texten und Textfragmenten gesehen werden.


=== Typologien ===
=== Typologien ===
Die unterschiedlichen Auffassungen von Text Mining können mittels verschiedener Typologien geordnet werden. Dabei werden Arten des [[Information Retrieval]] (''IR''),<ref name=":2" /><ref name=":1" /> des [[Dokumenten-Clustering]], des Text Data-Mining und des KDD<ref name=":3">{{Cite book|publisher=Springer|isbn=978-1-84628-754-1|pages=145-169, S.&nbsp;146|editors=Anne Kao, Steve Poteet|last=Atkinson|first=John|title=Natural Language Processing and Text Mining|chapter=Evolving Explanatory Novel Patterns for Semantically-Based Text Mining|location=London, U.K.|date=2007}}</ref><ref name=":0" /> immer wieder als Unterformen des Text Mining genannt.
Die unterschiedlichen Auffassungen von Text Mining können mittels verschiedener Typologien geordnet werden. Dabei werden Arten des [[Information Retrieval]] (''IR''),<ref name=":2" /><ref name=":1" /> des [[Dokumenten-Clustering]], des Text Data-Mining und des KDD<ref name=":3">{{Literatur |Autor=John Atkinson |Hrsg=Anne Kao, Steve Poteet |Titel=Evolving Explanatory Novel Patterns for Semantically-Based Text Mining |Sammelwerk=Natural Language Processing and Text Mining |Verlag=Springer |Ort=London, U.K. |Datum=2007 |ISBN=978-1-84628-754-1 |Kapitel=Evolving Explanatory Novel Patterns for Semantically-Based Text Mining |Seiten=145-169, hier S.&nbsp;146}}</ref><ref name=":0" /> immer wieder als Unterformen des Text Mining genannt.


Beim ''IR'' ist dabei bekannt, dass die Textdaten bestimmte Fakten enthalten, die mittels geeigneter Suchanfragen gefunden werden sollen. In der ''Data-Mining-Perspektive'' wird Text Mining als „Data-Mining auf textuellen Daten“ verstanden, zur Exploration von (interpretationsbedürftigen) Daten aus Texten. Die weitestgehende Art des Text Mining ist das eigentliche ''KDT'', bei der neue, zuvor unbekannte Informationen aus den Texten extrahiert werden sollen.<ref name=":3" />
Beim ''IR'' ist dabei bekannt, dass die Textdaten bestimmte Fakten enthalten, die mittels geeigneter Suchanfragen gefunden werden sollen. In der ''Data-Mining-Perspektive'' wird Text Mining als „Data-Mining auf textuellen Daten“ verstanden, zur Exploration von (interpretationsbedürftigen) Daten aus Texten. Die weitestgehende Art des Text Mining ist das eigentliche ''KDT'', bei der neue, zuvor unbekannte Informationen aus den Texten extrahiert werden sollen.<ref name=":3" />
Zeile 12: Zeile 12:
Text Mining ist mit einer Reihe anderer Verfahren verwandt, von denen es wie folgt abgegrenzt werden kann.
Text Mining ist mit einer Reihe anderer Verfahren verwandt, von denen es wie folgt abgegrenzt werden kann.


Am stärksten ähnelt Text Mining dem Data-Mining. Mit diesem teilt es viele Verfahren, nicht jedoch den Gegenstand: Während Data-Mining zumeist auf stark strukturierte Daten angewandt wird, befasst sich Text Mining mit wesentlich schwächer strukturierten Textdaten. Beim Text Mining werden deshalb in einem ersten Schritt die [[Primärdaten]] stärker strukturiert, um ihre Erschließung mit Verfahren des Data-Mining zu ermöglichen.<ref name=":0" /> Anders als bei den meisten Aufgaben des Data-Mining sind zudem Mehrfachklassifikationen beim Text Mining meist ausdrücklich erwünscht.<ref name=":4">{{Cite book|publisher=Springer|isbn=978-1-84628-765-7|last=Bramer|first=Max|title=Principles of Data Mining|location=London, U.K.|date=2007}}</ref>
Am stärksten ähnelt Text Mining dem Data-Mining. Mit diesem teilt es viele Verfahren, nicht jedoch den Gegenstand: Während Data-Mining zumeist auf stark strukturierte Daten angewandt wird, befasst sich Text Mining mit wesentlich schwächer strukturierten Textdaten. Beim Text Mining werden deshalb in einem ersten Schritt die [[Primärdaten]] stärker strukturiert, um ihre Erschließung mit Verfahren des Data-Mining zu ermöglichen.<ref name=":0" /> Anders als bei den meisten Aufgaben des Data-Mining sind zudem Mehrfachklassifikationen beim Text Mining meist ausdrücklich erwünscht.<ref name=":4">{{Literatur |Autor=Max Bramer |Titel=Principles of Data Mining |Verlag=Springer |Ort=London, U.K. |Datum=2007 |ISBN=978-1-84628-765-7}}</ref>


Des Weiteren greift Text Mining auf Verfahren des [[Information Retrieval]] zurück, die für die Auffindung derjenigen Textdokumente, die für die Beantwortung einer Suchanfrage relevant sein sollen, konzipiert sind.<ref name=":0" /> Im Gegensatz zum Text Mining werden also nicht möglicherweise unbekannte Bedeutungsstrukturen im Gesamttextmaterial erschlossen, sondern anhand von bekannten Schlüsselwörtern eine Menge relevant erhoffter Einzeldokumente identifiziert.<ref name=":0" />
Des Weiteren greift Text Mining auf Verfahren des [[Information Retrieval]] zurück, die für die Auffindung derjenigen Textdokumente, die für die Beantwortung einer Suchanfrage relevant sein sollen, konzipiert sind.<ref name=":0" /> Im Gegensatz zum Data Mining werden also nicht möglicherweise unbekannte Bedeutungsstrukturen im Gesamttextmaterial erschlossen, sondern anhand von bekannten Schlüsselwörtern eine Menge relevant erhoffter Einzeldokumente identifiziert.<ref name=":0" />


Verfahren der [[Informationsextraktion]] zielen darauf ab, aus Texten einzelne Fakten zu extrahieren. Informationsextraktion verwendet oft die gleichen oder ähnliche Verfahrensschritte wie dies im Text Mining getan wird;<ref name=":0" /> bisweilen wird Informationsextraktion deshalb als Teilgebiet des Text Mining betrachtet.<ref>z.&nbsp;B. {{Cite journal | volume = 34 | issue = 1 | pages = 1–47, S.&nbsp;2 | last = Sebastiani | first = Fabrizio | title = Machine learning in automated text categorization | journal = ACM Computing Surveys | date = 2002 | url=http://nmis.isti.cnr.it/sebastiani/Publications/ACMCS02.pdf | format=PDF}}</ref> Im Gegensatz zu (vielen anderen Arten des) Text Mining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden - der Benutzer weiß, was er nicht weiß.
Verfahren der [[Informationsextraktion]] zielen darauf ab, aus Texten einzelne Fakten zu extrahieren. Informationsextraktion verwendet oft die gleichen oder ähnliche Verfahrensschritte wie dies im Text Mining getan wird;<ref name=":0" /> bisweilen wird Informationsextraktion deshalb als Teilgebiet des Text Mining betrachtet.<ref>z.&nbsp;B. {{Literatur |Autor=Fabrizio Sebastiani |Titel=Machine learning in automated text categorization |Sammelwerk=ACM Computing Surveys |Band=34 |Nummer=1 |Datum=2002 |Seiten=1–47, hier S.&nbsp;2 |Online=http://nmis.isti.cnr.it/sebastiani/Publications/ACMCS02.pdf |Format=PDF}}</ref> Im Gegensatz zu (vielen anderen Arten des) Text Mining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden der Benutzer weiß, was er nicht weiß.


Verfahren des automatischen Zusammenfassens von Texten, der [[Textextrahierung]], erzeugen ein Kondensat eines Textes oder einer Textsammlung;<ref name="Handbook.546-570,547" /> dabei wird jedoch, anders als beim Text Mining, nicht über das in den Texten explizit Vorhandene hinausgegangen.
Verfahren des automatischen Zusammenfassens von Texten, der [[Textextrahierung]], erzeugen ein Kondensat eines Textes oder einer Textsammlung;<ref name="Handbook.546-570,547" /> dabei wird jedoch, anders als beim Text Mining, nicht über das in den Texten explizit Vorhandene hinausgegangen.
Zeile 27: Zeile 27:


==== Beispiel ====
==== Beispiel ====
Die Internetseite ''Wort des Tages'', ein Projekt der Universität Leipzig, zeigt, was Text-Mining-Verfahren leisten können. Sie zeigt an, welche Wörter im Web aktuell häufig verwendet werden. Die Aktualität eines Begriffs ergibt sich dabei aus seiner aktuellen Häufigkeit, verglichen mit seiner durchschnittlichen Häufigkeit über einen längeren Zeitraum hinweg. <ref>Quelle: [http://asvweb.informatik.uni-leipzig.de/wort-des-tages/public/ Wort des Tages]</ref>
Die Internetseite ''Wörter des Tages'', ein Projekt der Universität Leipzig, zeigt, was Text-Mining-Verfahren leisten können. Sie zeigt an, welche Wörter im Web aktuell häufig verwendet werden. Die Aktualität eines Begriffs ergibt sich dabei aus seiner aktuellen Häufigkeit, verglichen mit seiner durchschnittlichen Häufigkeit über einen längeren Zeitraum hinweg.<ref>{{Internetquelle |url=https://wod.corpora.uni-leipzig.de/ |titel=WORDS of the DAY |werk=Universität Leipzig |abruf=2021-06-07}}</ref>


== Methodik ==
== Methodik ==
Zeile 33: Zeile 33:


=== Datenmaterial ===
=== Datenmaterial ===
Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.<ref name="feldman_2007_2">{{Cite book|publisher=Cambridge University Press|isbn=978-0-511-33507-5|last=Feldman|first=Ronan|coauthors=James Sanger|title=The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data|date=2007|location=New York, NY}}</ref> In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie [[PubMed]] oder [[LexisNexis]].<ref name="feldman_2007_2" /> Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine einheitliche Datenstruktur aufweisen, man spricht deshalb auch von „freiem Format“.<ref name="feldman_2007_2" /> Trotzdem weisen sie jedoch [[Semantik|semantische]], [[Syntax|syntaktische]], oft auch [[Typographie|typographische]] und seltener auch [[markup]]-spezifische Strukturmerkmale auf, auf die Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von ''schwachstrukturierten'' oder ''halbstrukturierten'' Textdaten.<ref name="feldman_2007_2" /> Meist entstammen die zu analysierenden Dokumente aus einem gewissen [[Diskursuniversum]] (''domain''), das mehr (z.&nbsp;B. [[Genomanalyse]]) oder weniger (z.&nbsp;B. [[Soziologie]]) stark abgegrenzt sein kann.<ref name="feldman_2007_2" />
Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.<ref name="feldman_2007_2">{{Literatur |Autor=Ronan Feldman, James Sanger |Titel=The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data |Verlag=Cambridge University Press |Ort=New York, NY |Datum=2007 |ISBN=978-0-511-33507-5}}</ref> In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie [[PubMed]] oder [[LexisNexis]].<ref name="feldman_2007_2" /> Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine einheitliche Datenstruktur aufweisen, man spricht deshalb auch von „freiem Format“.<ref name="feldman_2007_2" /> Trotzdem weisen sie jedoch [[Semantik|semantische]], [[Syntax|syntaktische]], oft auch [[Typographie|typographische]] und seltener auch [[markup]]-spezifische Strukturmerkmale auf, auf die Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von ''schwachstrukturierten'' oder ''halbstrukturierten'' Textdaten.<ref name="feldman_2007_2" /> Meist entstammen die zu analysierenden Dokumente aus einem gewissen [[Diskursuniversum]] (''domain''), das mehr (z.&nbsp;B. [[Genomanalyse]]) oder weniger (z.&nbsp;B. [[Soziologie]]) stark abgegrenzt sein kann.<ref name="feldman_2007_2" />


=== Datenaufbereitung ===
=== Datenaufbereitung ===
Das eigentliche Text Mining setzt eine computerlinguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.
Das eigentliche Text Mining setzt eine computerlinguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.


[[Datei:XML.svg|miniatur|Beispiel einer XML-Syntax]]
[[Datei:XML.svg|mini|Beispiel einer XML-Syntax]]
Zunächst werden die Dokumente in ein einheitliches Format –&nbsp;heutzutage zumeist [[Extensible Markup Language|XML]]&nbsp;– überführt.<ref name=":1" />
Zunächst werden die Dokumente in ein einheitliches Format –&nbsp;heutzutage zumeist [[Extensible Markup Language|XML]]&nbsp;– überführt.<ref name=":1" />


Zur Textrepräsentation werden die Dokumente dann zumeist anhand von [[Schriftzeichen]], [[Wort|Wörtern]], [[Begriff]]en (''terms'') und/oder so genannten ''concepts'' [[Tokenisierung|tokenisiert]].<ref name="feldman_2007_2" /> Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer [[Operationalisierung]], oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.<ref name="feldman_2007_2" />
Zur Textrepräsentation werden die Dokumente dann zumeist anhand von [[Schriftzeichen]], [[Wort|Wörtern]], [[Begriff]]en (''terms'') und/oder so genannten ''concepts'' [[Tokenisierung|tokenisiert]].<ref name="feldman_2007_2" /> Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer [[Operationalisierung]], oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.<ref name="feldman_2007_2" />


In der Folge müssen Worte in den meisten [[Sprache]]n [[Lemma (Lexikographie)|lemmatisiert]] werden, das heißt, auf ihre [[Morphologie (Sprache)|morphologische]] Grundform reduziert werden, bei [[Verb]]en also zum Beispiel der [[Infinitiv]]. Dies erfolgt durch [[Stemming]].<ref name=":1">{{Cite book|publisher=Springer|isbn=0-387-95433-3|title=Text Mining: Predictive Methods for Analyzing unstructured Information|last=Weiss|first=Sholom M|coauthors=Nitin Indurkhya, Tong Zhang, Fred J. Damerau|location=New York, NY|date=2005}}</ref>
In der Folge müssen Worte in den meisten [[Sprache]]n [[Lemma (Lexikographie)|lemmatisiert]] werden, das heißt, auf ihre [[Morphologie (Sprache)|morphologische]] Grundform reduziert werden, bei [[Verb]]en also zum Beispiel der [[Infinitiv]]. Dies erfolgt durch [[Stemming]].<ref name=":1">{{Literatur |Autor=Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau |Titel=Text Mining: Predictive Methods for Analyzing unstructured Information |Verlag=Springer |Ort=New York, NY |Datum=2005 |ISBN=0-387-95433-3}}</ref>


==== Wörterbücher ====
==== Wörterbücher ====
Zur Lösung einiger Probleme werden [[Elektronisches Wörterbuch|digitale Wörterbücher]] benötigt. Ein [[Stoppwort|Stoppwörterbuch]] entfernt diejenigen Wörter aus den zu analysierenden Daten, bei denen keine oder kaum Vorhersagekraft erwartet wird, wie dies zum Beispiel oft bei [[Artikel (Wortart)|Artikeln]] wie „der“ oder „eine“ der Fall ist.<ref name=":1" /> Um Stoppwörter zu erkennen, werden oft Listen mit den am häufigsten im Textkorpus vorkommenden Wörter erstellt; diese enthalten zumeist neben Stoppwörtern auch die meisten domainspezifischen Ausdrücke, für die normalerweise ebenfalls Wörterbücher erstellt werden.<ref name=":1" /> Auch die wichtigen Probleme der [[Polysemie]] –&nbsp;die Mehrdeutigkeit von Wörtern&nbsp;– und [[Synonymie]] –&nbsp;die Gleichbedeutung verschiedener Worte&nbsp;– werden mittels Wörterbüchern gelöst.<ref>{{Cite journal | volume = 41 | issue = 6 | pages = 391-407, S.&nbsp;391f | last = Deerwester | first = Scott
Zur Lösung einiger Probleme werden [[Elektronisches Wörterbuch|digitale Wörterbücher]] benötigt. Ein [[Stoppwort|Stoppwörterbuch]] entfernt diejenigen Wörter aus den zu analysierenden Daten, bei denen keine oder kaum Vorhersagekraft erwartet wird, wie dies zum Beispiel oft bei [[Artikel (Wortart)|Artikeln]] wie „der“ oder „eine“ der Fall ist.<ref name=":1" /> Um Stoppwörter zu erkennen, werden oft Listen mit den am häufigsten im Textkorpus vorkommenden Wörter erstellt; diese enthalten zumeist neben Stoppwörtern auch die meisten domainspezifischen Ausdrücke, für die normalerweise ebenfalls Wörterbücher erstellt werden.<ref name=":1" /> Auch die wichtigen Probleme der [[Polysemie]] –&nbsp;die Mehrdeutigkeit von Wörtern&nbsp;– und [[Synonymie]] –&nbsp;die Gleichbedeutung verschiedener Worte&nbsp;– werden mittels Wörterbüchern gelöst.<ref>{{Literatur |Autor=Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer |Titel=Indexing by latent semantic analysis |Sammelwerk=Journal of the American Society for Information Science |Band=41 |Nummer=6 |Datum=1990 |Seiten=391-407, hier S.&nbsp;391f |DOI=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9}}</ref> (Oft domainspezifische) [[Thesaurus|Thesauri]], die das Synonymproblem abschwächen, werden dabei zunehmend in großen Corpora automatisch generiert.<ref>{{Literatur |Autor=Pierre Senellart, Vincent D. Blondel |Hrsg=Michael W. Berry, Malu Castellanos |Titel=Automatic Discovery of Similar Words |Sammelwerk=Survey of Text Mining II: Clustering, Classification and Retrieval |Verlag=Springer |Ort=London, U.K. |Datum=2008 |ISBN=978-0-387-95563-6 |Seiten=25-44}}</ref>
| coauthors = Susan T. Dumais, George W. Furnas, Thomas K. Landauer | title = Indexing by latent semantic analysis | journal = Journal of the American Society for Information Science | date = 1990 | doi = 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 }}</ref> (Oft domainspezifische) [[Thesaurus|Thesauri]], die das Synonymproblem abschwächen, werden dabei zunehmend in großen Corpora automatisch generiert.<ref>{{Cite book | publisher = Springer | isbn = 978-0-387-95563-6 | pages = 25-44 | editor = Michael W. Berry & Malu Castellanos (ed.) | last = Senellart | first = Pierre | coauthors = Vincent D. Blondel | title = Survey of Text Mining II: Clustering, Classification and Retrieval | chapter = Automatic Discovery of Similar Words | location = London, U.K. | date = 2008 }}</ref>


Je nach Analyseart kann es möglich sein, dass Phrasen und Wörter auch durch [[Part-of-speech Tagging]] linguistisch klassifiziert werden, häufig ist dies jedoch für Text Mining nicht notwendig.<ref name=":1" />
Je nach Analyseart kann es möglich sein, dass Phrasen und Wörter auch durch [[Part-of-speech-Tagging]] linguistisch klassifiziert werden, häufig ist dies jedoch für Text Mining nicht notwendig.<ref name=":1" />


* Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden ([[Anaphernresolution]]).
* Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden ([[Anaphernresolution]]).
Zeile 60: Zeile 59:
=== Analyseverfahren ===
=== Analyseverfahren ===
Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von [[Kookkurrenz]]en, idealiter zwischen ''concepts'', basieren.<ref name="feldman_2007_2" /> Diese Verfahren sollen:
Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von [[Kookkurrenz]]en, idealiter zwischen ''concepts'', basieren.<ref name="feldman_2007_2" /> Diese Verfahren sollen:
* In Texten implizit vorhandene Informationen explizit machen
* In Texten implizit vorhandene Informationen explizit machen,
* Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.
* Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.


Zeile 69: Zeile 68:


===== k-means Clusteranalyse =====
===== k-means Clusteranalyse =====
Sehr häufig werden beim Text Mining [[k-Means-Algorithmus|<math>k</math>-means Cluster]] gebildet. Der zu diesen Clustern gehörende Algorithmus zielt darauf ab, die Summe der [[Euklidische Distanz|euklidischen Distanzen]] innerhalb und über alle Cluster zu minimieren. Hauptproblem ist dabei, die Anzahl der zu findenden Cluster zu bestimmen, ein [[Parameter (Mathematik)|Parameter]], der durch den Analysten mit Hilfe seines Vorwissens festgelegt werden muss. Derartige Algorithmen sind sehr effizient, allerdings kann es vorkommen, dass nur [[Extremwert|lokale Optima]] gefunden werden.<ref>{{Cite book | publisher = CRC Press | isbn = 0-387-95433-3 | last = Ghosh | first = Joydeep | coauthors = Alexander Liu | chapter = <math>K</math>-Means | editors = Xindong Wu, Vipin Kumar | title = The Top Ten Algorithms in Data Mining | location = New York, NY | pages = 21–37, S&nbsp;23f | date = 2005 }}</ref>
Sehr häufig werden beim Text Mining [[k-Means-Algorithmus|<math>k</math>-means Cluster]] gebildet. Der zu diesen Clustern gehörende Algorithmus zielt darauf ab, die Summe der [[Euklidische Distanz|euklidischen Distanzen]] innerhalb und über alle Cluster zu minimieren. Hauptproblem ist dabei, die Anzahl der zu findenden Cluster zu bestimmen, ein [[Parameter (Mathematik)|Parameter]], der durch den Analysten mit Hilfe seines Vorwissens festgelegt werden muss. Derartige Algorithmen sind sehr effizient, allerdings kann es vorkommen, dass nur [[Extremwert|lokale Optima]] gefunden werden.<ref>{{Literatur |Autor=Joydeep Ghosh, Alexander Liu |Hrsg=Xindong Wu, Vipin Kumar |Titel=<math>K</math>-Means |Sammelwerk=The Top Ten Algorithms in Data Mining |Verlag=CRC Press |Ort=New York, NY |Datum=2005 |ISBN=0-387-95433-3 |Seiten=21–37, hier S.&nbsp;23f}}</ref>


===== Hierarchische Clusteranalyse =====
===== Hierarchische Clusteranalyse =====
[[Datei:Hierarchical clustering simple diagram.svg|miniatur|Schema des Aufbaus hierarchischer Cluster]]
[[Datei:Hierarchical clustering simple diagram.svg|mini|Schema des Aufbaus hierarchischer Cluster]]
Bei der ebenfalls populären [[Hierarchische Clusteranalyse|hierarchischen Clusteranalyse]] werden Dokumente in einem hierarchischen Clusterbaum (''siehe Abbildung'') ihrer Ähnlichkeit nach gruppiert. Dieses Verfahren ist deutlich rechenaufwändiger als das für <math>k</math>-means Cluster. Theoretisch kann man dabei so vorgehen, dass man die Dokumentenmenge in sukzessiven Schritten teilt oder indem man jedes Dokument zunächst als einen eigenen Cluster auffasst und die ähnlichsten Cluster in der Folge schrittweise aggregiert.<ref name=":0" /> In der Praxis führt aber meist nur letzteres Vorgehen zu sinnvollen Ergebnissen.<ref name=":0" /> Neben den [[Runtime]]problemen ist eine weitere Schwäche die Tatsache, dass man für gute Ergebnisse bereits Hintergrundwissen über die zu erwartende Clusterstruktur benötigt.<ref name=":0" /> Wie auch bei allen anderen Methoden des Clustering muss letztendlich der menschliche Analyst entscheiden, ob die gefundenen Cluster Sinnstrukturen widerspiegeln.<ref>{{Cite book | publisher = John Wiley & Sons | isbn = 978-0-470-17643-6 | last = Bilisoly | first = Roger | title = Practical Text Mining with Perl | location = Hoboken, NY | date = 2008 |pages = 235}}</ref>
Bei der ebenfalls populären [[Hierarchische Clusteranalyse|hierarchischen Clusteranalyse]] werden Dokumente in einem hierarchischen Clusterbaum (''siehe Abbildung'') ihrer Ähnlichkeit nach gruppiert. Dieses Verfahren ist deutlich rechenaufwändiger als das für <math>k</math>-means Cluster. Theoretisch kann man dabei so vorgehen, dass man die Dokumentenmenge in sukzessiven Schritten teilt oder indem man jedes Dokument zunächst als einen eigenen Cluster auffasst und die ähnlichsten Cluster in der Folge schrittweise aggregiert.<ref name=":0" /> In der Praxis führt aber meist nur letzteres Vorgehen zu sinnvollen Ergebnissen.<ref name=":0" /> Neben den [[Runtime]]problemen ist eine weitere Schwäche die Tatsache, dass man für gute Ergebnisse bereits Hintergrundwissen über die zu erwartende Clusterstruktur benötigt.<ref name=":0" /> Wie auch bei allen anderen Methoden des Clustering muss letztendlich der menschliche Analyst entscheiden, ob die gefundenen Cluster Sinnstrukturen widerspiegeln.<ref>{{Literatur |Autor=Roger Bilisoly |Titel=Practical Text Mining with Perl |Verlag=John Wiley & Sons |Ort=Hoboken, NY |Datum=2008 |ISBN=978-0-470-17643-6 |Seiten=235}}</ref>


===== Selbstorganisierende Karten =====
===== Selbstorganisierende Karten =====
Der 1982 von [[Teuvo Kohonen]] erstmal entwickelte Ansatz der [[Selbstorganisierende Karte|selbstorganisierenden Karten]] ist ein weiteres weit verbreitetes Konzept zur Clusterbildung im Text Mining.<ref name="SOM_195">{{Cite book | publisher = Information Science Reference | isbn = 978-1-59904-990-8 | pages = 189–200, S. &nbsp;195| editors = Min Song, Yi-fang Brooke Wu | last = Amine | first = Abdelmalek | coauthors = Zakaria Elberrichi, Michel Simonet, Ladjel Bellatreche, Mimoun Malki | title = Handbook of Research on Text and Web Mining Technologies | chapter = SOM-Based Clustering of Textual Documents Using WordNet | location = Hershey, PA | date = 2009}}</ref> Dabei werden (in der Regel zweidimensionale) [[Künstliches neuronales Netz|künstliche neuronale Netze]] angelegt. Diese verfügen über eine Eingabeebene, in der jedes zu klassifizierende Textdokument als multidimensionaler Vektor repräsentiert ist und dem ein [[Neuron]] als Zentrum zugeteilt wird, und über eine Ausgabeebene, in der die Neuronen gemäß der Reihenfolge des gewählten Distanzmaßes aktiviert werden.<ref name="SOM_195" />
Der 1982 von [[Teuvo Kohonen]] erstmal entwickelte Ansatz der [[Selbstorganisierende Karte|selbstorganisierenden Karten]] ist ein weiteres weit verbreitetes Konzept zur Clusterbildung im Text Mining.<ref name="SOM_195">{{Literatur |Autor=Abdelmalek Amine, Zakaria Elberrichi, Michel Simonet, Ladjel Bellatreche, Mimoun Malki |Hrsg=Min Song, Yi-fang Brooke Wu |Titel=SOM-Based Clustering of Textual Documents Using WordNet |Sammelwerk=Handbook of Research on Text and Web Mining Technologies |Verlag=Information Science Reference |Ort=Hershey, PA |Datum=2009 |ISBN=978-1-59904-990-8 |Seiten=189–200, hier S.&nbsp;195}}</ref> Dabei werden (in der Regel zweidimensionale) [[Künstliches neuronales Netz|künstliche neuronale Netze]] angelegt. Diese verfügen über eine Eingabeebene, in der jedes zu klassifizierende Textdokument als multidimensionaler Vektor repräsentiert ist und dem ein [[Neuron]] als Zentrum zugeteilt wird, und über eine Ausgabeebene, in der die Neuronen gemäß der Reihenfolge des gewählten Distanzmaßes aktiviert werden.<ref name="SOM_195" />


===== Fuzzy Clustering =====
===== Fuzzy Clustering =====
Es werden auch auf [[Fuzzylogik]] basierende Clustering-Algorithmen verwendet, da viele –&nbsp;insbesondere [[Deixis|deiktische]]&nbsp;– Sprachentitäten nur vom menschlichen Leser adäquat decodiert werden können und so eine inhärente Unsicherheit bei der computeralgorithmischen Verarbeitung entsteht.<ref name=":5">{{Cite journal|volume=4509|last=Witte|first=René|coauthors=Sabine Bergler|title=Fuzzy Clustering for Topic Analysis and Summarization of Document Collections|journal=Advances in Artificial Intelligence|doi=10.1007/978-3-540-72665-4_41|date=2007}}</ref> Da sie dieser Tatsache Rechnung tragen, bieten [[Clusteranalyse#Formen der Gruppenbildung (Gruppenzugehörigkeit)|Fuzzy Cluster]] so in der Regel überdurchschnittlich gute Ergebnisse.<ref name=":5" /><ref name=":6">{{Cite book|publisher=Springer|isbn=978-0-387-95563-6|editors=Michael W. Berry (Hrsg.)|last=Frigui|first=Hichem|coauthors=Olfa Nasraoui|title=Survey of Text Mining: Clustering, Classification and Retrieval|chapter=Simultaneous Clustering and Dynamic Keyword Weighting for Text Documents|location=New York, NY|date=2004}}.<br /></ref> Typischerweise wird dabei auf [[Fuzzy C-Means]] zurückgegriffen.<ref name=":6" /> Andere Anwendungen dieser Art greifen auf [[Koreferenz]]cluster-[[Graph (Graphentheorie)|Graphen]] zurück.<ref name=":5" />
Es werden auch auf [[Fuzzylogik]] basierende Clustering-Algorithmen verwendet, da viele –&nbsp;insbesondere [[Deixis|deiktische]]&nbsp;– Sprachentitäten nur vom menschlichen Leser adäquat decodiert werden können und so eine inhärente Unsicherheit bei der computeralgorithmischen Verarbeitung entsteht.<ref name=":5">{{Literatur |Autor=René Witte, Sabine Bergler |Titel=Fuzzy Clustering for Topic Analysis and Summarization of Document Collections |Sammelwerk=Advances in Artificial Intelligence |Band=4509 |Datum=2007 |DOI=10.1007/978-3-540-72665-4_41}}</ref> Da sie dieser Tatsache Rechnung tragen, bieten [[Clusteranalyse#Formen der Gruppenbildung (Gruppenzugehörigkeit)|Fuzzy Cluster]] so in der Regel überdurchschnittlich gute Ergebnisse.<ref name=":5" /><ref name=":6">{{Literatur |Autor=Hichem Frigui, Olfa Nasraoui |Hrsg=Michael W. Berry |Titel=Simultaneous Clustering and Dynamic Keyword Weighting for Text Documents |Sammelwerk=Survey of Text Mining: Clustering, Classification and Retrieval |Verlag=Springer |Ort=New York, NY |Datum=2004 |ISBN=0-387-95563-1}}<br /></ref> Typischerweise wird dabei auf [[Fuzzy C-Means]] zurückgegriffen.<ref name=":6" /> Andere Anwendungen dieser Art greifen auf [[Koreferenz]]cluster-[[Graph (Graphentheorie)|Graphen]] zurück.<ref name=":5" />


==== Vektorenverfahren ====
==== Vektorenverfahren ====
Eine große Zahl von Text-Mining-Verfahren ist [[vektor]]enbasiert. Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden ''terms'' in einer zweidimensionalen [[Matrix (Mathematik)|Matrix]] <math>A_{td}</math> repräsentiert, wobei ''t'' durch die Anzahl der ''terms'' und ''d'' durch die Anzahl der Dokumente definiert ist. Der Wert des Elements <math>a_{ij}</math> wird dabei durch die Häufigkeit des ''terms'' <math>i</math> im Dokument <math>j</math> bestimmt, oft wird die Häufigkeitszahl dabei [[Transformation (Mathematik)|transformiert]],<ref name="Handbook.546-570,547">{{Cite book|publisher=Information Science Reference|isbn=978-1-59904-990-8|editor=Min Song, Yi-Fang Brooke Wu|last=Kao|first=Anne|coauthors=Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach|title=Handbook of Research on Text and Web Mining Technologies|chapter=Latent Semantic Analysis and Beyond|location=Hershey, PA|date=2009}}</ref> meist, indem die in den Matrizen-Spalten stehenden Vektoren normiert werden, in dem sie durch ihren [[Vektor#Länge/Betrag eines Vektors|Betrag]] dividiert werden.<ref name=":4" /> Der so entstandene hoch-dimensionale [[Vektorraum]] wird in der Folge auf einen deutlich nieder-dimensionaleren Vektor [[Funktion (Mathematik)|abgebildet]]. Dabei spielt seit 1990 zunehmend die [[Latent Semantic Analysis]] (''LSA'') eine bedeutende Rolle, die traditionell auf [[Singulärwertzerlegung]] zurückgreift.<ref name="Handbook.546-570,547" /> [[Probablistic Latent Semantic Analysis]] (''PLSA'') ist dabei ein mehr statistisch formalisierter Ansatz, der auf der [[Latent Class Analysis]] basiert und zur Schätzung der Latenzklassenwahrscheinlichkeiten einen [[EM-Algorithmus]] verwendet.<ref name="Handbook.546-570,547" />
Eine große Zahl von Text-Mining-Verfahren ist [[vektor]]enbasiert. Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden ''terms'' in einer zweidimensionalen [[Matrix (Mathematik)|Matrix]] <math>A_{td}</math> repräsentiert, wobei ''t'' durch die Anzahl der ''terms'' und ''d'' durch die Anzahl der Dokumente definiert ist. Der Wert des Elements <math>a_{ij}</math> wird dabei durch die Häufigkeit des ''terms'' <math>i</math> im Dokument <math>j</math> bestimmt, oft wird die Häufigkeitszahl dabei [[Transformation (Mathematik)|transformiert]],<ref name="Handbook.546-570,547">{{Literatur |Autor=Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach |Hrsg=Min Song, Yi-Fang Brooke Wu |Titel=Latent Semantic Analysis and Beyond |Sammelwerk=Handbook of Research on Text and Web Mining Technologies |Verlag=Information Science Reference |Ort=Hershey, PA |Datum=2009 |ISBN=978-1-59904-990-8 |Seiten=546-570}}</ref> meist, indem die in den Matrizen-Spalten stehenden Vektoren normiert werden, in dem sie durch ihren [[Vektor#Länge/Betrag eines Vektors|Betrag]] dividiert werden.<ref name=":4" /> Der so entstandene hoch-dimensionale [[Vektorraum]] wird in der Folge auf einen deutlich nieder-dimensionaleren Vektor [[Funktion (Mathematik)|abgebildet]]. Dabei spielt seit 1990 zunehmend die [[Latent Semantic Analysis]] (''LSA'') eine bedeutende Rolle, die traditionell auf [[Singulärwertzerlegung]] zurückgreift.<ref name="Handbook.546-570,547" /> [[Probabilistic Latent Semantic Analysis]] (''PLSA'') ist dabei ein mehr statistisch formalisierter Ansatz, der auf der [[Latent Class Analysis]] basiert und zur Schätzung der Latenzklassenwahrscheinlichkeiten einen [[EM-Algorithmus]] verwendet.<ref name="Handbook.546-570,547" />


Algorithmen, die auf LSA aufbauen sind allerdings sehr rechenintensiv: Ein normaler [[Desktop-Computer]] des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren.<ref name="berry_2007_184f">{{Cite book | publisher = Springer | isbn = 978-0-387-95563-6 | pages = 103-122, S.&nbsp;108f | editor = Michael W. Berry | last = Kobayashi | first = Mei | coauthors = Masaki Aono | title = Survey of Text Mining: Clustering, Classification and Retrieval | chapter = Vector Space Models for Search and Cluster Mining | location = New York, NY
Algorithmen, die auf LSA aufbauen sind allerdings sehr rechenintensiv: Ein normaler [[Desktop-Computer]] des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren.<ref name="berry_2007_184f">{{Literatur |Autor=Mei Kobayashi, Masaki Aono |Hrsg=Michael W. Berry |Titel=Vector Space Models for Search and Cluster Mining |Sammelwerk=Survey of Text Mining: Clustering, Classification and Retrieval |Verlag=Springer |Ort=New York, NY |Datum=2004 |ISBN=0-387-95563-1 |Seiten=103-122, hier S.&nbsp;108f}}</ref> Geringfügig schlechtere, aber weniger rechenaufwändige Ergebnisse als LSA erzielen auf [[Kovarianzanalyse (Statistik)|Kovarianzanalysen]] basierende Vektorraumverfahren.<ref name="berry_2007_184f" />
| date=2004}}</ref> Geringfügig schlechtere, aber weniger rechenaufwändige Ergebnisse als LSA erzielen auf [[Kovarianzanalyse (Statistik)|Kovarianzanalysen]] basierende Vektorraumverfahren.<ref name="berry_2007_184f" />


Die Auswertung von Beziehungen zwischen Dokumenten durch solcherartig reduzierte Matrizen ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer [[Ontologie (Informatik)|Ontologie]] repräsentiert werden können.
Die Auswertung von Beziehungen zwischen Dokumenten durch solcherartig reduzierte Matrizen ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer [[Ontologie (Informatik)|Ontologie]] repräsentiert werden können.
Zeile 93: Zeile 91:


== Software ==
== Software ==
Eine Reihe von Anwendungsprogrammen für Text Mining existieren; oft sind diese auf bestimmte [[Wissensgebiet]]e spezialisiert. In technischer Hinsicht lassen sich [[#Reine Text Miner|reine Text Miner]], [[#Erweiterungen existierender Softwaresuiten|Erweiterungen existierender Software]] –&nbsp;zum Beispiel zum Data-Mining oder zur Inhaltsanalyse&nbsp;– und Programme, die nur [[#Teilanbieter|Teilschritte oder -bereiche]] des Text Mining begleiten, unterscheiden.<ref>{{Cite book | publisher = WIT Press | isbn = 978-1-84564-131-3 | pages = 315-327, S.&nbsp;315 | editor = Alessandro Zanasi (ed.) | last = Zanasi | first = Alessandro | title = Text Mining and its Applications to Intelligence, CRM and Knowledge Management | chapter = Text Mining Tools | location = Southampton & Billerica, MA | date = 2005}}</ref>
Eine Reihe von Anwendungsprogrammen für Text Mining existieren; oft sind diese auf bestimmte [[Wissensgebiet]]e spezialisiert. In technischer Hinsicht lassen sich [[#Reine Text Miner|reine Text Miner]], [[#Erweiterungen existierender Softwaresuiten|Erweiterungen existierender Software]] –&nbsp;zum Beispiel zum Data-Mining oder zur Inhaltsanalyse&nbsp;– und Programme, die nur [[#Teilanbieter|Teilschritte oder -bereiche]] des Text Mining begleiten, unterscheiden.<ref>{{Literatur |Autor=Alessandro Zanasi |Hrsg=Alessandro Zanasi |Titel=Text Mining Tools |Sammelwerk=Text Mining and its Applications to Intelligence, CRM and Knowledge Management |Verlag=WIT Press |Ort=Southampton & Billerica, MA |Datum=2005 |ISBN=1-84564-131-0 |Seiten=315-327, hier S.&nbsp;315}}</ref>


=== Reine Text Miner ===
=== Reine Text Miner ===
Zeile 99: Zeile 97:
==== Generische Anwendungen ====
==== Generische Anwendungen ====
* Megaputer TextAnalyst / PolyAnalyst
* Megaputer TextAnalyst / PolyAnalyst

* Leximancer
* Leximancer

* [[ClearForest|ClearForest Text Analytics Suite]]
* [[ClearForest|ClearForest Text Analytics Suite]]

* [[IBM]]s [[WebFountain]] (wird nicht mehr weiterentwickelt)
* [[IBM]]s [[WebFountain]] (wird nicht mehr weiterentwickelt)


==== Domänenspezifische Anwendungen ====
==== Domänenspezifische Anwendungen ====
* GeneWays Das in der [[Columbia University]] entwickelte [[GeneWays]] deckt zwar auch alle Verfahrensschritte des Text Mining ab, greift aber anders als die ClearForest vertriebenen Programme wesentlich stärker auf domainspezifisches Wissen zurück.<ref name="feldman_2007_2" /> Das Programm beschränkt sich dabei thematisch auf die [[Genforschung]] und widmet dabei den größten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichen Text Mining und der Ergebnispräsentation.<ref name="feldman_2007_2" />
* GeneWays Das in der [[Columbia University]] entwickelte [[GeneWays]] deckt zwar auch alle Verfahrensschritte des Text Mining ab, greift aber anders als die ClearForest vertriebenen Programme wesentlich stärker auf domainspezifisches Wissen zurück.<ref name="feldman_2007_2" /> Das Programm beschränkt sich dabei thematisch auf die [[Genforschung]] und widmet dabei den größten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichen Text Mining und der Ergebnispräsentation.<ref name="feldman_2007_2" />

* [[Patent Researcher]]
* [[Patent Researcher]]


Zeile 114: Zeile 108:
* Text-Mining-Modul ''tm'' für [[R (Programmiersprache)|R]]
* Text-Mining-Modul ''tm'' für [[R (Programmiersprache)|R]]
* Text Processing Modul für [[KNIME]]
* Text Processing Modul für [[KNIME]]
* Text Analytics Toolbox für [[Matlab|MATLAB]] bietet Algorithmen und Visualisierungen für die Vorverarbeitung, Analyse und Modellierung von Textdaten.
* [[RapidMiner]]
* [[RapidMiner]]
* [[Environment for DeveLoping KDD-Applications Supported by Index-Structures|ELKI]] enthält zahlreiche Clusteranalyseverfahren.
* [[Environment for DeveLoping KDD-Applications Supported by Index-Structures|ELKI]] enthält zahlreiche Clusteranalyseverfahren.
* [[NClassifier]]
* [[NClassifier]]
* WordStat Das von [[Provalis Research]] angebotene Softwaremodul [[WordStat]] ist das einzige Programm für Text Mining, welches sowohl mit einer Statistikanwendung –&nbsp;[[Simstat]]&nbsp;– als auch mit einer Software zur [[Computer-Assistierten Qualitativen Datenanalyse]] –&nbsp;[[QDA Miner]]&nbsp;– verbunden ist. Damit eignet das Programm sich insbesondere zur [[Triangulation (Sozialwissenschaften)|Triangulation]] von [[Qualitative Sozialforschung|qualitativen]] [[sozialwissenschaft]]lichen Methoden mit dem quantitativ orientierten Text Mining. Das Programm bietet eine Reihe von Clusteralgorithmen –&nbsp;hierarchische Cluster und [[Multidimensionale Skalierung]]&nbsp;– sowie eine Visualisierung der Clusterergebnisse an.<ref name="Handbook.766-784,778">{{Cite book|publisher=Information Science Reference|isbn=978-1-59904-990-8|editor=Min Song, Yi-fang Brooke Wu (Hrsg.)|last=Segall|first=Richard|coauthors=Qingyu Zhang|title=Handbook of Research on Text and Web Mining Technologies|chapter=A Survey of Selected Software Technologies for Text Mining|location=Hershey, PA|date=2009}}</ref>
* WordStat Das von [[Provalis Research]] angebotene Softwaremodul [[WordStat]] ist das einzige Programm für Text Mining, welches sowohl mit einer Statistikanwendung –&nbsp;[[Simstat]]&nbsp;– als auch mit einer Software zur [[Computer-Assistierten Qualitativen Datenanalyse]] –&nbsp;[[QDA Miner]]&nbsp;– verbunden ist. Damit eignet das Programm sich insbesondere zur [[Triangulation (Sozialwissenschaften)|Triangulation]] von [[Qualitative Sozialforschung|qualitativen]] [[sozialwissenschaft]]lichen Methoden mit dem quantitativ orientierten Text Mining. Das Programm bietet eine Reihe von Clusteralgorithmen –&nbsp;hierarchische Cluster und [[Multidimensionale Skalierung]]&nbsp;– sowie eine Visualisierung der Clusterergebnisse an.<ref name="Handbook.766-784,778">{{Literatur |Autor=Richard Segall, Qingyu Zhang |Hrsg=Min Song, Yi-fang Brooke Wu |Titel=A Survey of Selected Software Technologies for Text Mining |Sammelwerk=Handbook of Research on Text and Web Mining Technologies |Verlag=Information Science Reference |Ort=Hershey, PA |Datum=2009 |ISBN=978-1-59904-990-8}}</ref>


* [[SPSS]] Clementine enthält [[Computerlinguistik|computerlinguistische]] Methoden zur Informationsextrahierung anbietet, zur Wörterbucherstellung geeignet ist, und Lemmatisierungen für verschiedene Sprachen vornimmt.<ref name="Handbook.766-784,778" />
* [[SPSS]] Clementine enthält [[Computerlinguistik|computerlinguistische]] Methoden zur Informationsextrahierung anbietet, zur Wörterbucherstellung geeignet ist, und Lemmatisierungen für verschiedene Sprachen vornimmt.<ref name="Handbook.766-784,778" />
Zeile 131: Zeile 126:


== Literatur ==
== Literatur ==
* Gerhard Heyer, Uwe Quasthoff, Thomas Wittig: ''Text Mining: Wissensrohstoff Text – Konzepte, Algorithmen, Ergebnisse'', W3L Verlag, Herdecke / Bochum 2006, ISBN 3-937137-30-0.
* Gerhard Heyer, Uwe Quasthoff, Thomas Wittig: ''Text Mining: Wissensrohstoff Text – Konzepte, Algorithmen, Ergebnisse.'' W3L Verlag, Herdecke / Bochum 2006, ISBN 3-937137-30-0.
* Alexander Mehler, Christian Wolff: ''Einleitung: Perspektiven und Positionen des Text Mining''. In: ''Zeitschrift für Computerlinguistik und Sprachtechnologie'', Band 20, Heft 1, Regensburg 2005, Seite 1–18.
* Alexander Mehler, Christian Wolff: ''Einleitung: Perspektiven und Positionen des Text Mining.'' In: ''Zeitschrift für Computerlinguistik und Sprachtechnologie.'' Band 20, Heft 1, Regensburg 2005, S. 1–18.
* Alexander Mehler: ''Textmining''. In: Lothar Lemnitzer, Henning Lobin (Hrsg.): ''Texttechnologie. Perspektiven und Anwendungen''. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3, S. 329–352.
* Alexander Mehler: ''Textmining.'' In: Lothar Lemnitzer, Henning Lobin (Hrsg.): ''Texttechnologie. Perspektiven und Anwendungen.'' Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3, S. 329–352.
* Jürgen Franke, Gholamreza Nakhaeizadeh, Ingrid Renz (Hrsg.): ''Text Mining – Theoretical Aspects and Applications''. Physica, Berlin 2003.
* Jürgen Franke, Gholamreza Nakhaeizadeh, Ingrid Renz (Hrsg.): ''Text Mining – Theoretical Aspects and Applications.'' Physica, Berlin 2003.
* Ronen Feldman, James Sanger: ''The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data''. Cambridge University Press, 2006, ISBN 0-521-83657-3.
* Ronen Feldman, James Sanger: ''The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data.'' Cambridge University Press, 2006, ISBN 0-521-83657-3.
* Bastian Buch: ''Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten'', VDM, 2008, ISBN 3-8364-9550-3.
* Bastian Buch: ''Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten.'' VDM, 2008, ISBN 978-3-83649-550-9.
* Matthias Lemke, Gregor Wiedemann (Hrsg.): ''Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse'', Springer VS, Wiesbaden 2016, ISBN 978-3-658-07223-0.
* [[Matthias Lemke (Politikwissenschaftler)|Matthias Lemke]], Gregor Wiedemann (Hrsg.): ''Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse.'' Springer VS, Wiesbaden 2016, ISBN 978-3-658-07223-0.
* Felicitas Lea Kleinkopf: ''Text- und Data-Mining: Die Anforderungen digitaler Forschungsmethoden an ein innovations- und wissenschaftsfreundliches Urheberrecht.'' Baden-Baden 2022, ISBN 978-3-8487-7561-3.


== Weblinks ==
== Weblinks ==
* [http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html Untangling Text Data Mining] von Marti A. Hearst, erschienen in den ''Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics'', University of Maryland, June 20-26, 1999
* [http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html Untangling Text Data Mining] von Marti A. Hearst, erschienen in den ''Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics'', University of Maryland, June 20-26, 1999
* [http://duepublico.uni-duisburg-essen.de/servlets/DerivateServlet/Derivate-21635/Tagungsband_GSCLSYMP2009_final.pdf GSCL-Symposium "Sprachtechnologie und eHumanities" 26.02.2009 - 27.02.2009], Tagungsband (PDF; 6,5&nbsp;MB)
* [http://duepublico.uni-duisburg-essen.de/servlets/DerivateServlet/Derivate-21635/Tagungsband_GSCLSYMP2009_final.pdf GSCL-Symposium "Sprachtechnologie und eHumanities" 26.02.2009 27.02.2009], Tagungsband (PDF; 5,3&nbsp;MB)
* [http://www.nactem.ac.uk/ National Centre for Text Mining (NaCTeM)] an der University of Manchester
* [http://www.nactem.ac.uk/ National Centre for Text Mining (NaCTeM)] an der University of Manchester



Aktuelle Version vom 1. Mai 2023, 16:53 Uhr

Text Mining, seltener auch Textmining, Text Data Mining oder Textual Data Mining, ist ein Bündel von Algorithmus-basierten Analyseverfahren zur Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Im Optimalfall liefern Text-Mining-Systeme Informationen, von denen die Benutzer zuvor nicht wissen, ob und dass sie in den verarbeiteten Texten enthalten sind. Bei zielgerichteter Anwendung sind Werkzeuge des Text Mining außerdem in der Lage, Hypothesen zu generieren, diese zu überprüfen und schrittweise zu verfeinern.

Das 1995 von Ronen Feldman und Ido Dagan als Knowledge Discovery from Text (KDT)[1] in die Forschungsterminologie eingeführte Text Mining[2] ist kein klar definierter Begriff. In Analogie zu Data-Mining in der Knowledge Discovery in Databases (KDD) ist Text Mining ein weitgehend automatisierter Prozess der Wissensentdeckung in textuellen Daten, der eine effektive und effiziente Nutzung verfügbarer Textarchive ermöglichen soll.[3] Umfassender kann Text Mining als Prozess der Zusammenstellung und Organisation, der formalen Strukturierung und algorithmischen Analyse großer Dokumentsammlungen zur bedarfsgerechten Extraktion von Informationen und der Entdeckung versteckter inhaltlicher Beziehungen zwischen Texten und Textfragmenten gesehen werden.

Die unterschiedlichen Auffassungen von Text Mining können mittels verschiedener Typologien geordnet werden. Dabei werden Arten des Information Retrieval (IR),[3][4] des Dokumenten-Clustering, des Text Data-Mining und des KDD[5][2] immer wieder als Unterformen des Text Mining genannt.

Beim IR ist dabei bekannt, dass die Textdaten bestimmte Fakten enthalten, die mittels geeigneter Suchanfragen gefunden werden sollen. In der Data-Mining-Perspektive wird Text Mining als „Data-Mining auf textuellen Daten“ verstanden, zur Exploration von (interpretationsbedürftigen) Daten aus Texten. Die weitestgehende Art des Text Mining ist das eigentliche KDT, bei der neue, zuvor unbekannte Informationen aus den Texten extrahiert werden sollen.[5]

Verwandte Verfahren

[Bearbeiten | Quelltext bearbeiten]

Text Mining ist mit einer Reihe anderer Verfahren verwandt, von denen es wie folgt abgegrenzt werden kann.

Am stärksten ähnelt Text Mining dem Data-Mining. Mit diesem teilt es viele Verfahren, nicht jedoch den Gegenstand: Während Data-Mining zumeist auf stark strukturierte Daten angewandt wird, befasst sich Text Mining mit wesentlich schwächer strukturierten Textdaten. Beim Text Mining werden deshalb in einem ersten Schritt die Primärdaten stärker strukturiert, um ihre Erschließung mit Verfahren des Data-Mining zu ermöglichen.[2] Anders als bei den meisten Aufgaben des Data-Mining sind zudem Mehrfachklassifikationen beim Text Mining meist ausdrücklich erwünscht.[6]

Des Weiteren greift Text Mining auf Verfahren des Information Retrieval zurück, die für die Auffindung derjenigen Textdokumente, die für die Beantwortung einer Suchanfrage relevant sein sollen, konzipiert sind.[2] Im Gegensatz zum Data Mining werden also nicht möglicherweise unbekannte Bedeutungsstrukturen im Gesamttextmaterial erschlossen, sondern anhand von bekannten Schlüsselwörtern eine Menge relevant erhoffter Einzeldokumente identifiziert.[2]

Verfahren der Informationsextraktion zielen darauf ab, aus Texten einzelne Fakten zu extrahieren. Informationsextraktion verwendet oft die gleichen oder ähnliche Verfahrensschritte wie dies im Text Mining getan wird;[2] bisweilen wird Informationsextraktion deshalb als Teilgebiet des Text Mining betrachtet.[7] Im Gegensatz zu (vielen anderen Arten des) Text Mining sind hier aber zumindest die Kategorien bekannt, zu denen Informationen gesucht werden – der Benutzer weiß, was er nicht weiß.

Verfahren des automatischen Zusammenfassens von Texten, der Textextrahierung, erzeugen ein Kondensat eines Textes oder einer Textsammlung;[8] dabei wird jedoch, anders als beim Text Mining, nicht über das in den Texten explizit Vorhandene hinausgegangen.

Als eine Fortsetzung des Text Mining kann das Argumentation Mining betrachtet werden. Hierbei ist es das Ziel, Argumentationsstrukturen zu extrahieren.

Anwendungsgebiete

[Bearbeiten | Quelltext bearbeiten]

Web Mining, insbesondere Web Content Mining, ist ein wichtiges Anwendungsgebiet für Text Mining.[3] Noch relativ neu sind Versuche, Text Mining als Methode der sozialwissenschaftlichen Inhaltsanalyse zu etablieren, beispielsweise Sentiment Detection zur automatischen Extraktion von Haltungen gegenüber einem Thema.

Die Internetseite Wörter des Tages, ein Projekt der Universität Leipzig, zeigt, was Text-Mining-Verfahren leisten können. Sie zeigt an, welche Wörter im Web aktuell häufig verwendet werden. Die Aktualität eines Begriffs ergibt sich dabei aus seiner aktuellen Häufigkeit, verglichen mit seiner durchschnittlichen Häufigkeit über einen längeren Zeitraum hinweg.[9]

Text Mining geht in mehreren Standardschritten vor: Zunächst wird ein geeignetes Datenmaterial ausgewählt. In einem zweiten Schritt werden diese Daten so aufbereitet, dass sie im Folgenden mittels verschiedener Verfahren analysiert werden können. Schließlich nimmt die Ergebnispräsentation einen ungewöhnlich wichtigen Teil des Verfahrens ein. Alle Verfahrensschritte werden dabei softwareunterstützt.

Text Mining wird auf eine (meist sehr große) Menge von Textdokumenten angewandt, die gewisse Ähnlichkeiten hinsichtlich ihrer Größe, Sprache und Thematik aufweisen.[10] In der Praxis stammen diese Daten meist aus umfangreichen Textdatenbanken wie PubMed oder LexisNexis.[10] Die analysierten Dokumente sind unstrukturiert in dem Sinn, dass sie keine einheitliche Datenstruktur aufweisen, man spricht deshalb auch von „freiem Format“.[10] Trotzdem weisen sie jedoch semantische, syntaktische, oft auch typographische und seltener auch markup-spezifische Strukturmerkmale auf, auf die Text-Mining-Techniken zurückgreifen; man spricht deshalb auch von schwachstrukturierten oder halbstrukturierten Textdaten.[10] Meist entstammen die zu analysierenden Dokumente aus einem gewissen Diskursuniversum (domain), das mehr (z. B. Genomanalyse) oder weniger (z. B. Soziologie) stark abgegrenzt sein kann.[10]

Datenaufbereitung

[Bearbeiten | Quelltext bearbeiten]

Das eigentliche Text Mining setzt eine computerlinguistische Aufbereitung der Dokumente voraus. Diese basiert typischerweise auf den folgenden, nur zum Teil automatisierbaren Schritten.

Beispiel einer XML-Syntax

Zunächst werden die Dokumente in ein einheitliches Format – heutzutage zumeist XML – überführt.[4]

Zur Textrepräsentation werden die Dokumente dann zumeist anhand von Schriftzeichen, Wörtern, Begriffen (terms) und/oder so genannten concepts tokenisiert.[10] Dabei steigt bei vorstehenden Einheiten die Stärke der semantischen Bedeutung, aber gleichzeitig auch die Komplexität ihrer Operationalisierung, oft werden deshalb Hybridverfahren zur Tokenisierung angewandt.[10]

In der Folge müssen Worte in den meisten Sprachen lemmatisiert werden, das heißt, auf ihre morphologische Grundform reduziert werden, bei Verben also zum Beispiel der Infinitiv. Dies erfolgt durch Stemming.[4]

Zur Lösung einiger Probleme werden digitale Wörterbücher benötigt. Ein Stoppwörterbuch entfernt diejenigen Wörter aus den zu analysierenden Daten, bei denen keine oder kaum Vorhersagekraft erwartet wird, wie dies zum Beispiel oft bei Artikeln wie „der“ oder „eine“ der Fall ist.[4] Um Stoppwörter zu erkennen, werden oft Listen mit den am häufigsten im Textkorpus vorkommenden Wörter erstellt; diese enthalten zumeist neben Stoppwörtern auch die meisten domainspezifischen Ausdrücke, für die normalerweise ebenfalls Wörterbücher erstellt werden.[4] Auch die wichtigen Probleme der Polysemie – die Mehrdeutigkeit von Wörtern – und Synonymie – die Gleichbedeutung verschiedener Worte – werden mittels Wörterbüchern gelöst.[11] (Oft domainspezifische) Thesauri, die das Synonymproblem abschwächen, werden dabei zunehmend in großen Corpora automatisch generiert.[12]

Je nach Analyseart kann es möglich sein, dass Phrasen und Wörter auch durch Part-of-speech-Tagging linguistisch klassifiziert werden, häufig ist dies jedoch für Text Mining nicht notwendig.[4]

  • Pronomen (er, sie) müssen den vorausgehenden oder folgenden Nominalphrasen (Goethe, die Polizisten), auf die sie verweisen, zugeordnet werden (Anaphernresolution).
  • Eigennamen für Personen, Orte, von Firmen, Staaten usw. müssen erkannt werden, da sie eine andere Rolle für die Konstitution der Textbedeutung haben als generische Substantive.
  • Mehrdeutigkeit von Wörtern und Phrasen wird dadurch aufgelöst, dass jedem Wort und jeder Phrase genau eine Bedeutung zugeschrieben wird (Bestimmung der Wortbedeutung, Disambiguierung).
  • Einige Wörter und Satz(teile) können einem Fachgebiet zugeordnet werden (Termextraktion).

Um die Semantik der analysierten Textdaten besser bestimmen zu können, wird meist auch auf themenspezifisches Wissen zurückgegriffen.[10]

Analyseverfahren

[Bearbeiten | Quelltext bearbeiten]

Auf der Grundlage dieser partiell strukturierten Daten können die eigentlichen Text-Mining-Verfahren aufbauen, die vor allem auf der Entdeckung von Kookkurrenzen, idealiter zwischen concepts, basieren.[10] Diese Verfahren sollen:

  • In Texten implizit vorhandene Informationen explizit machen,
  • Beziehungen zwischen Informationen, die in verschiedenen Texten repräsentiert sind, sichtbar machen.

Kernoperationen der meisten Verfahren sind dabei die Identifizierung von (bedingten) Verteilungen, häufige Mengen und Abhängigkeiten.[10] Eine große Rolle bei der Entwicklung solcher Verfahren spielt maschinelles Lernen, sowohl in seiner überwachten als auch in seiner unüberwachten Variante.

Clusterverfahren

[Bearbeiten | Quelltext bearbeiten]

Neben den traditionell am weitesten verbreiteten Clusteranalyseverfahren – -means und hierarchischen Clustern – werden bei Clusterverfahren auch selbstorganisierende Karten verwendet. Außerdem greifen mehr und mehr Verfahren auf Fuzzylogik zurück.

k-means Clusteranalyse
[Bearbeiten | Quelltext bearbeiten]

Sehr häufig werden beim Text Mining -means Cluster gebildet. Der zu diesen Clustern gehörende Algorithmus zielt darauf ab, die Summe der euklidischen Distanzen innerhalb und über alle Cluster zu minimieren. Hauptproblem ist dabei, die Anzahl der zu findenden Cluster zu bestimmen, ein Parameter, der durch den Analysten mit Hilfe seines Vorwissens festgelegt werden muss. Derartige Algorithmen sind sehr effizient, allerdings kann es vorkommen, dass nur lokale Optima gefunden werden.[13]

Hierarchische Clusteranalyse
[Bearbeiten | Quelltext bearbeiten]
Schema des Aufbaus hierarchischer Cluster

Bei der ebenfalls populären hierarchischen Clusteranalyse werden Dokumente in einem hierarchischen Clusterbaum (siehe Abbildung) ihrer Ähnlichkeit nach gruppiert. Dieses Verfahren ist deutlich rechenaufwändiger als das für -means Cluster. Theoretisch kann man dabei so vorgehen, dass man die Dokumentenmenge in sukzessiven Schritten teilt oder indem man jedes Dokument zunächst als einen eigenen Cluster auffasst und die ähnlichsten Cluster in der Folge schrittweise aggregiert.[2] In der Praxis führt aber meist nur letzteres Vorgehen zu sinnvollen Ergebnissen.[2] Neben den Runtimeproblemen ist eine weitere Schwäche die Tatsache, dass man für gute Ergebnisse bereits Hintergrundwissen über die zu erwartende Clusterstruktur benötigt.[2] Wie auch bei allen anderen Methoden des Clustering muss letztendlich der menschliche Analyst entscheiden, ob die gefundenen Cluster Sinnstrukturen widerspiegeln.[14]

Selbstorganisierende Karten
[Bearbeiten | Quelltext bearbeiten]

Der 1982 von Teuvo Kohonen erstmal entwickelte Ansatz der selbstorganisierenden Karten ist ein weiteres weit verbreitetes Konzept zur Clusterbildung im Text Mining.[15] Dabei werden (in der Regel zweidimensionale) künstliche neuronale Netze angelegt. Diese verfügen über eine Eingabeebene, in der jedes zu klassifizierende Textdokument als multidimensionaler Vektor repräsentiert ist und dem ein Neuron als Zentrum zugeteilt wird, und über eine Ausgabeebene, in der die Neuronen gemäß der Reihenfolge des gewählten Distanzmaßes aktiviert werden.[15]

Fuzzy Clustering
[Bearbeiten | Quelltext bearbeiten]

Es werden auch auf Fuzzylogik basierende Clustering-Algorithmen verwendet, da viele – insbesondere deiktische – Sprachentitäten nur vom menschlichen Leser adäquat decodiert werden können und so eine inhärente Unsicherheit bei der computeralgorithmischen Verarbeitung entsteht.[16] Da sie dieser Tatsache Rechnung tragen, bieten Fuzzy Cluster so in der Regel überdurchschnittlich gute Ergebnisse.[16][17] Typischerweise wird dabei auf Fuzzy C-Means zurückgegriffen.[17] Andere Anwendungen dieser Art greifen auf Koreferenzcluster-Graphen zurück.[16]

Vektorenverfahren

[Bearbeiten | Quelltext bearbeiten]

Eine große Zahl von Text-Mining-Verfahren ist vektorenbasiert. Typischerweise werden dabei die in den untersuchten Dokumenten vorkommenden terms in einer zweidimensionalen Matrix repräsentiert, wobei t durch die Anzahl der terms und d durch die Anzahl der Dokumente definiert ist. Der Wert des Elements wird dabei durch die Häufigkeit des terms im Dokument bestimmt, oft wird die Häufigkeitszahl dabei transformiert,[8] meist, indem die in den Matrizen-Spalten stehenden Vektoren normiert werden, in dem sie durch ihren Betrag dividiert werden.[6] Der so entstandene hoch-dimensionale Vektorraum wird in der Folge auf einen deutlich nieder-dimensionaleren Vektor abgebildet. Dabei spielt seit 1990 zunehmend die Latent Semantic Analysis (LSA) eine bedeutende Rolle, die traditionell auf Singulärwertzerlegung zurückgreift.[8] Probabilistic Latent Semantic Analysis (PLSA) ist dabei ein mehr statistisch formalisierter Ansatz, der auf der Latent Class Analysis basiert und zur Schätzung der Latenzklassenwahrscheinlichkeiten einen EM-Algorithmus verwendet.[8]

Algorithmen, die auf LSA aufbauen sind allerdings sehr rechenintensiv: Ein normaler Desktop-Computer des Jahrgangs 2004 kann so kaum mehr als einige hunderttausend Dokumente analysieren.[18] Geringfügig schlechtere, aber weniger rechenaufwändige Ergebnisse als LSA erzielen auf Kovarianzanalysen basierende Vektorraumverfahren.[18]

Die Auswertung von Beziehungen zwischen Dokumenten durch solcherartig reduzierte Matrizen ermöglicht es, Dokumente zu ermitteln, die sich auf denselben Sachverhalt beziehen, obwohl ihr Wortlaut verschieden ist. Auswertung von Beziehungen zwischen Termen in dieser Matrix ermöglicht es, assoziative Beziehungen zwischen Termen herzustellen, die oftmals semantischen Beziehungen entsprechen und in einer Ontologie repräsentiert werden können.

Ergebnispräsentation

[Bearbeiten | Quelltext bearbeiten]

Einen ungewöhnlich wichtigen und komplexen Teil des Text Mining nimmt die Präsentation der Ergebnisse ein.[10] Darunter fallen sowohl Werkzeuge zum Browsing als auch zur Visualisierung der Ergebnisse.[10] Oft werden die Ergebnisse dabei auf zweidimensionalen Karten präsentiert.

Eine Reihe von Anwendungsprogrammen für Text Mining existieren; oft sind diese auf bestimmte Wissensgebiete spezialisiert. In technischer Hinsicht lassen sich reine Text Miner, Erweiterungen existierender Software – zum Beispiel zum Data-Mining oder zur Inhaltsanalyse – und Programme, die nur Teilschritte oder -bereiche des Text Mining begleiten, unterscheiden.[19]

Reine Text Miner

[Bearbeiten | Quelltext bearbeiten]

Generische Anwendungen

[Bearbeiten | Quelltext bearbeiten]

Domänenspezifische Anwendungen

[Bearbeiten | Quelltext bearbeiten]
  • GeneWays Das in der Columbia University entwickelte GeneWays deckt zwar auch alle Verfahrensschritte des Text Mining ab, greift aber anders als die ClearForest vertriebenen Programme wesentlich stärker auf domainspezifisches Wissen zurück.[10] Das Programm beschränkt sich dabei thematisch auf die Genforschung und widmet dabei den größten Teil seiner Werkzeuge der Datenaufbereitung und weniger dem eigentlichen Text Mining und der Ergebnispräsentation.[10]
  • Patent Researcher

Erweiterungen existierender Softwaresuiten

[Bearbeiten | Quelltext bearbeiten]
  • SPSS Clementine enthält computerlinguistische Methoden zur Informationsextrahierung anbietet, zur Wörterbucherstellung geeignet ist, und Lemmatisierungen für verschiedene Sprachen vornimmt.[20]
  • Gerhard Heyer, Uwe Quasthoff, Thomas Wittig: Text Mining: Wissensrohstoff Text – Konzepte, Algorithmen, Ergebnisse. W3L Verlag, Herdecke / Bochum 2006, ISBN 3-937137-30-0.
  • Alexander Mehler, Christian Wolff: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. Band 20, Heft 1, Regensburg 2005, S. 1–18.
  • Alexander Mehler: Textmining. In: Lothar Lemnitzer, Henning Lobin (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3, S. 329–352.
  • Jürgen Franke, Gholamreza Nakhaeizadeh, Ingrid Renz (Hrsg.): Text Mining – Theoretical Aspects and Applications. Physica, Berlin 2003.
  • Ronen Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, 2006, ISBN 0-521-83657-3.
  • Bastian Buch: Text Mining zur automatischen Wissensextraktion aus unstrukturierten Textdokumenten. VDM, 2008, ISBN 978-3-83649-550-9.
  • Matthias Lemke, Gregor Wiedemann (Hrsg.): Text Mining in den Sozialwissenschaften. Grundlagen und Anwendungen zwischen qualitativer und quantitativer Diskursanalyse. Springer VS, Wiesbaden 2016, ISBN 978-3-658-07223-0.
  • Felicitas Lea Kleinkopf: Text- und Data-Mining: Die Anforderungen digitaler Forschungsmethoden an ein innovations- und wissenschaftsfreundliches Urheberrecht. Baden-Baden 2022, ISBN 978-3-8487-7561-3.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Ronen Feldman, Ido Dagan: Knowledge Discovery in Texts. S. 112–117, archiviert vom Original (nicht mehr online verfügbar) am 1. September 2014; abgerufen am 27. Januar 2015 (First International Conference on Knowledge Discovery (KDD)).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/u.cs.biu.ac.il
  2. a b c d e f g h i Andreas Hotho, Andreas Nürnberger, Gerhard Paaß: A Brief Survey of Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. Band 20, Nr. 1, 2005 (uni-kassel.de [PDF; abgerufen am 11. November 2011]).
  3. a b c Alexander Mehler, Christian Wollf: Einleitung: Perspektiven und Positionen des Text Mining. In: Zeitschrift für Computerlinguistik und Sprachtechnologie. Band 20, Nr. 1, 2005 (archive.org [PDF; abgerufen am 11. November 2011]).
  4. a b c d e f Sholom M Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau: Text Mining: Predictive Methods for Analyzing unstructured Information. Springer, New York, NY 2005, ISBN 0-387-95433-3.
  5. a b John Atkinson: Evolving Explanatory Novel Patterns for Semantically-Based Text Mining. In: Anne Kao, Steve Poteet (Hrsg.): Natural Language Processing and Text Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-754-1, Evolving Explanatory Novel Patterns for Semantically-Based Text Mining, S. 145–169, hier S. 146.
  6. a b Max Bramer: Principles of Data Mining. Springer, London, U.K. 2007, ISBN 978-1-84628-765-7.
  7. z. B. Fabrizio Sebastiani: Machine learning in automated text categorization. In: ACM Computing Surveys. Band 34, Nr. 1, 2002, S. 1–47, hier S. 2 (cnr.it [PDF]).
  8. a b c d Anne Kao, Steve Poteet, Jason Wu, William Ferng, Rod Tjoelker, Lesley Quach: Latent Semantic Analysis and Beyond. In: Min Song, Yi-Fang Brooke Wu (Hrsg.): Handbook of Research on Text and Web Mining Technologies. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, S. 546–570.
  9. WORDS of the DAY. In: Universität Leipzig. Abgerufen am 7. Juni 2021.
  10. a b c d e f g h i j k l m n Ronan Feldman, James Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, New York, NY 2007, ISBN 978-0-511-33507-5.
  11. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer: Indexing by latent semantic analysis. In: Journal of the American Society for Information Science. Band 41, Nr. 6, 1990, S. 391–407, hier S. 391 f., doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  12. Pierre Senellart, Vincent D. Blondel: Automatic Discovery of Similar Words. In: Michael W. Berry, Malu Castellanos (Hrsg.): Survey of Text Mining II: Clustering, Classification and Retrieval. Springer, London, U.K. 2008, ISBN 978-0-387-95563-6, S. 25–44.
  13. Joydeep Ghosh, Alexander Liu: -Means. In: Xindong Wu, Vipin Kumar (Hrsg.): The Top Ten Algorithms in Data Mining. CRC Press, New York, NY 2005, ISBN 0-387-95433-3, S. 21–37, hier S. 23 f.
  14. Roger Bilisoly: Practical Text Mining with Perl. John Wiley & Sons, Hoboken, NY 2008, ISBN 978-0-470-17643-6, S. 235.
  15. a b Abdelmalek Amine, Zakaria Elberrichi, Michel Simonet, Ladjel Bellatreche, Mimoun Malki: SOM-Based Clustering of Textual Documents Using WordNet. In: Min Song, Yi-fang Brooke Wu (Hrsg.): Handbook of Research on Text and Web Mining Technologies. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8, S. 189–200, hier S. 195.
  16. a b c René Witte, Sabine Bergler: Fuzzy Clustering for Topic Analysis and Summarization of Document Collections. In: Advances in Artificial Intelligence. Band 4509, 2007, doi:10.1007/978-3-540-72665-4_41.
  17. a b Hichem Frigui, Olfa Nasraoui: Simultaneous Clustering and Dynamic Keyword Weighting for Text Documents. In: Michael W. Berry (Hrsg.): Survey of Text Mining: Clustering, Classification and Retrieval. Springer, New York, NY 2004, ISBN 0-387-95563-1.
  18. a b Mei Kobayashi, Masaki Aono: Vector Space Models for Search and Cluster Mining. In: Michael W. Berry (Hrsg.): Survey of Text Mining: Clustering, Classification and Retrieval. Springer, New York, NY 2004, ISBN 0-387-95563-1, S. 103–122, hier S. 108 f.
  19. Alessandro Zanasi: Text Mining Tools. In: Alessandro Zanasi (Hrsg.): Text Mining and its Applications to Intelligence, CRM and Knowledge Management. WIT Press, Southampton & Billerica, MA 2005, ISBN 1-84564-131-0, S. 315–327, hier S. 315.
  20. a b c Richard Segall, Qingyu Zhang: A Survey of Selected Software Technologies for Text Mining. In: Min Song, Yi-fang Brooke Wu (Hrsg.): Handbook of Research on Text and Web Mining Technologies. Information Science Reference, Hershey, PA 2009, ISBN 978-1-59904-990-8.