named entity recognition ner-tagging › fileadmin › spinfo › ... · sprachliche...
TRANSCRIPT
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER-Tagging
‣ NER ist nichts anderes als Sequence-Labeling
- Elemente einer Sequenz mit Annotationen versehen -
‣ Ähnlich wie POS-Tagging
(Vgl. Jurafsky 2008)
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER-Tagging
Sequence-Labeling nach BIO-Schema(vgl. Jurafsky 2008)
Tags
‣ Startpunkt der Entity B
‣ Fortsetzung der Entity I
‣ Reguläre Wörter O (Wörter, die nicht Teil einer Entity sind)
‣ Größe des Tagsets: 2n+1
n = Anzahl der NER-Kategorien
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
Schritte
‣ NE-Detection
� Mentions erkennen
� DelimitationStart und Ende bestimmen
Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it
has increased fares by [MONEY $6] per round trip on flights to some
cities also served by lower-cost carriers. [ORG American Airlines],
a unit [ORG AMR], immediately matched the move, spokesman
[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the
increase took effect [TIME Thursday] night and applies to most
routes where it competes against discount carriers, such
as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]
to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
Schritte
‣ NE-Detection
� Mentions erkennen
� DelimitationStart und Ende bestimmen
‣ NE-Classifi cation
Zuordnen fester Kategorien
PERS, LOC, ORG, MISC, etc.Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it
has increased fares by [MONEY $6] per round trip on flights to some
cities also served by lower-cost carriers. [ORG American Airlines],
a unit [ORG AMR], immediately matched the move, spokesman
[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the
increase took effect [TIME Thursday] night and applies to most
routes where it competes against discount carriers, such
as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]
to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].
Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it
has increased fares by [MONEY $6] per round trip on flights to some
cities also served by lower-cost carriers. [ORG American Airlines],
a unit [ORG AMR], immediately matched the move, spokesman
[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the
increase took effect [TIME Thursday] night and applies to most
routes where it competes against discount carriers, such
as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]
to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
Schritte
‣ NE-Detection
� Mentions erkennen
� DelimitationStart und Ende bestimmen
‣ NE-Classifi cation
Zuordnen fester Kategorien
PERS, LOC, ORG, MISC, etc.
‣ NED + NEC = NER
Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it
has increased fares by [MONEY $6] per round trip on flights to some
cities also served by lower-cost carriers. [ORG American Airlines],
a unit [ORG AMR], immediately matched the move, spokesman
[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the
increase took effect [TIME Thursday] night and applies to most
routes where it competes against discount carriers, such
as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]
to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].
Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it
has increased fares by [MONEY $6] per round trip on flights to some
cities also served by lower-cost carriers. [ORG American Airlines],
a unit [ORG AMR], immediately matched the move, spokesman
[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the
increase took effect [TIME Thursday] night and applies to most
routes where it competes against discount carriers, such
as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]
to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER als Sequence Labeling
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
Bewährtes Vorgehen
‣ Kombination von Listen, Regeln und (Supervised) ML
· Tagging eindeutiger Entities mit High-Precision-Regeln (United)
· Substrings Matches der gefundenen Entities suchen, String
Matching (United Airlines – United)
· Identifikation anwendungsspezifischer NE-Mentions durch
domänenspezifische Namenslisten/Wörterbücher (Terminologie)
· Verwendung von ML-Verfahren, in denen vorher gewonnene Tags
als Features fungieren können
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Reminder
Named Entity Recognition
NER als Klassifi kationsproblem
Wortsequenz w1
N = w1 ... w
N
Sequenz von NE Tags c1N = c
1 … c
N
mit cj � C = { LOC , PERS , ORG }
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER als Sequence Labeling
‣ Supervised Named Entity Classification
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
Verfahren
‣ Classifier
· Naïve Bayes (NB)
· Support Vector Machines (SVM)
· Logistic Regression / Maximum Entropy Methode (MEM) ...
‣ Sequence Models
· Hidden Markov Modell (HMM)
· Maximum Entropy Markov Modell (MEMM)
· Conditional Random Fields (CRF) ...
‣ Kombinationen
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER – Detection und Classification
Features
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER – Detection und Classification
Features
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Named Entity Recognition
NER-Ansatz
- Pause? -
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
NER-Ansatz
Bootstrapping Named Entity Recognition
with Automatically Generated Gazetteer Lists
Zornitsa Kozareva* (2006) Bootstrapping Named Entity Recognition with
Automatically Generated Gazetteer Lists. in Proceedings of EACL student
session (EACL 2006), Trento, Italy.
* Dept. de Lenguajes y Sistemas Informaticos, University of Alicante Alicante, Spanien
Im Folgenden: NER-Spanisch (2006)
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Zielsetzung
‣ Automatische Erstellung eines Gazetteers
· Verfahren kann einfach für andere Sprachen eingesetzt werden
· Low-Cost, da es auf nicht ausgezeichnetem Text basiert
‣ Entwicklung eines NER-Systems für das Spanische
· Auf einem ML-Ansatz basierend
· Ohne Verwendung morphologischer oder syntaktischer Information
· Mit und ohne Verwendung von Gazetteer
‣ Evaluation: Anhand annotierter Daten
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Motivation
Aktuelle Verfahren basieren auf ausgezeichneten Daten (hand-labeled data).
‣ Solche Daten können nur schwer beschafft werden, gerade bei
„exotischen“ Sprachen oder Sprachen, für die es wenig Möglichkeiten
der Forschungsförderung gibt.
‣ NER wird aber auch für nicht-englischsprachige Texte betrieben.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Corpus
‣ Spanische CLEF Competition Corpora (Cross-Language Evaluation
Forum), kostenpflichtig.
Vorverarbeitung
‣ alle sgml-Dokumente in ein File
‣ ausschließliche Verwendung des Inhaltes von <text>-Tags
→ 1 Gigabyte mit nicht annotierten Daten, 173.468.453 Wörter.
‣ Tokenisierung
‣ Ermittlung der Häufigkeit aller Unigramme innerhalb des Corpus
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Matchen auf allgemeine Patterns/Muster
‣ location pattern � prepi, wj�
SUCHE Präposition i die im Spanischen Locations bezeichnet UND alle
zugehörigen rechten großgeschriebenen Kontextwörter wj für diese.
1. Pattern � en,� � extrahiert alle direkt rechts von der Präposition ”en”
stehenden Kontextwörter wj , z. B. {Argentina, Barcelona, Madrid,
Valencia} und speichert diese als Kandidaten für Location
2. Wenn die Pattern Extraction terminiert, wird die Extraktion für die
nächste Präposition in prepi = {en, En, desde, Desde, hacia, Hacia}
angestoßen.
3. Solange bis das gesamte Set von Präpositionen durchlaufen wurde.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Matchen auf allgemeine Patterns/Muster
Extrahierte entities
prepi en En desde Desde hacia Hacia
wj 15567 2381 1773 320 1336 134
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Filter
‣ Bigramne ”prepi Capitalized wordj” mit Häufi gkeit < 20
werden nicht berücksichtigt (Wert ausprobiert)
� so wurden tw. falsch geschriebene Wörter ausgeschlossen,
z. B. „Bacelona“
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Filter
Jedes großgeschriebene Wort mit 2-3 Buchstaben ”La, Las”
mit einem Trigramm-Muster validiert
� prepi, Capitalized wordj, Capitalized wordj+1�
Wenn kurze Wörter auch in Kombination mit anderen
großgeschriebenen Wörtern vorkommen und Trigramm-
Frequenz > 20 � Hinzufügung zur Liste
� „Los Angeles“, „Las Palmas“, „La Coruña“, „New York“.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Ergebnis
16819 Entities automatisch gewonnen: Länder, europ. Hauptstädte,
vor allem spanische Städte, einige Personennamen, die die Patterns
auch erfüllt haben → dringelassen – Die Listen werden nicht als
exklusiv behandelt, d. h. der String „Jordan“ würde, wenn er in
beiden Listen vorkäme auch als beides getagged.
� Disambiguierung vonnöten
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Person-Liste (Spanische Personen)
Graph Exploration Algorithmus
Graph mit zwei Arten von Knoten
‣ First Names
‣ Family Names
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Ungerichteter Graph‣ Ungerichtete Verbindungen zwischen Vornamen und Nachnamen
‣ Falls ein ungewöhnlicher oder ausländischer Vorname nicht mit einem
spanischen Nachnamen verbunden ist, wird er nicht zur Liste
hinzugefügt.
‣ Start: häufi g vorkommender
spanischer Name
‣ Outlier ausländische Namen, Kombinationen von
sehr ungewöhnlichen Vornamen mit sehr
ungewöhnlichen Nachnamen. � Je größer das Corpus, desto weniger
solcher Verbindungen wird es geben.
Vorname 1
Vorname 2
Vorname 3
Vorname 4
Nachname 1
Nachname 2
Nachname 3
Nachname 4
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Breadth-First Suche
Wir markieren uns den Ausgangsknoten und besuchen von dort aus alle
seinen direkten Nachfolger. Dann besuchen wir die neuen Nachfolger der
Nachfolger usw., bis schließlich alle Knoten besucht wurden.
Suche endet, wenn keine Matches mehr für Pattern
<First_name, Family_name>
⟨i, j⟩ ∈C: im Corpus C wird der reguläre Ausdruck
[A-Z][a-z]* [A-Z][a-z]* (+ spanische Sonderzeichen)
‣ Startknoten kann irgendein spanischer Vor- bzw. Nachname sein.
Hier.: Jose.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
C: Corpus, F: Set von Vornamen, S: set von Nachnamen
F = {”José�”}� i � F doSnew = Snew � {j} , � j | � i, j� � C
S = S � Snew� j� Sdo Fnew =Fnew � {i},� i|� i,j� � C
1. F = {”Jose �”}2. � i � F do Snew = Snew � {j} , � j | � i, j� � C
3. S = S � Snew4. � j� Sdo Fnew =Fnew � {i},� i|� i,j� � C
5. F = F � Fnew6. if (Fnew�=� )� (Snew �=� ) then goto 2. else finish.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C =
{„José García“, „José Martínez”,
„Manolo García“, „María Martínez“,
„María Fernández“, „John Lennon“}
Initialer Vorname
F = {„José“}, S = � .
1. S = {„García“}
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C =
{„José García“, „José Martínez”,
„Manolo García“, „María Martínez“,
„María Fernández“, „John Lennon“}
Initialer Vorname
F = {„José“}, S = � .
1. S = {„García“}
2. S = {„García“, „Martínez“}
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C =
{„José García“, „José Martínez”,
„Manolo García“, „María Martínez“,
„María Fernández“, „John Lennon“}
Initialer Vorname
F = {„José“}, S = � .
1. S = {„García“}
2. S = {„García“, „Martínez“}
3. F = {„José“, „Manolo“}
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C =
{„José García“, „José Martínez”,
„Manolo García“, „María Martínez“,
„María Fernández“, „John Lennon“}
Initialer Vorname
F = {„José“}, S = � .
1. S = {„García“}
2. S = {„García“, „Martínez“}
3. F = {„José“, „Manolo“}
4. F = {„José“, „Manolo“, „María“}
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C =
{„José García“, „José Martínez”,
„Manolo García“, „María Martínez“,
„María Fernández“, „John Lennon“}
Initialer Vorname
F = {„José“}, S = � .
1. S = {„García“}
2. S = {„García“, „Martínez“}
3. F = {„José“, „Manolo“}
4. F = {„José“, „Manolo“, „María“}
5. S = {„García“, „Martínez“, „Fernandez“}
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Beispiel:Corpus C = {„José García“, „José Martínez”, „Manolo García“,
„María Martínez“, „María Fernández“, „John Lennon“}
→ Weder „John“, noch „Lennon“ landen im Ergebnisset.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Gazetteer-Erstellung
Filter
nur Relationen, mit Häufigkeit > 10 → Rare Kombinationen, z. B. Jose Madrid raus
Noise
Personennamen, die gleichzeitig Namen von Organisationen sind:
→ weiblicher Vorname Mercedes → Knoten Benz wird aufgenommen
wg. „Mercedes Benz“ → falscher Knoten Nachname ”Benz” → weitere falsche Knoten
Resultat
‣ 13713 Vornamen
‣ 103008 Nachnamen
Fazit: „Durch große Datenmenge können Gazetteerlisten mit einfachen Mitteln erstellt
werden“
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
NER – Detection und Classification
NE Detection – Delimitation
Grenzen (Boundaries) d. h. Start und Ende der Entity bestimmen
‣ „Presidente de los Estados Unidos“
‣ „Universidad Politecnica de Catalunã“.
… soll als eine Entity erkannt werden
‣ Verwendung des BIO-Schemas
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
ML-Verfahren
Algorithmen
‣ Instance-based learning (IBL)· semi-supervised, graphenbasiert
· Labels im Trainingsset weggelassen
‣ Decision Trees (Daelemans et al., 2003) supervised
· Labels in den Trainingsdaten sichtbar
‣ Mit Default-Werten verwendet (Daelemans, Antwerpen)
‣ Leicht zu implementieren
‣ Verwendung Gazetteer-Listen
‣ Zusätzlich – Bootstrapping
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Bootstrapping
‣ bootstrap: engl. Stiefelriemen (Baron Münchhausen-Legende)
‣ Allgemein: Prozess, bei welchem ein komplexes System durch das Starten eines
einfachen Systems aktiviert wird und Stück für Stück, aufbauend auf den
Fähigkeiten des einfacheren Systems, mehr Fähigkeiten entwickelt.
‣ Domänenspezifi scher Begriff (Computer, Linguistik, Finanzen, Biologie)
Statistik
‣ Methode des Resampling. Wiederholte Berechnung von Statistiken auf
der Grundlage von Stichproben (mit Zurücklegen). Verwendung wenn die
theoretische Verteilung nicht bekannt ist (Efron, 1979, 1981, 1982; Efron &
Tibshirani, 1993).
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Bootstrapping
‣ Allgemein· Initiale Seed-Beispiele vorgeben, um ein Startmodell zu erstellen
· Klassifi kation des Corpus mit diesem Seed-Modell
· Hinzufügen der präzisesten Klassifi kationen zum Trainingsset
· Iterieren
‣ Bootstrapping-Ziele (Abney, 2002)· Ausgangslage - Minimalmenge von gelernten Beispielen
· Lernen aus nicht annotierten Beispielen
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Bootstrapping
‣ Neues Beispiel wird zum Trainingsset L hinzugefügt, wenn
beide Classifi er C1 und C2 sich bei der Klassifi zierung
des Beispiels einig waren
1. for iteration = 0...n do2. pool 1000 examples from unlabeled data;3. annotate all 1000 examples with classifier C1 and C2;4. for each of the 1000 examples compare classes of C1 and C2;5. add example into L only if classes of C1 and C2 agree;6. train model with L;7. calculate result8. end for
‣ Nach 25 Iterationen � Bootstrapping-Stop
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Corpus
‣ http://www.cnts.ua.ac.be/conll2002/ner/data/ <nicht erreichbar>
(CoNLL-2002 competition)
‣ Spanisches Corpus
‣ Nachrichtentexte, manuell annotiert
‣ Trainingsdaten:
· 264715 Wörter
· davon 18798 Entities
‣ Testset
· 51533 Wörter
· 3558 Entities
‣ Für die Evaluation nötig. Die Annotationen wurden für die
Durchführung des Bootstrapping-Ansatzes ignoriert.
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Feature Extraction
‣ Merkmalsberechnung und -auswahl
Merkmalsvektoren �i = { f
1,… , f
n }
n = Anzahl aller Features�i Anzahl der Trainingsbeispiele
‣ Merkmale repräsentieren
· Kontextuelle
· Lexikalische
· Gazetteer-
Informationen
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Feature Extraction
‣ f1: alle Buchstaben von w08 großgeschrieben;
‣ f2-f8: w–3, w–2, w–1, w0, w+1, w+2, w+3 beginnen mit Großbuchstaben;
‣ f9: Position von w0 im aktuellen Satz;
‣ f10: Häufigkeit von w0;
‣ f11-f17: Wortformen von w0 und Wörter in Fenster [−3, +3];
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Features Extraction
‣ f18: Erstes Wort der Entity;
‣ f19: Zweites Wort der Entity, falls vorhanden;
‣ f20: w–1 ist ein Trigger-Wort für Location, Person oder Organization;
‣ f21: w+1 ist ein Trigger-Wort für Location, Person oder Organization;
‣ f22: w0 ist in der Location-Gazetteerliste enthalten;
‣ f23: w0 in der Personen-Vornamen-Gazetteerliste enthalten;
‣ f24: w0 in der Personen-Nachnamen-Gazetteerliste enthalten;
‣ f25: 0 wenn der Großteil der Wörter innerhalb einer Entity als Location
klassifiziert wurde, 1 wenn der Großteil der Wörter innerhalb einer Entity
als Person klassifiziert wurde, ansonsten 2
Features f22, f23, f24 wurden automatisch extrahiert
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
Delimitation (BIO-Tagging)
„Beim überwachtem Lernen werden hier nur oberfl ächliche Features verwendet, wie
Kontext und Schreibweise, da das ausreicht“ � f1 ÷ f10
Bootstrapping: 1000 Tags / Iteration, Hinzufügung wenn Classifier übereinstimmen
Grund: “Noise during the learning. Some examples were learned with the wrong class
and others didn’t introduce new information in the training data.“
Experiment B I BIO
Supervised 94.40 85.74 91.88
Bootstrapped 17th iteration
87.47 68.95 81.62
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
NE Classification
Kategorien zuweisen
(Person, Organisation, Location oder Sonstiges)
Experiment PER LOC ORG MISC
NoGazetteerSup. 80.98 71.66 73.72 49.94
GazetteerSup. 84.32 75.06 77.83 53.98 + Gazetteer Features
Bootstrapped 62.59 51.19 50.18 33.04 gleiche Features
F-score der NER-Experimente
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
NER-Spanisch (2006)
NER
‣ Sonstiges am schlechtesten klassifiziert, weil heterogen
‣ Andere Kategorien > 70 %
‣ Gazetteer Information → Verbesserung für Person und Location
‣ Organisation profitierten von
· Kontextinformation, den Trigger-Wörter für Organisation (???)
· Attributvalidierung, dass wenn eine Entity keine Person und keine
Location ist → Organisation (???)
‣ Bootstrapping schlechter, da
· nur 81% NE-Grenzen korrekt gefunden wurde
· Trainingsbeispiele, die nicht korrekt klassifiziert wurden, zum
Trainingsset hinzugefügt wurden
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011
Literatur
Verwendete Quellen
ML-Verfahren
Manning & Schütze (1999)
Witten & Frank (2006)
IE / NER
Jurafsky (2008) Quelle für Beispiele und Abbildungen zur NER und
Sequence Labeling