named entity recognition ner-tagging › fileadmin › spinfo › ... · sprachliche...

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER-Tagging

‣ NER ist nichts anderes als Sequence-Labeling

- Elemente einer Sequenz mit Annotationen versehen -

‣ Ähnlich wie POS-Tagging

(Vgl. Jurafsky 2008)



NER-Tagging

Sequence-Labeling nach BIO-Schema(vgl. Jurafsky 2008)

Tags

‣ Startpunkt der Entity B

‣ Fortsetzung der Entity I

‣ Reguläre Wörter O (Wörter, die nicht Teil einer Entity sind)

‣ Größe des Tagsets: 2n+1

n = Anzahl der NER-Kategorien



Schritte

‣ NE-Detection

� Mentions erkennen

� DelimitationStart und Ende bestimmen

Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].



Schritte

‣ NE-Detection



‣ NE-Classifi cation

Zuordnen fester Kategorien

PERS, LOC, ORG, MISC, etc.Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it




















Schritte

‣ NE-Detection



‣ NE-Classifi cation

Zuordnen fester Kategorien

PERS, LOC, ORG, MISC, etc.

‣ NED + NEC = NER





















NER als Sequence Labeling



Bewährtes Vorgehen

‣ Kombination von Listen, Regeln und (Supervised) ML

· Tagging eindeutiger Entities mit High-Precision-Regeln (United)

· Substrings Matches der gefundenen Entities suchen, String

Matching (United Airlines – United)

· Identifikation anwendungsspezifischer NE-Mentions durch

domänenspezifische Namenslisten/Wörterbücher (Terminologie)

· Verwendung von ML-Verfahren, in denen vorher gewonnene Tags

als Features fungieren können


Reminder


NER als Klassifi kationsproblem

Wortsequenz w1

N = w1 ... w

N

Sequenz von NE Tags c1N = c

1 … c

N

mit cj � C = { LOC , PERS , ORG }



NER als Sequence Labeling

‣ Supervised Named Entity Classification



Verfahren

‣ Classifier

· Naïve Bayes (NB)

· Support Vector Machines (SVM)

· Logistic Regression / Maximum Entropy Methode (MEM) ...

‣ Sequence Models

· Hidden Markov Modell (HMM)

· Maximum Entropy Markov Modell (MEMM)

· Conditional Random Fields (CRF) ...

‣ Kombinationen



NER – Detection und Classification

Features



NER-Ansatz

- Pause? -


NER-Spanisch (2006)

NER-Ansatz

Bootstrapping Named Entity Recognition

with Automatically Generated Gazetteer Lists

Zornitsa Kozareva* (2006) Bootstrapping Named Entity Recognition with

Automatically Generated Gazetteer Lists. in Proceedings of EACL student

session (EACL 2006), Trento, Italy.

* Dept. de Lenguajes y Sistemas Informaticos, University of Alicante Alicante, Spanien

Im Folgenden: NER-Spanisch (2006)


NER-Spanisch (2006)

Zielsetzung

‣ Automatische Erstellung eines Gazetteers

· Verfahren kann einfach für andere Sprachen eingesetzt werden

· Low-Cost, da es auf nicht ausgezeichnetem Text basiert

‣ Entwicklung eines NER-Systems für das Spanische

· Auf einem ML-Ansatz basierend

· Ohne Verwendung morphologischer oder syntaktischer Information

· Mit und ohne Verwendung von Gazetteer

‣ Evaluation: Anhand annotierter Daten


NER-Spanisch (2006)

Motivation

Aktuelle Verfahren basieren auf ausgezeichneten Daten (hand-labeled data).

‣ Solche Daten können nur schwer beschafft werden, gerade bei

„exotischen“ Sprachen oder Sprachen, für die es wenig Möglichkeiten

der Forschungsförderung gibt.

‣ NER wird aber auch für nicht-englischsprachige Texte betrieben.


NER-Spanisch (2006)

Gazetteer-Erstellung

Corpus

‣ Spanische CLEF Competition Corpora (Cross-Language Evaluation

Forum), kostenpflichtig.

Vorverarbeitung

‣ alle sgml-Dokumente in ein File

‣ ausschließliche Verwendung des Inhaltes von <text>-Tags

→ 1 Gigabyte mit nicht annotierten Daten, 173.468.453 Wörter.

‣ Tokenisierung

‣ Ermittlung der Häufigkeit aller Unigramme innerhalb des Corpus


NER-Spanisch (2006)


Matchen auf allgemeine Patterns/Muster

‣ location pattern � prepi, wj�

SUCHE Präposition i die im Spanischen Locations bezeichnet UND alle

zugehörigen rechten großgeschriebenen Kontextwörter wj für diese.

1. Pattern � en,� � extrahiert alle direkt rechts von der Präposition ”en”

stehenden Kontextwörter wj , z. B. {Argentina, Barcelona, Madrid,

Valencia} und speichert diese als Kandidaten für Location

2. Wenn die Pattern Extraction terminiert, wird die Extraktion für die

nächste Präposition in prepi = {en, En, desde, Desde, hacia, Hacia}

angestoßen.

3. Solange bis das gesamte Set von Präpositionen durchlaufen wurde.


NER-Spanisch (2006)


Matchen auf allgemeine Patterns/Muster

Extrahierte entities

prepi en En desde Desde hacia Hacia

wj 15567 2381 1773 320 1336 134


NER-Spanisch (2006)


Filter

‣ Bigramne ”prepi Capitalized wordj” mit Häufi gkeit < 20

werden nicht berücksichtigt (Wert ausprobiert)

� so wurden tw. falsch geschriebene Wörter ausgeschlossen,

z. B. „Bacelona“


NER-Spanisch (2006)


Filter

Jedes großgeschriebene Wort mit 2-3 Buchstaben ”La, Las”

mit einem Trigramm-Muster validiert

� prepi, Capitalized wordj, Capitalized wordj+1�

Wenn kurze Wörter auch in Kombination mit anderen

großgeschriebenen Wörtern vorkommen und Trigramm-

Frequenz > 20 � Hinzufügung zur Liste

� „Los Angeles“, „Las Palmas“, „La Coruña“, „New York“.


NER-Spanisch (2006)


Ergebnis

16819 Entities automatisch gewonnen: Länder, europ. Hauptstädte,

vor allem spanische Städte, einige Personennamen, die die Patterns

auch erfüllt haben → dringelassen – Die Listen werden nicht als

exklusiv behandelt, d. h. der String „Jordan“ würde, wenn er in

beiden Listen vorkäme auch als beides getagged.

� Disambiguierung vonnöten


NER-Spanisch (2006)


Person-Liste (Spanische Personen)

Graph Exploration Algorithmus

Graph mit zwei Arten von Knoten

‣ First Names

‣ Family Names


NER-Spanisch (2006)


Ungerichteter Graph‣ Ungerichtete Verbindungen zwischen Vornamen und Nachnamen

‣ Falls ein ungewöhnlicher oder ausländischer Vorname nicht mit einem

spanischen Nachnamen verbunden ist, wird er nicht zur Liste

hinzugefügt.

‣ Start: häufi g vorkommender

spanischer Name

‣ Outlier ausländische Namen, Kombinationen von

sehr ungewöhnlichen Vornamen mit sehr

ungewöhnlichen Nachnamen. � Je größer das Corpus, desto weniger

solcher Verbindungen wird es geben.

Vorname 1

Vorname 2

Vorname 3

Vorname 4

Nachname 1

Nachname 2

Nachname 3

Nachname 4


NER-Spanisch (2006)


Breadth-First Suche

Wir markieren uns den Ausgangsknoten und besuchen von dort aus alle

seinen direkten Nachfolger. Dann besuchen wir die neuen Nachfolger der

Nachfolger usw., bis schließlich alle Knoten besucht wurden.

Suche endet, wenn keine Matches mehr für Pattern

<First_name, Family_name>

⟨i, j⟩ ∈C: im Corpus C wird der reguläre Ausdruck

[A-Z][a-z]* [A-Z][a-z]* (+ spanische Sonderzeichen)

‣ Startknoten kann irgendein spanischer Vor- bzw. Nachname sein.

Hier.: Jose.


NER-Spanisch (2006)


C: Corpus, F: Set von Vornamen, S: set von Nachnamen

F = {”José�”}� i � F doSnew = Snew � {j} , � j | � i, j� � C

S = S � Snew� j� Sdo Fnew =Fnew � {i},� i|� i,j� � C

1. F = {”Jose �”}2. � i � F do Snew = Snew � {j} , � j | � i, j� � C

3. S = S � Snew4. � j� Sdo Fnew =Fnew � {i},� i|� i,j� � C

5. F = F � Fnew6. if (Fnew�=� )� (Snew �=� ) then goto 2. else finish.


NER-Spanisch (2006)


Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}


NER-Spanisch (2006)


Beispiel:Corpus C =




Initialer Vorname

F = {„José“}, S = � .


2. S = {„García“, „Martínez“}


NER-Spanisch (2006)


Beispiel:Corpus C =




Initialer Vorname

F = {„José“}, S = � .



3. F = {„José“, „Manolo“}


NER-Spanisch (2006)


Beispiel:Corpus C =




Initialer Vorname

F = {„José“}, S = � .




4. F = {„José“, „Manolo“, „María“}


NER-Spanisch (2006)


Beispiel:Corpus C =




Initialer Vorname

F = {„José“}, S = � .




4. F = {„José“, „Manolo“, „María“}

5. S = {„García“, „Martínez“, „Fernandez“}


NER-Spanisch (2006)


Beispiel:Corpus C = {„José García“, „José Martínez”, „Manolo García“,

„María Martínez“, „María Fernández“, „John Lennon“}

→ Weder „John“, noch „Lennon“ landen im Ergebnisset.


NER-Spanisch (2006)


Filter

nur Relationen, mit Häufigkeit > 10 → Rare Kombinationen, z. B. Jose Madrid raus

Noise

Personennamen, die gleichzeitig Namen von Organisationen sind:

→ weiblicher Vorname Mercedes → Knoten Benz wird aufgenommen

wg. „Mercedes Benz“ → falscher Knoten Nachname ”Benz” → weitere falsche Knoten

Resultat

‣ 13713 Vornamen

‣ 103008 Nachnamen

Fazit: „Durch große Datenmenge können Gazetteerlisten mit einfachen Mitteln erstellt

werden“


NER-Spanisch (2006)

NER – Detection und Classification

NE Detection – Delimitation

Grenzen (Boundaries) d. h. Start und Ende der Entity bestimmen

‣ „Presidente de los Estados Unidos“

‣ „Universidad Politecnica de Catalunã“.

… soll als eine Entity erkannt werden

‣ Verwendung des BIO-Schemas


NER-Spanisch (2006)

ML-Verfahren

Algorithmen

‣ Instance-based learning (IBL)· semi-supervised, graphenbasiert

· Labels im Trainingsset weggelassen

‣ Decision Trees (Daelemans et al., 2003) supervised

· Labels in den Trainingsdaten sichtbar

‣ Mit Default-Werten verwendet (Daelemans, Antwerpen)

‣ Leicht zu implementieren

‣ Verwendung Gazetteer-Listen

‣ Zusätzlich – Bootstrapping


NER-Spanisch (2006)

Bootstrapping

‣ bootstrap: engl. Stiefelriemen (Baron Münchhausen-Legende)

‣ Allgemein: Prozess, bei welchem ein komplexes System durch das Starten eines

einfachen Systems aktiviert wird und Stück für Stück, aufbauend auf den

Fähigkeiten des einfacheren Systems, mehr Fähigkeiten entwickelt.

‣ Domänenspezifi scher Begriff (Computer, Linguistik, Finanzen, Biologie)

Statistik

‣ Methode des Resampling. Wiederholte Berechnung von Statistiken auf

der Grundlage von Stichproben (mit Zurücklegen). Verwendung wenn die

theoretische Verteilung nicht bekannt ist (Efron, 1979, 1981, 1982; Efron &

Tibshirani, 1993).


NER-Spanisch (2006)

Bootstrapping

‣ Allgemein· Initiale Seed-Beispiele vorgeben, um ein Startmodell zu erstellen

· Klassifi kation des Corpus mit diesem Seed-Modell

· Hinzufügen der präzisesten Klassifi kationen zum Trainingsset

· Iterieren

‣ Bootstrapping-Ziele (Abney, 2002)· Ausgangslage - Minimalmenge von gelernten Beispielen

· Lernen aus nicht annotierten Beispielen


NER-Spanisch (2006)

Bootstrapping

‣ Neues Beispiel wird zum Trainingsset L hinzugefügt, wenn

beide Classifi er C1 und C2 sich bei der Klassifi zierung

des Beispiels einig waren

1. for iteration = 0...n do2. pool 1000 examples from unlabeled data;3. annotate all 1000 examples with classifier C1 and C2;4. for each of the 1000 examples compare classes of C1 and C2;5. add example into L only if classes of C1 and C2 agree;6. train model with L;7. calculate result8. end for

‣ Nach 25 Iterationen � Bootstrapping-Stop


NER-Spanisch (2006)

Corpus

‣ http://www.cnts.ua.ac.be/conll2002/ner/data/ <nicht erreichbar>

(CoNLL-2002 competition)

‣ Spanisches Corpus

‣ Nachrichtentexte, manuell annotiert

‣ Trainingsdaten:

· 264715 Wörter

· davon 18798 Entities

‣ Testset

· 51533 Wörter

· 3558 Entities

‣ Für die Evaluation nötig. Die Annotationen wurden für die

Durchführung des Bootstrapping-Ansatzes ignoriert.

http://www.cnts.ua.ac.be/conll2002/ner/data/


NER-Spanisch (2006)

Feature Extraction

‣ Merkmalsberechnung und -auswahl

Merkmalsvektoren �i = { f

1,… , f

n }

n = Anzahl aller Features�i Anzahl der Trainingsbeispiele

‣ Merkmale repräsentieren

· Kontextuelle

· Lexikalische

· Gazetteer-

Informationen


NER-Spanisch (2006)

Feature Extraction

‣ f1: alle Buchstaben von w08 großgeschrieben;

‣ f2-f8: w–3, w–2, w–1, w0, w+1, w+2, w+3 beginnen mit Großbuchstaben;

‣ f9: Position von w0 im aktuellen Satz;

‣ f10: Häufigkeit von w0;

‣ f11-f17: Wortformen von w0 und Wörter in Fenster [−3, +3];


NER-Spanisch (2006)

Features Extraction

‣ f18: Erstes Wort der Entity;

‣ f19: Zweites Wort der Entity, falls vorhanden;

‣ f20: w–1 ist ein Trigger-Wort für Location, Person oder Organization;

‣ f21: w+1 ist ein Trigger-Wort für Location, Person oder Organization;

‣ f22: w0 ist in der Location-Gazetteerliste enthalten;

‣ f23: w0 in der Personen-Vornamen-Gazetteerliste enthalten;

‣ f24: w0 in der Personen-Nachnamen-Gazetteerliste enthalten;

‣ f25: 0 wenn der Großteil der Wörter innerhalb einer Entity als Location

klassifiziert wurde, 1 wenn der Großteil der Wörter innerhalb einer Entity

als Person klassifiziert wurde, ansonsten 2

Features f22, f23, f24 wurden automatisch extrahiert


NER-Spanisch (2006)

Delimitation (BIO-Tagging)

„Beim überwachtem Lernen werden hier nur oberfl ächliche Features verwendet, wie

Kontext und Schreibweise, da das ausreicht“ � f1 ÷ f10

Bootstrapping: 1000 Tags / Iteration, Hinzufügung wenn Classifier übereinstimmen

Grund: “Noise during the learning. Some examples were learned with the wrong class

and others didn’t introduce new information in the training data.“

Experiment B I BIO

Supervised 94.40 85.74 91.88

Bootstrapped 17th iteration

87.47 68.95 81.62


NER-Spanisch (2006)

NE Classification

Kategorien zuweisen

(Person, Organisation, Location oder Sonstiges)

Experiment PER LOC ORG MISC

NoGazetteerSup. 80.98 71.66 73.72 49.94

GazetteerSup. 84.32 75.06 77.83 53.98 + Gazetteer Features

Bootstrapped 62.59 51.19 50.18 33.04 gleiche Features

F-score der NER-Experimente


NER-Spanisch (2006)

NER

‣ Sonstiges am schlechtesten klassifiziert, weil heterogen

‣ Andere Kategorien > 70 %

‣ Gazetteer Information → Verbesserung für Person und Location

‣ Organisation profitierten von

· Kontextinformation, den Trigger-Wörter für Organisation (???)

· Attributvalidierung, dass wenn eine Entity keine Person und keine

Location ist → Organisation (???)

‣ Bootstrapping schlechter, da

· nur 81% NE-Grenzen korrekt gefunden wurde

· Trainingsbeispiele, die nicht korrekt klassifiziert wurden, zum

Trainingsset hinzugefügt wurden


Literatur

Verwendete Quellen

ML-Verfahren

Manning & Schütze (1999)

Witten & Frank (2006)

IE / NER

Jurafsky (2008) Quelle für Beispiele und Abbildungen zur NER und

Sequence Labeling

named entity recognition ner-tagging › fileadmin › spinfo › ... · sprachliche...

Documents