named entity recognition ner-tagging › fileadmin › spinfo › ... · sprachliche...

46
Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition NER-Tagging NER ist nichts anderes als Sequence-Labeling - Elemente einer Sequenz mit Annotationen versehen - Ähnlich wie POS-Tagging (Vgl. Jurafsky 2008)

Upload: others

Post on 03-Jul-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER-Tagging

‣ NER ist nichts anderes als Sequence-Labeling

- Elemente einer Sequenz mit Annotationen versehen -

‣ Ähnlich wie POS-Tagging

(Vgl. Jurafsky 2008)

Page 2: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER-Tagging

Sequence-Labeling nach BIO-Schema(vgl. Jurafsky 2008)

Tags

‣ Startpunkt der Entity B

‣ Fortsetzung der Entity I

‣ Reguläre Wörter O (Wörter, die nicht Teil einer Entity sind)

‣ Größe des Tagsets: 2n+1

n = Anzahl der NER-Kategorien

Page 3: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

Schritte

‣ NE-Detection

� Mentions erkennen

� DelimitationStart und Ende bestimmen

Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].

Page 4: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

Schritte

‣ NE-Detection

� Mentions erkennen

� DelimitationStart und Ende bestimmen

‣ NE-Classifi cation

Zuordnen fester Kategorien

PERS, LOC, ORG, MISC, etc.Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].

Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].

Page 5: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

Schritte

‣ NE-Detection

� Mentions erkennen

� DelimitationStart und Ende bestimmen

‣ NE-Classifi cation

Zuordnen fester Kategorien

PERS, LOC, ORG, MISC, etc.

‣ NED + NEC = NER

Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].

Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it

has increased fares by [MONEY $6] per round trip on flights to some

cities also served by lower-cost carriers. [ORG American Airlines],

a unit [ORG AMR], immediately matched the move, spokesman

[PERS Tim Wagner] said. [ORG United], a unit of [ORG UAL], said the

increase took effect [TIME Thursday] night and applies to most

routes where it competes against discount carriers, such

as [LOC Chicago] to [LOC Dallas] and [LOC Atlanta] and [LOC Denver]

to [LOC San Francisco], [LOC Los Angeles] and [LOC New York].

Page 6: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER als Sequence Labeling

Page 7: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

Bewährtes Vorgehen

‣ Kombination von Listen, Regeln und (Supervised) ML

· Tagging eindeutiger Entities mit High-Precision-Regeln (United)

· Substrings Matches der gefundenen Entities suchen, String

Matching (United Airlines – United)

· Identifikation anwendungsspezifischer NE-Mentions durch

domänenspezifische Namenslisten/Wörterbücher (Terminologie)

· Verwendung von ML-Verfahren, in denen vorher gewonnene Tags

als Features fungieren können

Page 8: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Reminder

Named Entity Recognition

NER als Klassifi kationsproblem

Wortsequenz w1

N = w1 ... w

N

Sequenz von NE Tags c1N = c

1 … c

N

mit cj � C = { LOC , PERS , ORG }

Page 9: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER als Sequence Labeling

‣ Supervised Named Entity Classification

Page 10: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

Verfahren

‣ Classifier

· Naïve Bayes (NB)

· Support Vector Machines (SVM)

· Logistic Regression / Maximum Entropy Methode (MEM) ...

‣ Sequence Models

· Hidden Markov Modell (HMM)

· Maximum Entropy Markov Modell (MEMM)

· Conditional Random Fields (CRF) ...

‣ Kombinationen

Page 11: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER – Detection und Classification

Features

Page 12: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER – Detection und Classification

Features

Page 13: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Named Entity Recognition

NER-Ansatz

- Pause? -

Page 14: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

NER-Ansatz

Bootstrapping Named Entity Recognition

with Automatically Generated Gazetteer Lists

Zornitsa Kozareva* (2006) Bootstrapping Named Entity Recognition with

Automatically Generated Gazetteer Lists. in Proceedings of EACL student

session (EACL 2006), Trento, Italy.

* Dept. de Lenguajes y Sistemas Informaticos, University of Alicante Alicante, Spanien

Im Folgenden: NER-Spanisch (2006)

Page 15: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Zielsetzung

‣ Automatische Erstellung eines Gazetteers

· Verfahren kann einfach für andere Sprachen eingesetzt werden

· Low-Cost, da es auf nicht ausgezeichnetem Text basiert

‣ Entwicklung eines NER-Systems für das Spanische

· Auf einem ML-Ansatz basierend

· Ohne Verwendung morphologischer oder syntaktischer Information

· Mit und ohne Verwendung von Gazetteer

‣ Evaluation: Anhand annotierter Daten

Page 16: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Motivation

Aktuelle Verfahren basieren auf ausgezeichneten Daten (hand-labeled data).

‣ Solche Daten können nur schwer beschafft werden, gerade bei

„exotischen“ Sprachen oder Sprachen, für die es wenig Möglichkeiten

der Forschungsförderung gibt.

‣ NER wird aber auch für nicht-englischsprachige Texte betrieben.

Page 17: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Corpus

‣ Spanische CLEF Competition Corpora (Cross-Language Evaluation

Forum), kostenpflichtig.

Vorverarbeitung

‣ alle sgml-Dokumente in ein File

‣ ausschließliche Verwendung des Inhaltes von <text>-Tags

→ 1 Gigabyte mit nicht annotierten Daten, 173.468.453 Wörter.

‣ Tokenisierung

‣ Ermittlung der Häufigkeit aller Unigramme innerhalb des Corpus

Page 18: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Matchen auf allgemeine Patterns/Muster

‣ location pattern � prepi, wj�

SUCHE Präposition i die im Spanischen Locations bezeichnet UND alle

zugehörigen rechten großgeschriebenen Kontextwörter wj für diese.

1. Pattern � en,� � extrahiert alle direkt rechts von der Präposition ”en”

stehenden Kontextwörter wj , z. B. {Argentina, Barcelona, Madrid,

Valencia} und speichert diese als Kandidaten für Location

2. Wenn die Pattern Extraction terminiert, wird die Extraktion für die

nächste Präposition in prepi = {en, En, desde, Desde, hacia, Hacia}

angestoßen.

3. Solange bis das gesamte Set von Präpositionen durchlaufen wurde.

Page 19: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Matchen auf allgemeine Patterns/Muster

Extrahierte entities

prepi en En desde Desde hacia Hacia

wj 15567 2381 1773 320 1336 134

Page 20: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Filter

‣ Bigramne ”prepi Capitalized wordj” mit Häufi gkeit < 20

werden nicht berücksichtigt (Wert ausprobiert)

� so wurden tw. falsch geschriebene Wörter ausgeschlossen,

z. B. „Bacelona“

Page 21: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Filter

Jedes großgeschriebene Wort mit 2-3 Buchstaben ”La, Las”

mit einem Trigramm-Muster validiert

� prepi, Capitalized wordj, Capitalized wordj+1�

Wenn kurze Wörter auch in Kombination mit anderen

großgeschriebenen Wörtern vorkommen und Trigramm-

Frequenz > 20 � Hinzufügung zur Liste

� „Los Angeles“, „Las Palmas“, „La Coruña“, „New York“.

Page 22: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Ergebnis

16819 Entities automatisch gewonnen: Länder, europ. Hauptstädte,

vor allem spanische Städte, einige Personennamen, die die Patterns

auch erfüllt haben → dringelassen – Die Listen werden nicht als

exklusiv behandelt, d. h. der String „Jordan“ würde, wenn er in

beiden Listen vorkäme auch als beides getagged.

� Disambiguierung vonnöten

Page 23: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Person-Liste (Spanische Personen)

Graph Exploration Algorithmus

Graph mit zwei Arten von Knoten

‣ First Names

‣ Family Names

Page 24: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Ungerichteter Graph‣ Ungerichtete Verbindungen zwischen Vornamen und Nachnamen

‣ Falls ein ungewöhnlicher oder ausländischer Vorname nicht mit einem

spanischen Nachnamen verbunden ist, wird er nicht zur Liste

hinzugefügt.

‣ Start: häufi g vorkommender

spanischer Name

‣ Outlier ausländische Namen, Kombinationen von

sehr ungewöhnlichen Vornamen mit sehr

ungewöhnlichen Nachnamen. � Je größer das Corpus, desto weniger

solcher Verbindungen wird es geben.

Vorname 1

Vorname 2

Vorname 3

Vorname 4

Nachname 1

Nachname 2

Nachname 3

Nachname 4

Page 25: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Breadth-First Suche

Wir markieren uns den Ausgangsknoten und besuchen von dort aus alle

seinen direkten Nachfolger. Dann besuchen wir die neuen Nachfolger der

Nachfolger usw., bis schließlich alle Knoten besucht wurden.

Suche endet, wenn keine Matches mehr für Pattern

<First_name, Family_name>

⟨i, j⟩ ∈C: im Corpus C wird der reguläre Ausdruck

[A-Z][a-z]* [A-Z][a-z]* (+ spanische Sonderzeichen)

‣ Startknoten kann irgendein spanischer Vor- bzw. Nachname sein.

Hier.: Jose.

Page 26: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

C: Corpus, F: Set von Vornamen, S: set von Nachnamen

F = {”José�”}� i � F doSnew = Snew � {j} , � j | � i, j� � C

S = S � Snew� j� Sdo Fnew =Fnew � {i},� i|� i,j� � C

1. F = {”Jose �”}2. � i � F do Snew = Snew � {j} , � j | � i, j� � C

3. S = S � Snew4. � j� Sdo Fnew =Fnew � {i},� i|� i,j� � C

5. F = F � Fnew6. if (Fnew�=� )� (Snew �=� ) then goto 2. else finish.

Page 27: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}

Page 28: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}

2. S = {„García“, „Martínez“}

Page 29: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}

2. S = {„García“, „Martínez“}

3. F = {„José“, „Manolo“}

Page 30: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}

2. S = {„García“, „Martínez“}

3. F = {„José“, „Manolo“}

4. F = {„José“, „Manolo“, „María“}

Page 31: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C =

{„José García“, „José Martínez”,

„Manolo García“, „María Martínez“,

„María Fernández“, „John Lennon“}

Initialer Vorname

F = {„José“}, S = � .

1. S = {„García“}

2. S = {„García“, „Martínez“}

3. F = {„José“, „Manolo“}

4. F = {„José“, „Manolo“, „María“}

5. S = {„García“, „Martínez“, „Fernandez“}

Page 32: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Beispiel:Corpus C = {„José García“, „José Martínez”, „Manolo García“,

„María Martínez“, „María Fernández“, „John Lennon“}

→ Weder „John“, noch „Lennon“ landen im Ergebnisset.

Page 33: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Gazetteer-Erstellung

Filter

nur Relationen, mit Häufigkeit > 10 → Rare Kombinationen, z. B. Jose Madrid raus

Noise

Personennamen, die gleichzeitig Namen von Organisationen sind:

→ weiblicher Vorname Mercedes → Knoten Benz wird aufgenommen

wg. „Mercedes Benz“ → falscher Knoten Nachname ”Benz” → weitere falsche Knoten

Resultat

‣ 13713 Vornamen

‣ 103008 Nachnamen

Fazit: „Durch große Datenmenge können Gazetteerlisten mit einfachen Mitteln erstellt

werden“

Page 34: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

NER – Detection und Classification

NE Detection – Delimitation

Grenzen (Boundaries) d. h. Start und Ende der Entity bestimmen

‣ „Presidente de los Estados Unidos“

‣ „Universidad Politecnica de Catalunã“.

… soll als eine Entity erkannt werden

‣ Verwendung des BIO-Schemas

Page 35: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

ML-Verfahren

Algorithmen

‣ Instance-based learning (IBL)· semi-supervised, graphenbasiert

· Labels im Trainingsset weggelassen

‣ Decision Trees (Daelemans et al., 2003) supervised

· Labels in den Trainingsdaten sichtbar

‣ Mit Default-Werten verwendet (Daelemans, Antwerpen)

‣ Leicht zu implementieren

‣ Verwendung Gazetteer-Listen

‣ Zusätzlich – Bootstrapping

Page 36: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Bootstrapping

‣ bootstrap: engl. Stiefelriemen (Baron Münchhausen-Legende)

‣ Allgemein: Prozess, bei welchem ein komplexes System durch das Starten eines

einfachen Systems aktiviert wird und Stück für Stück, aufbauend auf den

Fähigkeiten des einfacheren Systems, mehr Fähigkeiten entwickelt.

‣ Domänenspezifi scher Begriff (Computer, Linguistik, Finanzen, Biologie)

Statistik

‣ Methode des Resampling. Wiederholte Berechnung von Statistiken auf

der Grundlage von Stichproben (mit Zurücklegen). Verwendung wenn die

theoretische Verteilung nicht bekannt ist (Efron, 1979, 1981, 1982; Efron &

Tibshirani, 1993).

Page 37: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Bootstrapping

‣ Allgemein· Initiale Seed-Beispiele vorgeben, um ein Startmodell zu erstellen

· Klassifi kation des Corpus mit diesem Seed-Modell

· Hinzufügen der präzisesten Klassifi kationen zum Trainingsset

· Iterieren

‣ Bootstrapping-Ziele (Abney, 2002)· Ausgangslage - Minimalmenge von gelernten Beispielen

· Lernen aus nicht annotierten Beispielen

Page 38: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Bootstrapping

‣ Neues Beispiel wird zum Trainingsset L hinzugefügt, wenn

beide Classifi er C1 und C2 sich bei der Klassifi zierung

des Beispiels einig waren

1. for iteration = 0...n do2. pool 1000 examples from unlabeled data;3. annotate all 1000 examples with classifier C1 and C2;4. for each of the 1000 examples compare classes of C1 and C2;5. add example into L only if classes of C1 and C2 agree;6. train model with L;7. calculate result8. end for

‣ Nach 25 Iterationen � Bootstrapping-Stop

Page 39: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Corpus

‣ http://www.cnts.ua.ac.be/conll2002/ner/data/ <nicht erreichbar>

(CoNLL-2002 competition)

‣ Spanisches Corpus

‣ Nachrichtentexte, manuell annotiert

‣ Trainingsdaten:

· 264715 Wörter

· davon 18798 Entities

‣ Testset

· 51533 Wörter

· 3558 Entities

‣ Für die Evaluation nötig. Die Annotationen wurden für die

Durchführung des Bootstrapping-Ansatzes ignoriert.

Page 40: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Feature Extraction

‣ Merkmalsberechnung und -auswahl

Merkmalsvektoren �i = { f

1,… , f

n }

n = Anzahl aller Features�i Anzahl der Trainingsbeispiele

‣ Merkmale repräsentieren

· Kontextuelle

· Lexikalische

· Gazetteer-

Informationen

Page 41: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Feature Extraction

‣ f1: alle Buchstaben von w08 großgeschrieben;

‣ f2-f8: w–3, w–2, w–1, w0, w+1, w+2, w+3 beginnen mit Großbuchstaben;

‣ f9: Position von w0 im aktuellen Satz;

‣ f10: Häufigkeit von w0;

‣ f11-f17: Wortformen von w0 und Wörter in Fenster [−3, +3];

Page 42: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Features Extraction

‣ f18: Erstes Wort der Entity;

‣ f19: Zweites Wort der Entity, falls vorhanden;

‣ f20: w–1 ist ein Trigger-Wort für Location, Person oder Organization;

‣ f21: w+1 ist ein Trigger-Wort für Location, Person oder Organization;

‣ f22: w0 ist in der Location-Gazetteerliste enthalten;

‣ f23: w0 in der Personen-Vornamen-Gazetteerliste enthalten;

‣ f24: w0 in der Personen-Nachnamen-Gazetteerliste enthalten;

‣ f25: 0 wenn der Großteil der Wörter innerhalb einer Entity als Location

klassifiziert wurde, 1 wenn der Großteil der Wörter innerhalb einer Entity

als Person klassifiziert wurde, ansonsten 2

Features f22, f23, f24 wurden automatisch extrahiert

Page 43: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

Delimitation (BIO-Tagging)

„Beim überwachtem Lernen werden hier nur oberfl ächliche Features verwendet, wie

Kontext und Schreibweise, da das ausreicht“ � f1 ÷ f10

Bootstrapping: 1000 Tags / Iteration, Hinzufügung wenn Classifier übereinstimmen

Grund: “Noise during the learning. Some examples were learned with the wrong class

and others didn’t introduce new information in the training data.“

Experiment B I BIO

Supervised 94.40 85.74 91.88

Bootstrapped 17th iteration

87.47 68.95 81.62

Page 44: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

NE Classification

Kategorien zuweisen

(Person, Organisation, Location oder Sonstiges)

Experiment PER LOC ORG MISC

NoGazetteerSup. 80.98 71.66 73.72 49.94

GazetteerSup. 84.32 75.06 77.83 53.98 + Gazetteer Features

Bootstrapped 62.59 51.19 50.18 33.04 gleiche Features

F-score der NER-Experimente

Page 45: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

NER-Spanisch (2006)

NER

‣ Sonstiges am schlechtesten klassifiziert, weil heterogen

‣ Andere Kategorien > 70 %

‣ Gazetteer Information → Verbesserung für Person und Location

‣ Organisation profitierten von

· Kontextinformation, den Trigger-Wörter für Organisation (???)

· Attributvalidierung, dass wenn eine Entity keine Person und keine

Location ist → Organisation (???)

‣ Bootstrapping schlechter, da

· nur 81% NE-Grenzen korrekt gefunden wurde

· Trainingsbeispiele, die nicht korrekt klassifiziert wurden, zum

Trainingsset hinzugefügt wurden

Page 46: Named Entity Recognition NER-Tagging › fileadmin › spinfo › ... · Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011 Named Entity Recognition

Sprachliche Informationsverarbeitung - Universität zu Köln - Wintersemester 2010/2011

Literatur

Verwendete Quellen

ML-Verfahren

Manning & Schütze (1999)

Witten & Frank (2006)

IE / NER

Jurafsky (2008) Quelle für Beispiele und Abbildungen zur NER und

Sequence Labeling