ma n c hma l ist we n ig e r me hr • r e dukt … · 532 0.571 0pmw 464 2011 296 0.784 pmw 267...
TRANSCRIPT
Visuelle Linguistik, Herrenhäuser Symposium, Hannover, 19.11.2014
Rainer Perkuhn, Cyril Belica, Marc Kupietz, Harald Lüngen (IDS Mannheim)
"Visualisierung als aufmerksamleitendes Instrument bei der Analyse von sehr großen Korpora"
MANCHMAL IST WENIGER MEHR• REDUKTION VON KOMPLEXITÄT• ABER AUCH: NICHT ZU VIEL SCHNICKSCHNACK
VISUALISIERUNG VON WAS VON WEM FÜR WEN WOFÜR
! didaktisch vs. epistemisch motiviert
! Erkenntnisse / Meinungen von Linguisten für andere Linguisten oder interessierte Laien zwecks Wissenstransfer
! Ergebnisse strukturentdeckender Verfahren für Korpusentwickler vs. für Korpusnutzer zwecks Wissensgewinnung
DISCLAIMER
! keine Experten für Visualisierung, keine Weiterentwicklungen
! nicht Experte für alle gezeigten Szenarien
! Versuch, Verbindungen zwischen Fragestellungen und Lösungen über Visualisierung aufzuzeigen
KORPUSEIGENSCHAFTEN
GEOGRAPHISCHE VERTEILUNG DERDEREKO-ZEITUNGSQUELLEN
Millionen Wörter
250
500
750
1000
DEREKO-Bestand 2013
Neuakquisitionen
NMDS-ABBILDUNG DER ÄHNLICHKEITSMATRIX
DEREKO-Bestand 2013
Neuakquisitionen
EIGENSCHAFTEN VON SUCHERGEBNISSEN / TREFFERMENGEN
SUCHE „KOLLATERALSCHADEN“ERGEBNISÜBERBLICK – VISUALISIERUNG
16 Jahrgänge 29360.597 pMW3330
20131240.897 pMW142
20122210.741 pMW244
20114640.571 pMW532
20102670.784 pMW296
20092820.980 pMW343
20082340.697 pMW249
20072220.756 pMW245
20062200.842 pMW229
20051310.670 pMW143
2004940.595 pMW100
20031781.132 pMW197
2002940.673 pMW101
20011510.894 pMW167
2000620.377 pMW90
19991910.809 pMW251
199810.004 pMW1
JahrTexterel. Häuf.Treffer
Kollateralschaden
0
0,2
0,4
0,6
0,8
1
1,2
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Jahr
pMW
ZEITVERLÄUFE VON NEULEXEM-KANDIDATENIST „SICKTER“ EIN NEULEXEM?
0
0,5
1
1,5
2
2,5
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Sickter
BraunschweigerZeitungdie tageszeitung
Wikipedia.de 2011ArtikelWikipedia.de 2011Diskussionen
ZEITVERLAUFSGRAFIK„KONFLIKT“ - SIMPLIZIUM UND KOMPOSITA
1772
1895
1905
1919
1929
1936
1945
1953
1961
1968
1976
1984
1991
1998
2005
2012
0100200300400500600700800
9001000
pMW
Jahr
Zeitverlauf Konflikt
nur Kopfalle
VERÄNDERUNGEN IN DEN THEMENAUFFÄLLIGKEITEN BEI ERSTGLIEDERN DER KOMPOSITA
19921994
1996
19982000
2002
20042006
20082010
2012
0
2
4
6
8
10
12
14
16
pMW
Jahr
Zeitverlauf Konfliktformen
Gas-Atom-Nationalitäten-Nahost-Tarif-andere
EIGENSCHAFTEN VON KOOKKURRENZEN / KOOKKURRENZPROFILEN
VISUALISIERUNG VON KOOKKURRENZPROFILEN
HundHundHundHund
KOOKKURRENZPROFILEEXPLORATION / VERGLEICH
grinsengrinsengrinsengrinsen
lllläääächelnchelnchelncheln
GEMEINSAME KOOKKURRENZEN VON WEICHSEL-ÄHNLICHEN PROFILEN
östlich (7) Weser (7) Rhein (9)Hochwasser (7) Donau (8) südlich (7)
Spree (3) Nordsee (2) Nebenfluss (7) Ufer (10)Wasserstand (6) nördlich (9) Moldau (2)
Pegel (8) fließt (10) mündet (9)Wasser (10) Flüsse (8)
Mündung (8) Oberlauf (7) Pegelstand (4)
Nebenflüsse (4) Unterlauf (7) Stadt (10) Deiche (4)
Meter (4) Flüssen (7) Deich (1) gelegenen (7) Pegelstände (6) Ostsee (3) Neiße (2) Flutwelle (2) Gebiete (3)
Brücke (10)Kilometer (7) unteren (5)
Pfirsiche (9) Kirschen (9)Zwetschken (7) Pfirsich (9) Birnen (9)
Äpfel (10) Nektarinen (9) Erdbeeren (10)
Himbeeren (9) Pflaumen (9) Kilo (9) Karfiol (1) Ribisel (5) entkernen (4)
Kirsche (9) 40 (5) Äpfeln (10)35 (4) Birne (9) Zwetschke (7)
Süßkirschen (7) Sauerkirschen (9)Apfel (10) Topfen (1) 50 (5) 100 (5) 70 (1)
45 (3) waschen (8) Sorten (8) 38 (2) 60 (2) waren (2)
wurden (1) 48 (3) 12 (3) allem (3) sind (10)
Elbe, Neiße, Donau, Fluss, Fluß, Wolga, Neckar, Spree, Rhein, Euphrat
Marille, Himbeere, Birne, Zwetschge, Kirsche, Johannisbeere, Pfirsich, Pflaume, Aprikose, Brombeere
Wei
chse
l W
eich
sel
Wei
chse
l W
eich
sel "" ""
ää ää hnl
iche
Pro
file
hnlic
he P
rofil
e hn
liche
Pro
file
hnlic
he P
rofil
e ## ##
SOMZU WEICHSEL
© Cyril Belica: Modelling Semantic Proximity - Self-Organizing Map (version: 0.32, init tau: 0.04, dist: u, iter: 10000)
Weichsel
AprikoseApfelErdbeereWeintraubeRhabarberdagMeloneFeige
OderSchneeschmelzeHochwasseralarmHochwassermarkelängsHochwasserlageJahrhunderthochwasser
UnterlaufPegelstandWasserstandPegelOberrheinSchifffahrtSchiffahrtFließgeschwindigkeit
ElbeRheinNeckarMoselSaaleNebenflußNebenflussTheiss
BirneHimbeereMarillePflaumePfirsichKirscheZwetschgeJohannisbeere
SteigeObstgarten
HochwasserHochwassergebietDeichflutenSturmflutFlutwelleFlutRegenfall
OberlaufJangtseStauseeFahrrinneertrinkenSchiffsverkehrStaudammFlussbett
DonauschiffbarIsarWeserMississippiRhonemündenSalzach
zerstört Überschwemmungsgebietschwemmenüberschwemmtüberschwemmenüberflutenüberflutetschwappenspülen
FlussFlußflussabwärtsflußabwärtsMuldeUferBacheentlang
SpreeMekongMündungThemseZusammenflußZusammenflussdurchfließenFlüsschen
DanzigWarschauKrakauStettinWarschauerpolnischSchlesienPommern
RiesengebirgeStettinerTatraOstgrenze
NeißeMoldauLauenburgOderbruchLandesinnereLandstrich
GrenzflußGrenzflussbeiderseitsOstseesumpfigFlußuferFlussufer
WolgaTigrisEuphratDnjeprWasserscheideMeerLoireFlußmündung
PolenGalizienPoleOstpreußenPolOstpreußedeportierenKiew
BukowinaWestgrenzeSibirienUkraineKaliningradKrimBessarabienKaukasus
DnjestrKarpatenUralOstseeküsteHaffTorgauumsiedelnBaikalsee
ostwärtsöstlichnahennahegelegenunweitnördlichsüdlich
LandzungeBuchtWestuferTiefebeneAtlantikNaheOstuferHügellandschaft
CNS WEICHSEL VS. RHEIN
© Cyril Belica: Modelling Semantic Proximity - Contrasting Near-Synonyms (version: 0.21, init tau: 0.4, dist: x, iter: 10000)Weichsel RheinBirneHimbeereMarillePflaumePfirsichAprikoseKirscheZwetschge
Obstgarten ostwärtsöstlichnahennahegelegenBuchtLandesinnereUral
KarpatenTatraHaffWestgrenzeOstgrenzeSibirienRiesengebirgeOstseeküste
DanzigPolenGalizienWarschauPoleKrakauStettinWarschauer
Steige überschwemmtHochwassergebietüberschwemmenFlutwelleüberflutenüberflutetRegenfallschwappen
LauenburgWestuferLandstrichOstuferHügellandschaftOderbruchHügeldurchquert
NeißeDnjestrMoldauWolgaDnjeprTigrisLoireGrenzfluss
Stettiner
SaaleAmazonasWupperWerraAareMaasentspringenGeografie
JangtseHochwasserMekongTheissMississippiRhoneDeichGanges
MuldedurchfließenentlangFlüsschenFlusslaufFlußlaufWasserscheideentwässern
ElbeDonauFlußFlussSpreeschiffbarflußabwärtsflussabwärts
ThemseMeerSandbankMaggioreBodenseeAtlantikOstseeFlussmündung
MoselLahnOberrheinMainNaheSaarRuhrVogelsberg
OberlaufNeckarUnterlaufPegelstandMündungWasserstandNebenflußNebenfluss
HolzbrückeRenaturierungKanalrenaturierenDorfbachAltarmkanalisiertFlußbett
FahrrinneSchleuseertrinkenSchiffsverkehrSchifffahrtWasserstraßeschippernBinnenschiff
HafenbeckenMittelmeerEisschollePontonLandwehrkanalflussaufwärtsMeerengeflußaufwärts
KoblenzMittelrheinBingenRüdesheimRheinhessenBingeLoreleyNiederrhein
RheinbrückerechtsrheinischRheinseiteRheinuferrheinabwärtsLindwurmLimesTagesausflug
WasserqualitätKühlwasserRinnsalUferbereichFischartreißendKloakeWassermenge
GewässerGestadeBaggerseegesprungenschwimmenpaddelnSüduferTeich
ZürichseeUnterseeWasserschutzpolizeiSeeÄrmelkanalAnlegestelleMotorbootVierwaldstättersee
MEHRDIMENSIONALITÄT• ZEIT x THEMA• ZEIT x KOOKKURRENZ
„Heuschrecke“
NEUE TYPISCHE VERWENDUNGEN ADJEKTIVISCHER GEBRAUCH VON „GEFÜHLT“
123456789
10111213141516171819202122
K1 K2 K3 K4 K5 K6 K7
Inflation
Kälte
Rezession
Ungerechtigkeit
Verunsicherung
Bedrohung
Unsicherheit
N.N.>20
EMERGENTE THEMEN / DISKURSE?
96/97 98/99 00/01 02/03 04/05 06/07 08/09 10/11 12/13
1
2
4
8
16
32
64
128
256
512
n.v.
Konfliktausgewählte Partnerwörter
(unauffällig)AtomprogrammGeorgienDarfurKosovoSyrien
Jahr
Kook
kurre
nz-R
ang
Literatur
! Kilgarriff, A. (2001). Comparing corpora. International Journal of Corpus Linguistics, 6(1): 97–133
! Kupietz, Marc/Lüngen, Harald (2014): Recent Developments in DeReKo. In: Calzolari, Nicoletta et al. (eds.): Proceedings of the Ninth International Conference on LanguageResources and Evaluation (LREC'14). Reykjavik: ELRA.
! Belica, Cyril (1996): Analysis of Temporal Changes in Corpora. In: International Journal of Corpus Linguistics Vol. 1(1). Amsterdam/Philadelphia. S. 61-73.
! Lüngen, Harald/Keibel, Holger (2013): Zur Erstellung und Interpretation der Zeitverlaufsgrafiken. In: Steffens, Doris/al-Wadi, Doris: Neuer Wortschatz. Neologismen im Deutschen 2001-2010. Band 2: kiten – Z. S. 561-567 - Mannheim: Institut für Deutsche Sprache, 2013.
! Schächtele, Anna: Sprachlicher Wandel als Kollateralschaden der Unwortwahl?Eine diachrone Begriffsanalyse. In: Sprachreport 2/2014, 16-21.
! Perkuhn, Rainer/Belica, Cyril (i.V.): Konflikt, Sprache, korpuslinguistische Methodik. In: Luth, Janine/Ptashnyk, Stefaniya/Vogel, Friedemann (Hg.): Linguistische Zugänge zu Konflikten in europäischen Sprachräumen. Korpus - Pragmatik - kontrovers. Winter, Heidelberg.
Literatur
! Belica, Cyril (1995). Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. http://corpora.ids-mannheim.de/.
! Lamping, John/Rao, Ramana/Pirolli, Peter (1995): A Focus+Context Technique Basedon Hyperbolic Geometry for Visualizing Large Hierarchies. Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, Denver, May 1995, 401-408.
! Perkuhn, Rainer (2007): "Corpus-driven": Systematische Auswertung automatisch ermittelter sprachlicher Muster. In: Kämper, Heidrun/Eichinger, Ludwig M. (Hrsg.): Sprach-Perspektiven. Germanistische Linguistik und das Institut für Deutsche Sprache. S. 465-491 - Tübingen: Narr, 2007. (Studien zur Deutschen Sprache 40)
! Perkuhn, Rainer (2007): Systematic Exploration of Collocation Profiles. In: Proceedingsof the 4th Corpus Linguistics Conference (CL 2007), Birmingham.
! Perkuhn, Rainer/Keibel, Holger (2009): A brief tutorial on using collocations foruncovering and contrasting meaning potentials of lexical items. In: Minegishi, Makoto/Kawaguchi, Yuji (Eds.): Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 77-91). Tokyo: Tokyo University of Foreign Studies(TUFS).
Literatur
! Kohonen, Teuvo (1990): The Self-Organizing Map. In: New Concepts in Computer Science: Proc. Symp. in Honour of Jean-Claude Simon, p. 181-190. Paris, 1990. AFCET.
! Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookkurrenzprofilen. In: Andrea Abel, Renata Zanin, Hrsg., Korpora in Lehre und Forschung, S. 155-178. Bozen-Bolzano University Press. Freie Universität Bozen-Bolzano.
! Vachková, Marie/Belica, Cyril (2009): Self-Organizing Lexical Feature Maps. SemioticInterpretation and Possible Application in Lexicography. In: IJGLSA 13, 2 [Interdisciplinary Journal for Germanic Linguistics and Semiotic Analysis, Rauch, Irmengard and Seymour, Richard K., (eds.). - Berkeley: IJGLSA/University of CaliforniaPress], pp. 223-260.
! Perkuhn, Rainer (2012): Diachrone Kookkurrenzanalyse. Technical Report IDS-KL-2012-02. Institut für Deutsche Sprache, Mannheim. Dezember 2012.
VIELEN DANK!www.ids-mannheim.de/kl.html [email protected]