inspire: insight to scientific publications and references
DESCRIPTION
Ähnlichkeitsbestimmung wissenschaftlicher Publikationen CRITIC: Near Copy Detection in large text corpora INSPIRE: Insight to Scientific Publications and ReferencesTRANSCRIPT
![Page 1: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/1.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Ähnlichkeitsbestimmungwissenschaftlicher Publikationen
Nicolas Schelp
CRITIC: Near Copy Detectionin large text corpora
Tobias Varlemann
INSPIRE: Insight to Scientific Publicationsand References
Adrian Wilke
27. Juni 2013
Schelp - Varlemann - Wilke 1
![Page 2: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/2.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Motivation - Projektgruppe
Schelp - Varlemann - Wilke 2
![Page 3: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/3.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Motivation - Projektgruppe
I Datenhaltung in einer MySQL Datenbank→ nicht verteilt→ begrenzte Speicherkapazität→ Zugriffszeiten
I Datenaufbereitung zentralisiert auf einem Server→ nicht skalierend→ lange Laufzeiten
I Ähnlichkeiten zwischen Publikationen nur ausClusteranalyse abgeleitet
I Ergebnisse der Ähnlichkeitsbestimmung nichtinterpretierbar→ Welche Dokumente sind zu ähnlich?→ Welche passen inhaltlich nicht zum Korpus?→ Wann handelt es sich um Plagiate?
Schelp - Varlemann - Wilke 3
![Page 4: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/4.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Motivation - Projektgruppe
I Clusteranalyse wurde vorberechnet→ Bei neuen Dokumenten nicht erweiterbar
I Keine verteilte Berechnung des Dokumenten-Netzwerks(Publikationen und Referenzen)→ lange Laufzeiten
I Relativ schlechte Datenqualität bei der Extraktion derBibliometriken
I Vorschläge nur rudimentär aus der Clusteranalyse→ Keine Empfehlungen anhand der Bibliometriken
Schelp - Varlemann - Wilke 4
![Page 5: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/5.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Motivation - HCPA Computercluster
17 Slaves96 Prozessorkerne
248GB Arbeitsspeicher102TB Festplattenkapazität
+ Master (64GB RAM)+ NAS (5,4TB)
Schelp - Varlemann - Wilke 5
![Page 6: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/6.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Grundlagen
Schelp - Varlemann - Wilke 6
![Page 7: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/7.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Big Data
I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.
I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.
I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke 7
![Page 8: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/8.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Big Data
I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.
I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.
I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke 7
![Page 9: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/9.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Big Data
I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.
I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.
I Neue Wege für die Verarbeitung dieser Daten.
I Spezielle Frameworks für die Skalierung auf viele hundertRechenkerne.
Schelp - Varlemann - Wilke 7
![Page 10: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/10.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Big Data
I Bezeichnet die Verarbeitung von Datensets die zu großsind um sie mit herkömmlichen Programmen zuverarbeiten.
I Bezieht sich nicht nur auf die Eingabedaten sondern auchauf Zwischenergebnisse.
I Neue Wege für die Verarbeitung dieser Daten.I Spezielle Frameworks für die Skalierung auf viele hundert
Rechenkerne.
Schelp - Varlemann - Wilke 7
![Page 11: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/11.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke 8
![Page 12: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/12.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke 8
![Page 13: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/13.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke 8
![Page 14: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/14.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Batch- / Streamverarbeitung
Schelp - Varlemann - Wilke 8
![Page 15: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/15.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Hadoop / MapReduce
Reducer PhaseShuffle and SortMapper PhaseInputsplit
Tasktrackernode 2
Tasktrackernode 1
BlockA
Map
BlockB
Map
BlockC
Map
BlockD
Map
ReduceBlock
A
ReduceBlock
A
K V
K V
K V
K V
Inputfile
Outputfile
Schelp - Varlemann - Wilke 9
![Page 16: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/16.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Storm
Schelp - Varlemann - Wilke 10
![Page 17: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/17.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Feste Kommunikationskanäle in Storm
I Feste Zuordnung von Knoten zu Channels
I Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten
Schelp - Varlemann - Wilke 11
![Page 18: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/18.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Feste Kommunikationskanäle in Storm
I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe Pattern
I Lose Kopplung einzelner Komponenten
Schelp - Varlemann - Wilke 11
![Page 19: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/19.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Feste Kommunikationskanäle in Storm
I Feste Zuordnung von Knoten zu ChannelsI Publish–Subscribe PatternI Lose Kopplung einzelner Komponenten
Schelp - Varlemann - Wilke 11
![Page 20: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/20.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
HBase
I verteilte DatenhaltungI nicht-rationalI Terabytes – Petabytes
I Zeilen: RowkeysI Zeilen in Regionen
zusammengefasst
Schelp - Varlemann - Wilke 12
![Page 21: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/21.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
HBase: Datenlokatität vs. Verteilung
Schelp - Varlemann - Wilke 13
![Page 22: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/22.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Extraktion Metadaten
Schelp - Varlemann - Wilke 14
![Page 23: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/23.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC: Near Copy Detection in large textcorpora
Schelp - Varlemann - Wilke 15
![Page 24: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/24.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Motivation
http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki
Schelp - Varlemann - Wilke 16
![Page 25: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/25.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Motivation
http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de
Schelp - Varlemann - Wilke 17
![Page 26: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/26.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Schelp - Varlemann - Wilke 18
![Page 27: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/27.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Schelp - Varlemann - Wilke 18
![Page 28: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/28.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Schelp - Varlemann - Wilke 18
![Page 29: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/29.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Schelp - Varlemann - Wilke 18
![Page 30: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/30.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Schelp - Varlemann - Wilke 18
![Page 31: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/31.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was ist ein Plagiat?
Ein Plagiat umfasst unter anderem die Unterlassungvon geeigneten Quellenhinweisen bei der Verwendungder Formulierungen oder besonderen Wortwahl einesanderen, der Zusammenfassung der Argumente vonanderen oder die Darstellung vom Gedankengangeines anderen.
Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003)
Schelp - Varlemann - Wilke 19
![Page 32: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/32.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)
Formen von Textübernahmen
I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten
Schelp - Varlemann - Wilke 20
![Page 33: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/33.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Aufgabenstellung
Unterschied Plagiatesfindung und NCD
I Unterschiedliche ZitationsstileI Schwerig zu unterscheidenI Anderes ThemengebietI -> Near copy detection (NCD)
Formen von Textübernahmen
I Direkte KopieI Entfernen/Hinzufügen/Verändern von WortenI Entfernen/Hinzufügen/Verändern von SätzenI Übersetzen von Texten
Schelp - Varlemann - Wilke 20
![Page 34: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/34.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Aufgabenstellung
Intrinsische Algorithmen
I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset
Schelp - Varlemann - Wilke 21
![Page 35: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/35.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Aufgabenstellung
Intrinsische Algorithmen
I StylometrikenI Zeichen-/WortfrequenzenI POS FrequenzenI Identifikation der Autoren anhand unterschiedlicher
Schreibstile
Extrinsische Algorithmen
I Verwendung eines externen KorpusI Suche nach Verweisen im KorpusI Fuzzyset
Schelp - Varlemann - Wilke 21
![Page 36: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/36.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke 22
![Page 37: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/37.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke 22
![Page 38: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/38.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke 22
![Page 39: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/39.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Ein großer Korpus wird benötigt.
Schelp - Varlemann - Wilke 22
![Page 40: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/40.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
Schelp - Varlemann - Wilke 23
![Page 41: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/41.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Schelp - Varlemann - Wilke 23
![Page 42: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/42.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke 23
![Page 43: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/43.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Was hat NCD mit Big Data zu tun?- Synonym Disambiguierung
W1 W2 W3 W4 W5
Ziel Wort
B21
B32
B31
B52
B51
B43
B42
B41
B13
B12
B11
Bedeutungsscore
Schelp - Varlemann - Wilke 23
![Page 44: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/44.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC UmsetzungFuzzyset NCD
ToolsMapred
Tools-Driver HBaseUser
5.4: writeNCDData
5.3: CalculateNCD5.2: Data
5.1: getData
5: updateNCD
4: writeMISCData
3.1: Texts
3: getTexts2.6: MISC
2.5.3: writeWordnet
2.5.2: TextsPOS Lemata
2.5.1: getTextsgetPOS getLemata
2.5: Wordnet
2.4.3: writeLemata
2.4.2: Texts
2.4.1: getTexts
2.4: Lemmatize
2.3.3: writePOS
2.3.2: Texts
2.3.1: getTexts2.3: POS
2.2.3: writeTexts
2.2.2: PDFs
2.2.1: getPDFs
2.2: PDF2TXT
2.1:
2: Preprocess PDFs
1: Upload PDFs
Schelp - Varlemann - Wilke 24
![Page 45: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/45.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Umsetzung
CalculateFuzzyset NCDSimilarity
Write Results
ChooseCandidate
Schelp - Varlemann - Wilke 25
![Page 46: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/46.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
CRITIC Umsetzung
Job1_1
Job1_2
Job1_3Job1_4
Job2_1
Job3_1
Job3_2
Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1
<<datastore>>
Sentence Table
<<datastore>>NewSentenceSequencefile
<<datastore>>NewDocuments
Sequencefile
<<datastore>>sourceSentences
BDB
<<datastore>>
WordLookup Table
<<datastore>>Job1_3
SequenceFile
<<datastore>>targetSentences
BDB
<<datastore>>
Document Table
<<datastore>>SentenceSimSequencefile
<<datastore>>DocSentSimSequencefile
<<datastore>>
Block Sequencefile
sentence
<<datastore>>
DocSim Table
<<datastore>>
SimDoc Table
<<datastore>>
DocDocBlock Table
Job 4_2_2
<<datastore>>DocDocSim
Sequencefile
Calculate
Prepare
Write
Lookup
get
write
Schelp - Varlemann - Wilke 26
![Page 47: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/47.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
INSPIRE: Insight to Scientific Publicationsand ReferencesVerteilte Berechnung von Bibliometriken auf großen Datenmengen
Schelp - Varlemann - Wilke 27
![Page 48: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/48.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
5-Phasen-Modell
XML
JSON
TupelPDF
PDF, txt
XML
JSON
Tupel
PDF, txt
Schreibender Zugriff
Lesender Zugriff
MySQL
Konvertierung
Extraktion Integration
Deduplikation
PräsentationDateisystem
HBase
1
2 3
4
5
Schelp - Varlemann - Wilke 28
![Page 49: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/49.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 1: Konvertierung
Eingabe > 650.000 PDF-DateienZiel Datenaufbereitung: Eingabeformat für Extraktion
Ausgabe Volltexte
Schelp - Varlemann - Wilke 29
![Page 50: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/50.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 2: Extraktion
Eingabe Datensätze als Volltexte und PDFZiel Extraktion von Metadaten
Berechnung Software: ParsCit, GROBIDAusgabe Metadaten in 3 XML-Formaten
Auszug: GROBID Header<title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning</title> [...]<author><persName><forename type="first">Johannes</forename><surname>Magenheim</surname>
</persName><affiliation><orgName type="institution">University of Paderborn</orgName><address><country key="DE">Germany</country></address>
</affiliation></author>
Schelp - Varlemann - Wilke 30
![Page 51: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/51.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 2→3: XML Felder zur Identifikation
Tabelle: ParCit 11 Mio. Ref.
Schlüssel Anzahl %
rawString 11.023.889 1,00marker 11.023.889 1,00context 10.695.648 0,97author 10.523.513 0,95date 10.378.402 0,94title 9.361.532 0,85pages 7.765.207 0,70journal 6.838.383 0,62volume 6.776.944 0,61location 2.319.741 0,21booktitle 1.519.236 0,14publisher 1.354.680 0,12issue 888.605 0,08institution 359.638 0,03note 318.288 0,03editor 311.625 0,03tech 146.817 0,01
Tabelle: GROBID 2 Mio. Ref.
Schlüssel Anzahl %
title 2.110.480 1,00surname 1.897.603 0,90date 1.894.521 0,90forename 1.703.017 0,81biblScope 1.683.384 0,80publisher 209.928 0,10pubPlace 143.760 0,07address 90.667 0,04editor 63.894 0,03note 45.233 0,02
Schelp - Varlemann - Wilke 31
![Page 52: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/52.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 3: Integration
Eingabe Metadaten in 3 unterschiedlichen XML-FormatenZiel Zusammenführung für jede Publikation
Ausgabe Metadaten im JSON-Format
Levenshtein-Distanz:Minimale Anzahl der OperationenEinfügen, Löschen und Ersetzenvon Zeichen
Schelp - Varlemann - Wilke 32
![Page 53: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/53.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 3: Integration und Normalisierung
1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung
2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue)
3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue)und (u¨, ue)
4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“
5. Entferne alle diakritischen Zeichen
6. Ersetze das Zeichen (ß, ss)
7. Entferne alle Zeichen außer Buchstanben, Zahlen und demLeerzeichen
8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette
Schelp - Varlemann - Wilke 33
![Page 54: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/54.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 3: Integration von Referenzen
Schelp - Varlemann - Wilke 34
![Page 55: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/55.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 4: Deduplikation
Eingabe Metadaten im JSON-FormatZiel Aufbau des Dokumenten-Netzwerks
Ausgabe Graph der Publikationen und Referenzierungen
Schelp - Varlemann - Wilke 35
![Page 56: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/56.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Phase 5: Präsentation
Eingabe Dokumenten-NetzwerkZiel Berechnung vom Literaturempfehlungen
Ausgabe Listen mit verlinkten Ergebnissen
Schelp - Varlemann - Wilke 36
![Page 57: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/57.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Bibliometrie
BibliografischeKopplung(Kessler 1963)
I Fester Wert
I Im Beispiel:BK (A,B) = 3
KozitationSmall (1973) undMarshakova (1973)
I Wert wächst
I Im Beispiel:K (A,B) = 3
Z
Y
X
A B
Z
Y
X
A B
Schelp - Varlemann - Wilke 37
![Page 58: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/58.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Bibliometrie: Distanz von ZitationenIn-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009)
Citation Proximity Analysis (CPA) Gipp & Beel (2009)
Distanz-Klasse Gewichtung
Gleiches Dokument 1Gleicher Abschnitt 2Gleicher Absatz 3Gleicher Satz 4Gleiche Markierung [1,2] 5
Schelp - Varlemann - Wilke 38
![Page 59: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/59.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Bibliometrie: Beipiel zur Distanz von Zitationen
Schelp - Varlemann - Wilke 39
![Page 60: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/60.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Ähnlichkeitsbestimmung
[...]
Schelp - Varlemann - Wilke 40
![Page 61: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/61.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Ergebnisse
[...]
Schelp - Varlemann - Wilke 41
![Page 62: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/62.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Datenhaltung Dokumentengraph
Kandidaten
I Neo4j, eine Not only SQL (NoSQL) GraphdatenbankI Titan, eine verteilte Graphdatenbank
mit Verwendung von HBase als BackendI MySQL, als Vertreter relationaler Datenbanken
Auswahl
Methode BenchmarkFokus Live-Berechnung Literaturempfehlungen
Schelp - Varlemann - Wilke 42
![Page 63: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/63.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Benchmark 1: Aufbau Netzwerk & Bibliometriken
1
10
100
1000
10000
100000
0 2 4 6 8 10 12 14 16 18 20
Durc
hsc
hnit
tlic
he Z
eit
für
Bere
chnung
(m
s)
Anzahl der Knoten im Netzwerk (Mio.)
Bibliografische Kopplung MySQLKozitation MySQL
Bibliografische Kopplung Neo4jKozitation Neo4j
Bibliografische Kopplung TitanKozitation Titan
Schelp - Varlemann - Wilke 43
![Page 64: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/64.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Benchmark 2: Parallele AnfragenAuswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20
0
1000
2000
3000
4000
5000
MySQL Neo4j Titan
Zeit
für
Bere
chnung (
ms)
Bibliografische KopplungKozitation
0
1000
2000
3000
4000
5000
6000
7000
8000
MySQL Neo4j Titan
Zeit
für
Bere
chnung (
ms)
Bibliografische KopplungKozitation
0
500
1000
1500
2000
2500
3000
MySQL Neo4j Titan
Zeit
für
Bere
chnung (
ms)
Bibliografische KopplungKozitation
0
500
1000
1500
2000
2500
3000
3500
MySQL Neo4j Titan
Zeit
für
Bere
chnung (
ms)
Bibliografische KopplungKozitation
Schelp - Varlemann - Wilke 44
![Page 65: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/65.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Ergebnisse: Demonstration des Frontends
Schelp - Varlemann - Wilke 45
![Page 66: INSPIRE: Insight to Scientific Publications and References](https://reader034.vdocument.in/reader034/viewer/2022042713/548472aeb47959140d8b4c27/html5/thumbnails/66.jpg)
Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Ergebnisse
Vielen Dank für Ihre Aufmerksamkeit.
Fragen?
Schelp - Varlemann - Wilke 46