artificial intelligence in uw dagelijkse...
TRANSCRIPT
Artificial Intelligence in uw dagelijkse praktijkHilversum, 22 September 2016
Agenda
09:30 Welkom en introductie
09:35 “Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied”
Jaap van den Herik
10:20 “Artificial Intelligence in uw dagelijkse praktijk”
Jan Scholtes
10:45 Koffie pauze
11:00 “Praktische toepassingen van AI in dataverwerking, due diligence en contractanalyse”
Luc van Daele en Harm Bavinck
12:00 Lunch en demo’s
2
Artificial Intelligence in uw dagelijkse praktijkProf. dr. ir. Jan Scholtes – CSO ZyLAB
Artificial Intelligence (AI)
• Machine Learning, Natural Language Processing (NLP) en aanverwante technieken als data- of text-mining, big data-analyse, predictive coding, Technology Assisted Review (TAR), concept search, topic modeling, clustering, audio search, en machine translation vallen allemaal onder de overkoepelende term Artificial Intelligence.
• ZyLAB zet al deze technieken in om specifieke document categorieën te ontdekken en in die documenten relevante informatie te vinden.
4
Automatisch vertalen - ontdekken van interessante communicatie in andere talen
Direct zoeken in audio voor legal review
Opnames hoeven niet te worden uitgeschreven.
In enkele seconden zoeken in urenlange opnames.
Direct ontdekken van relevante opnames en deze labelen als “responsive”.
Alleen uitschrijven wat overhandigd moet worden (<<1%).
Text-mining en content analyse
• Text-mining richt zich op het ontwikkelen
van diverse geavanceerde wiskundige,
statistische en taalkundige
patroonherkenning in grote hoeveelheden
elektronische informatie.
• Met die patronen en kenmerken kan men
beter en sneller zoeken en inzichten
krijgen die anders verborgen blijven. In
plaats van te zoeken op woorden, wordt er
gezocht op taalkundige patronen van
woorden (zoeken op een hoger niveau).
• Met Text-mining kan men vinden wat men
niet weet of dingen vinden die niet
gevonden willen worden.
7
Altijd overzicht en controle over uw data
Technology Assisted Review (TAR)
ZyLAB gebruikt een aantal methoden voor de classificatie van documenten en entiteit extractie.
• Gebaseerd op gewoon zoeken;
• Reguliere expressies;
• Gazetteers (dictionaries);
• Geavanceerde methoden om patronen met entiteiten en werkwoorden te ontdekken met “natural languageprocessing” (NLP);
• Machine learning (AI)
Deze technieken kunnen apart of in combinatie worden ingezet.
9
Doel van TAR
• Automatische classificatie van documenten in sets met “responsive” en “niet-responsive”.
• Maximalisatie van “recall”: het snel vinden van 80% van alle “responsive” documenten.
• Enorme besparing op de kosten van legal review.
• Het semi-automatisch vinden van relevante documenten zonder afhankelijk te zijn van de zoektalenten van de eindgebruikers.
• Vinden zonder dat je exact weet waar je naar op zoek was.
• Automatische classificatie van documenten in conceptuele categorieën.
10
ZyLAB bezit diverse TAR-patenten
11
ZyLAB TAR: combinatie van verschillende aanpakken
12
0%
100%
Rec
all
Machine Learning for Automatic Document Classification
OCR on Bitmaps, Visual Classification, Text-Mining, Audio
Search & Machine Translation
Search n Extracted Meta Data (document properties, file
properties, forensics)
Fuzzy, Wildcard, Quorum, Proximity, Relevance Ranking
Traditional
Boolean Search
ZyLAB Rules-based TAR
ZyLAB Machine Learning TAR Full-text zoeken en textmining technieken:
• Transparant.
• Iedere contractadvocaat weet hoe full-text zoeken werkt.
• Als een document niet goed geclassificeerd wordt, kan de advocaat een query makkelijk veranderen om het probleem op te lossen.
• De moeite die het kost om queries te schrijven, kan worden gecompenseerd door “libraries” van full-textqueries aan te leggen, die kunnen worden hergebruikt en gedeeld.
• Queries kunnen worden vertaald in andere talen.
• Voor de regels voor schrijven van queries, is kennis van de ZyLAB zoekfunctionaliteit en de NLP-regels voor query-taal noodzakelijk.
Machine Learning:
• De gebruiker heeft geen regels nodig als er genoeg representatieve voorbeelden zijn voor iedere classificatie categorie.
• Kan worden ingezet om onduidelijkheid tussen categorieën te elimineren gebaseerd op linguïstische en realistische statistieken maar is meer een “black box” die wel of niet werkt. Herstel is moeilijk als de “black box” niet werkt.
• Is niet 100% transparant. Zo is niet direct duidelijk waarom een document is geclassificeerd naar een specifieke categorie.
• Omdat machine learning is getraind op een specifieke set documenten, werkt deze niet altijd op documenten die te veel afwijken van de documenten in de training set.
• Omdat iedere techniek duidelijk voor- en nadelen heeft, is het aan te raden de keuze te houden om verschillende methoden te combineren om zo hoog mogelijke recall en precisie te bereiken.
Machine Learning in de praktijk: een protocol
Find Relevant Documents using standard Search
Techniques
Review Retrieved Document for
Correctness: best matching first
Every X new correct documents, build
classifier with manually reviewed
documents to recognize similar
documents
Find potential relevant documents
by matching classifier with all
non-reviewed documents in data
Calculate Precision & Recall classifier
using 10-fold cross validation on Training Set.
Calculate precision return set.
Stop if Precision and Recall of the
Training Set or the Return Set is Larger than a pre-agreed
quality level (typically 70-80%)
13
Return Best-Matching Documents
Automatische Classificering van Reuters Document Set
• In totaal 806.791 artikelen met hand geclassificeerd.
• War, Civil War (GVIO): 32.615 artikelen (4,04%): 90% wordt door computer gevonden na review van slechts 45.000 documenten (5.6%).
• Sports (GSPO): 35.317 artikelen (4,38%): 90% wordt gevonden na review van slechts 32.000 documenten (4%).
14
Stop condities regelen de kwaliteit van de classifier
• Geen reden om de 32.000 documenten voor de SPORTS (GSPO) categorie allemaal te review omdat zowel precisie als recall al direct boven de 80% lagen.
• Hadden ook na 100 documenten kunnen stoppen en de 32.000 automatisch geclassificeerd.
15
Performance details Machine Learning
• TF-IDF vector calculatie: 3.43 uur voor 806.791 documenten (60,3 documenten). Nog te optimaliseren door onze TBIE-indexen effectiever in te zetten.
• Machine Learning Classifiers: snelle trainings- (2-20s) en testtijd (4min voor 800k documenten = 3,3k documents/s)
16
TAR versus Manual Review
17
0
100000
200000
300000
400000
500000
600000
700000
800000
900000
Sports WAR
Number of Manual Document Reviews required to find 90% of ALL relevant documents
Manual TAR
ZyLAB TAR Dashboard
18
19
Machine Learning in de praktijk (aka een protocol)
Find Relevant Documents using
Concept Search and Topic Modeling
Review Retrieved Document for
Correctness: best matching first
Every X new correct documents, build
classifier with manually reviewed
documents to recognize similar
documents
Find potential relevant documents
by matching classifier with all
non-reviewed documents in data
Calculate Precision & Recall classifier
using 10-fold cross validation on Training Set.
Calculate precision return set.
Stop if Precision and Recall of the
Training Set or the Return Set is Larger than a pre-agreed
quality level (typically 70-80%)
20
Return Best-Matching Documents
21
22
Word Wheel
Gaat u de Artificial Intelligence uitdaging aan of …
23