artificial intelligence in uw dagelijkse...

Artificial Intelligence in uw dagelijkse praktijkHilversum, 22 September 2016

Agenda

09:30 Welkom en introductie

09:35 “Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied”

Jaap van den Herik

10:20 “Artificial Intelligence in uw dagelijkse praktijk”

Jan Scholtes

10:45 Koffie pauze

11:00 “Praktische toepassingen van AI in dataverwerking, due diligence en contractanalyse”

Luc van Daele en Harm Bavinck

12:00 Lunch en demo’s

2

Artificial Intelligence in uw dagelijkse praktijkProf. dr. ir. Jan Scholtes – CSO ZyLAB

Artificial Intelligence (AI)

• Machine Learning, Natural Language Processing (NLP) en aanverwante technieken als data- of text-mining, big data-analyse, predictive coding, Technology Assisted Review (TAR), concept search, topic modeling, clustering, audio search, en machine translation vallen allemaal onder de overkoepelende term Artificial Intelligence.

• ZyLAB zet al deze technieken in om specifieke document categorieën te ontdekken en in die documenten relevante informatie te vinden.

4

Automatisch vertalen - ontdekken van interessante communicatie in andere talen

Direct zoeken in audio voor legal review

Opnames hoeven niet te worden uitgeschreven.

In enkele seconden zoeken in urenlange opnames.

Direct ontdekken van relevante opnames en deze labelen als “responsive”.

Alleen uitschrijven wat overhandigd moet worden (<<1%).

Text-mining en content analyse

• Text-mining richt zich op het ontwikkelen

van diverse geavanceerde wiskundige,

statistische en taalkundige

patroonherkenning in grote hoeveelheden

elektronische informatie.

• Met die patronen en kenmerken kan men

beter en sneller zoeken en inzichten

krijgen die anders verborgen blijven. In

plaats van te zoeken op woorden, wordt er

gezocht op taalkundige patronen van

woorden (zoeken op een hoger niveau).

• Met Text-mining kan men vinden wat men

niet weet of dingen vinden die niet

gevonden willen worden.

7

Altijd overzicht en controle over uw data

Technology Assisted Review (TAR)

ZyLAB gebruikt een aantal methoden voor de classificatie van documenten en entiteit extractie.

• Gebaseerd op gewoon zoeken;

• Reguliere expressies;

• Gazetteers (dictionaries);

• Geavanceerde methoden om patronen met entiteiten en werkwoorden te ontdekken met “natural languageprocessing” (NLP);

• Machine learning (AI)

Deze technieken kunnen apart of in combinatie worden ingezet.

9

Doel van TAR

• Automatische classificatie van documenten in sets met “responsive” en “niet-responsive”.

• Maximalisatie van “recall”: het snel vinden van 80% van alle “responsive” documenten.

• Enorme besparing op de kosten van legal review.

• Het semi-automatisch vinden van relevante documenten zonder afhankelijk te zijn van de zoektalenten van de eindgebruikers.

• Vinden zonder dat je exact weet waar je naar op zoek was.

• Automatische classificatie van documenten in conceptuele categorieën.

10

ZyLAB bezit diverse TAR-patenten

11

ZyLAB TAR: combinatie van verschillende aanpakken

12

0%

100%

Rec

all

Machine Learning for Automatic Document Classification

OCR on Bitmaps, Visual Classification, Text-Mining, Audio

Search & Machine Translation

Search n Extracted Meta Data (document properties, file

properties, forensics)

Fuzzy, Wildcard, Quorum, Proximity, Relevance Ranking

Traditional

Boolean Search

ZyLAB Rules-based TAR

ZyLAB Machine Learning TAR Full-text zoeken en textmining technieken:

• Transparant.

• Iedere contractadvocaat weet hoe full-text zoeken werkt.

• Als een document niet goed geclassificeerd wordt, kan de advocaat een query makkelijk veranderen om het probleem op te lossen.

• De moeite die het kost om queries te schrijven, kan worden gecompenseerd door “libraries” van full-textqueries aan te leggen, die kunnen worden hergebruikt en gedeeld.

• Queries kunnen worden vertaald in andere talen.

• Voor de regels voor schrijven van queries, is kennis van de ZyLAB zoekfunctionaliteit en de NLP-regels voor query-taal noodzakelijk.

Machine Learning:

• De gebruiker heeft geen regels nodig als er genoeg representatieve voorbeelden zijn voor iedere classificatie categorie.

• Kan worden ingezet om onduidelijkheid tussen categorieën te elimineren gebaseerd op linguïstische en realistische statistieken maar is meer een “black box” die wel of niet werkt. Herstel is moeilijk als de “black box” niet werkt.

• Is niet 100% transparant. Zo is niet direct duidelijk waarom een document is geclassificeerd naar een specifieke categorie.

• Omdat machine learning is getraind op een specifieke set documenten, werkt deze niet altijd op documenten die te veel afwijken van de documenten in de training set.

• Omdat iedere techniek duidelijk voor- en nadelen heeft, is het aan te raden de keuze te houden om verschillende methoden te combineren om zo hoog mogelijke recall en precisie te bereiken.

Machine Learning in de praktijk: een protocol

Find Relevant Documents using standard Search

Techniques

Review Retrieved Document for

Correctness: best matching first

Every X new correct documents, build

classifier with manually reviewed

documents to recognize similar

documents

Find potential relevant documents

by matching classifier with all

non-reviewed documents in data

Calculate Precision & Recall classifier

using 10-fold cross validation on Training Set.

Calculate precision return set.

Stop if Precision and Recall of the

Training Set or the Return Set is Larger than a pre-agreed

quality level (typically 70-80%)

13

Return Best-Matching Documents

Automatische Classificering van Reuters Document Set

• In totaal 806.791 artikelen met hand geclassificeerd.

• War, Civil War (GVIO): 32.615 artikelen (4,04%): 90% wordt door computer gevonden na review van slechts 45.000 documenten (5.6%).

• Sports (GSPO): 35.317 artikelen (4,38%): 90% wordt gevonden na review van slechts 32.000 documenten (4%).

14

Stop condities regelen de kwaliteit van de classifier

• Geen reden om de 32.000 documenten voor de SPORTS (GSPO) categorie allemaal te review omdat zowel precisie als recall al direct boven de 80% lagen.

• Hadden ook na 100 documenten kunnen stoppen en de 32.000 automatisch geclassificeerd.

15

Performance details Machine Learning

• TF-IDF vector calculatie: 3.43 uur voor 806.791 documenten (60,3 documenten). Nog te optimaliseren door onze TBIE-indexen effectiever in te zetten.

• Machine Learning Classifiers: snelle trainings- (2-20s) en testtijd (4min voor 800k documenten = 3,3k documents/s)

16

TAR versus Manual Review

17

0

100000

200000

300000

400000

500000

600000

700000

800000

900000

Sports WAR

Number of Manual Document Reviews required to find 90% of ALL relevant documents

Manual TAR

ZyLAB TAR Dashboard

18

Machine Learning in de praktijk (aka een protocol)

Find Relevant Documents using

Concept Search and Topic Modeling

Review Retrieved Document for

Correctness: best matching first

Every X new correct documents, build

classifier with manually reviewed

documents to recognize similar

documents

Find potential relevant documents

by matching classifier with all

non-reviewed documents in data

Calculate Precision & Recall classifier

using 10-fold cross validation on Training Set.

Calculate precision return set.

Stop if Precision and Recall of the

Training Set or the Return Set is Larger than a pre-agreed

quality level (typically 70-80%)

20

Return Best-Matching Documents

22

Word Wheel

Gaat u de Artificial Intelligence uitdaging aan of …

23