frokostseminar mai 2010 solr open source cominvent as

31
© FINDWISE, COMINVENT 2010 Open Source & Apache Lucene/Solr Frokostseminar Oslo 5. mai 2010 cominvent as Enterprise Search Experts

Upload: cominvent-as

Post on 26-Jun-2015

831 views

Category:

Technology


2 download

DESCRIPTION

Slides fra frokostseminar om Open Souce søk med Apache Lucene/Solr i Oslo mai 2010. Dette var et arrangement av Cominvent AS og FindWise AB. Presentation is in Norwegian language

TRANSCRIPT

Page 1: Frokostseminar mai 2010 solr open source cominvent as

© FINDWISE, COMINVENT 2010

Open Source & Apache Lucene/SolrFrokostseminar Oslo 5. mai 2010

cominvent asEnterprise Search Experts

Page 2: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Cominvent AS: Jan Høydahl

● IT architect, 15 years with search, telecom, mobile

● Helped build FAST's Global Services as first engineer

● Founder of Cominvent AS● Search consultant 10 years● Certified Solr instructor

Page 3: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Cominvent AS: Consulting

– Cominvent delivers independent search consulting– Focus on Apache Lucene/Solr & Microsoft FAST ESP

– Idea – architecture – implementation

Page 4: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Cominvent AS: Commercial Support

– When community & mailing list support is not enough..– Paid support agreement for Apache Solr/Lucene– In cooperation with Lucid Imagination

– Read more: http://www.cominvent.com/support/

Page 5: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Cominvent AS: Training

– Cominvent AS delivers training public and on-site– Certified Solr Training Partner for Lucid Imagination– Certified FAST ESP Training Partner

– Read more: http://www.cominvent.com/training/

Photo: fluidpowerzone.com

Page 6: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Solr kurs

Page 7: Frokostseminar mai 2010 solr open source cominvent as

Hva er Open Source?

«Åpen Kildekode betyr at kildekoden tl et dataprogram er gjort tlgjengelig

(ofe på Internet) for alle.» (Wikipedia)

Fri programvare er programvare som gir mer frihet, eierskap og feksibilitet.

Det er ingen som dikterer hva man kan gjøre eller hvilken leverandør som må

benytes. Man kan gjøre endringer i programvaren eter eget ønske, og man

kan dele programvaren med andre, om ønskelig.

Fri programvare er ikke nødvendigvis grats for bedrifer og organisasjoner.

Selv om lisensen ikke koster penger, kommer allikevel levetdskostnader.

(friprog.no)

Page 8: Frokostseminar mai 2010 solr open source cominvent as

De mest kjente...

Page 9: Frokostseminar mai 2010 solr open source cominvent as

Funker det for «seriøse» bedrifter?

Årsaker tl at noen er motvillige tl åpen kildekode:

Hvordan kan vi vite at kvaliteten er god?

Hvem ringer vi ved problemer?

Hva med sikkerheten?

Usikkerhet rundt fremtd og oppdateringer

Forstår ikke modellen

Policy

FUD

Page 10: Frokostseminar mai 2010 solr open source cominvent as

Hvorfor Fri Programvare?

Page 11: Frokostseminar mai 2010 solr open source cominvent as

Open Source tar markedsandeler

Open Source Sofware vinner markedsandeler hvert år.

Fra 13% i 2007 tl 27% i 2010

Kilde: Gartner

2010

Page 12: Frokostseminar mai 2010 solr open source cominvent as

Hvorfor går folk over til Open Source

Hvor viktg var reduksjonen i kostnader når du valgte Open Source?

Kilde: The 451 Group

Page 13: Frokostseminar mai 2010 solr open source cominvent as

Hvorfor forblir folk ved Open Source?

Eter å ha gjort overgangen tl åpen kildekode, hva var den største gevinsten?

Kilde: The 451 Group

Fra Forrester/Unisys:

•62% view open source soft ware as capable of delivering signifi cant business payback

•80% viewed factors other than cost such as open standards support, use of code, and avoiding lock-in

•58% of IT execs reported that they now use Open Source for mission-criti cal applicati ons

Page 14: Frokostseminar mai 2010 solr open source cominvent as

Hvordan utvikles Open Source?

Kildekoden er tlgjengelig for alle fra SCM

Brukere og utviklere danner et fellesskap

Alle kan bidra med kodeforbedringer, feilrapporter, dokumentasjon etc

En kjerne av utviklere, ofe betalt av bedrifer som bruker produktet

Virtuell utviklerorganisasjon

Eksempel:

En bruker fnner en feil og reter den samme dag. Feilfksen sendes tlbake tl

fellesskapet og blir umiddelbart tlgjengelig for andre.

Med lukket programvare tar det ofe uker eller måneder før en feil retes.

Page 15: Frokostseminar mai 2010 solr open source cominvent as

Om Apache Software Foundation

•Startet i Juni 1999, ut fra Apache Web Server

•Ideell organisasjon/stfelse

•Ca 60 toppnivå-prosjekter med fere underprosjekter

•Tekniske eksperter leder hvert prosjekt

•Apache-lisensen er meget liberal og business-vennlig

- I praksis kan du gjøre hva du vil med programvaren

Page 16: Frokostseminar mai 2010 solr open source cominvent as

Apache Lucene

•Programvarebibliotek for søk, skrevet i Java

•Ble et Apache-prosjekt i September 2001

•Den mest utbredte indeks-motoren på markedet

•Finnes innebygget i mange andre tjenester og programmer

•Powered by Lucene:

Page 17: Frokostseminar mai 2010 solr open source cominvent as

Apache Lucene

Page 18: Frokostseminar mai 2010 solr open source cominvent as

Apache Nutch

•Også fra Apache Foundaton

•Web-søkemotor

•Bygger på Lucene

•Spesialisert på å crawle og prosessere HTML + andre formater

•Bygget for å skalere tl milliarder av dokumenter

•Kan kombineres med Solr

Page 19: Frokostseminar mai 2010 solr open source cominvent as

Apache Tika

•Bibliotek for å ekstrahere tekst fra rike dokumentormater

•Støte for mange formater:

PDF, Word, Excel, PowerPoint, Open Document – ODT, ODS, ODP, RTF

•Kan også ekstrahere data fra rik media

GIF, JPG, MP3, MOV...

•Utvides stadig med støte for nye formater

•Savner du et format? Enkelt rammeverk for å plugge inn egne parsere.

•Tika er integrert i bl.a. Nutch og Solr

Page 20: Frokostseminar mai 2010 solr open source cominvent as

Apache Mahout

•Avansert samling skalerbare maskinlærings-biblioteker

•Bruker Hadoop Map/Reduce

•Apache-prosjekt siden 2008

•Eksempel på bruk

•Recommendatons

•Clustering

•Automatsk klassifsering

•++

•Antas å integreres i Lucene/Solr i fremtden

Page 21: Frokostseminar mai 2010 solr open source cominvent as

OpenPipeline

•Generisk prosesseringsmodul for søkemotorer

•Laget av Dieselpoint Inc.

•Ble gjort Open Source i 2008

•Skrevet som en Java web-applikasjon

•Tilbyr crawling- og avansert dokument-prosessering

•Let å integrere med mange ulike søkemotorer

Page 22: Frokostseminar mai 2010 solr open source cominvent as

Apache Solr

● Søke-server basert på Lucene

● Gjør det enkelt å legge tl søk på sin tjeneste/applikasjon

● Krever ingen programmering – alt er XML/HTTP og åpne APIer

● Utviklet av CNET Networks i 2004

● Kildekoden donert tl Apache i 2006

● Versjon 1.4 ble utgit november 2009

● Brukes av store bedrifer verden over

Page 23: Frokostseminar mai 2010 solr open source cominvent as

Funksjonalitet

• Rikt spørrespråk med bl.a.

• Boolske operatorer AND, OR, NOT

• Fuzzy søk og fonetsk søk

• Sortering i fere nivåer

• Nær sanntds indeksering av

strukturerte og ustrukturerte data

• Faset-navigering

• Avansert kontroll over relevans

• Did you mean stavekontroll

• GEO-søk

• Clustering

• Sikkerhet

Page 24: Frokostseminar mai 2010 solr open source cominvent as

Bruksområder

Page 25: Frokostseminar mai 2010 solr open source cominvent as

25

XML/HTTP

Snakker med alle plattformer

Page 26: Frokostseminar mai 2010 solr open source cominvent as

Data inn i søkemotoren

Eksempel med XML input

Page 27: Frokostseminar mai 2010 solr open source cominvent as

Data ut (spørring)

http://localhost:8080/solr/select?q=car&fl=id,title

Page 28: Frokostseminar mai 2010 solr open source cominvent as

Eller med en litt penere presentasion...

Page 29: Frokostseminar mai 2010 solr open source cominvent as

Eksempel på en installasjon m/feiltoleranse

Page 30: Frokostseminar mai 2010 solr open source cominvent as

Arkitektur

30

Page 31: Frokostseminar mai 2010 solr open source cominvent as

cominvent as

Thank You

www.cominvent.com

www.twitter.com/cominvent

[email protected]