information retrieval und recommender systems

19
Information Retrieval und Recommender Systems H R

Upload: pgbigi

Post on 24-May-2015

570 views

Category:

Entertainment & Humor


0 download

TRANSCRIPT

Page 1: Information Retrieval und Recommender Systems

Information Retrievalund

Recommender Systems

H R

Page 2: Information Retrieval und Recommender Systems

2

Exemplar: amazon

Page 3: Information Retrieval und Recommender Systems

3

Exemplar: youtube

Page 4: Information Retrieval und Recommender Systems

4

Gliederung

Information Retrieval

Komponenten allgemeine Definition Techniken Algorithmen

Recommender Systems

IR & RS in der PG

Page 5: Information Retrieval und Recommender Systems

5

Information Retrieval

Information Retrieval

Social Information Retrieval

Extrahierung Speicherung Abruf

Parser/Crawler Storage Retrieval

{BildMähdrescher}

{BildSpeicher}

{BildLupe}

Page 6: Information Retrieval und Recommender Systems

6

RS: Komponenten

Ziele des RS (Zusatz-) Informationen bereitstellen

Entscheidungshilfen, Referenzen bieten

User model Erreichen der Ziele benötigt

personifizierte Informationen

abhängig von der Domäne

Umgebungsvariablen Wohldefiniertheit der Items

Erstellung und Wartung von Metadaten

stark Domänenabhängig

Verkauf von Zusatzprodukten

Loyalität aufbauen (Konkurrenz Klick entfernt)

PG:

eigene Publikationen, selbst referenziert

bereits bewertet

Überfluss an Informationen

Echtzeit

Arbeiten mit Stereotypen 8

Page 7: Information Retrieval und Recommender Systems

7

RS: allgemeine Definition

Nutzer C Items S

Gesucht usefulness u: C x S → R

{BildGruppeUser}

{BildGruppeDateien}

Page 8: Information Retrieval und Recommender Systems

8

RS: inhaltsbasierte Techniken

schätze u(c, s) durch die Suche nach u(c, ) ab

wobei Item möglichst ähnlich zu s ist gutes c durch Benutzerprofile: ContentBasedProfile(c)

explizit: z.B. Befragung, Formulare implizit: Mitschnitt des Nutzerverhaltens über die Zeit

gutes s durch Itemprofile: Content(s)

charakteresierende Attribute extrahieren: z.B. Keywords Gewichte für Wichtigkeit: z.B. TF-IDF

Gesucht usefulness u: C x S → R

s is i

Page 9: Information Retrieval und Recommender Systems

9

RS: Kategorie CBName Herangehensweise Vorteile Nachteile

inhaltsbasierte Techniken (CB)

rating-based ähnliche Bewertungen ↔ ähnlicher Geschmack des einzelnen Nutzers

- Domänenunabhängig- verbessert sich über die Zeit

- cold-start-Problem- new-user-Problem- nur begrenze Vorschläge

attribute-based gewichteItem-Attribute↔ Benutzer-Attribute

- kein cold-start-Problem- kein new-user-Problem- regiert gut auf Änderungen

- nur parsebare Inhalte- lernt nicht über die Zeit- funktioniert nur mit Kategorien- erfordert Wartung/ Kategorisierung- Güte nicht ableitbar- redundante Vorschläge

Page 10: Information Retrieval und Recommender Systems

10

RS: kollaborative Techniken

schätze u(c, s) durch die Suche nach u( , s) ab

wobei User möglichst ähnlich zu c ist: user peers memory/heuristic-based: auf vorangegangenen Bewertungen

gesucht: unbekannte Wertung: C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete

Summe, angepasste gewichtete Summe model-based

Modell lernt und macht dann eine Vorhersage: W'keit, dass Nutzer bestimmtes Rating zu Item abgibt

Auflösung der W'keiten durch User-Cluster und Bayes-Netzwerke

Gesucht usefulness u: C x S → R

c ic i

r c , s

Page 11: Information Retrieval und Recommender Systems

11

RS: Kategorie CFName Herangehensweise Vorteile Nachteile

kollaborative Techniken (CF)

user-based/item-based

ähnliche Bewertungen ↔ ähnlicher Geschmack der verschiedene Nutzer

- keine Inhaltsanalyse nötig- Domänenunabhängig- verbessert sich über die Zeit- Zufallsfunde möglich

- cold-start-Problem- beliebter Geschmack- Skalierbarkeit- Seltenheit- ”Rauschen”– Skala nicht klar– Grund für Abstimmung

Stereotypen oderDemografien

clustert Nutzer anhand bekannter Attribute

- kein cold-start-Problem- Domänenunabhängig- Zufallsfunde möglich

- Informationsbeschaffung/ Metadaten- unzureichende Informationen- nur beliebter Geschmack- Wartung

Page 12: Information Retrieval und Recommender Systems

12

RS: hybride Techniken

hybride Techniken

implementieren CB und CF Technik separat

kombinieren Ausgabe abhängig vom Szenario für ”bessere” entscheiden

Page 13: Information Retrieval und Recommender Systems

13

char. Attribute gewichten: TF-IDF Keyword , Dokument

Anzahl der Vorkommnisse von in Dokument

s = ”Das rote Auto hält an der roten Ampel” = 2 Vorkommenshäufigkeit: normalisierte Häufigkeit von in :

k i s jf i , j k i s j

f rot , sTF i , j k i s j

TF i , j=f i , j

max z f z , j

Page 14: Information Retrieval und Recommender Systems

14

char. Attribute gewichten: TF-IDF

S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword

Inserve Dokumentenhäufigkeit: misst Relevanz zu anderen Dokumenten

Gewicht von Keyword im Dokument wird berechnet:

Content( ) = ( , …, )

TF i , j=f i , j

max z f z , j

s i k iIDF i=log

Ssi

w i , j k i s jw i , j=TF i , j∗IDF i

s j w1, j w k , j

Vorkommenshäufigkeit:

Page 15: Information Retrieval und Recommender Systems

15

CB: Bayes-Klassifikator model-based Ansatz

lernt aus statischem Wissen einer Trainingsmenge überträgt Wissen auf unbekannte Szenarien

Beispiel Webseiten-Klassifikator:

gesucht: W'keit das Webseite zu der Klasse (relevant/irrelevant) gehört

P( | & … & ) gegeben: Keywords auf Seite : , …,

Ann.: Keywords unabhängig

p j C i

C i k1, j k n , jp j k1, j k n , j

P C i∗∏x P k x , j .C i

Page 16: Information Retrieval und Recommender Systems

16

RS: Algorithmen Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)

Technisches Richtmaß:

Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz Deckungsgrad (coverage): Anteil der Items für die RS eine

Vorhersage treffen kann allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …

Vorgehen:

durch Heuristiken oder Modelle die usefulness Funktion u bestimmen und empirisch untersuchen

die Funktion abschätzen, um bestimmte Kriterien zu verbessern

Page 17: Information Retrieval und Recommender Systems

17

IR & RS in der PG Inhaltsanalysen liefern Keywords

nicht eindeutig und synonym

Zitierung ähnlich wie Bewertung Matthew Effect, Eigenzitierung

Referenzen und Autoren ergeben Cluster mehrdeutige Autorennamen

Lesezeichen und Downloads ermöglichen kontinuierliche Beobachtung

Implizite und explizite Bewertungen Mindestanzahl an Nutzern notwendig

Page 18: Information Retrieval und Recommender Systems

18

Danke für Ihre Aufmerksamkeit!

Page 19: Information Retrieval und Recommender Systems

19

Literatur [Drachsler2007]

Recommendations for learners are different : Applying memory-based recommender system techniques to lifelong learning

[Drachsler2009]Identifying the Goal, User model and Conditions of Recommender Systems for Formal and Informal Learning

[Kargioti2010]Supporting Emergent Learning through Social Recommendations

[Adomavicius2005]Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions

[Gipp2009a]Scienstein: A research paper recommender system