information retrieval und recommender systems

Information Retrievalund

Recommender Systems

H R

2

Exemplar: amazon

3

Exemplar: youtube

4

Gliederung

Information Retrieval

Komponenten allgemeine Definition Techniken Algorithmen

Recommender Systems

IR & RS in der PG

5



Social Information Retrieval

Extrahierung Speicherung Abruf

Parser/Crawler Storage Retrieval

{BildMähdrescher}

{BildSpeicher}

{BildLupe}

6

RS: Komponenten

Ziele des RS (Zusatz-) Informationen bereitstellen

Entscheidungshilfen, Referenzen bieten

User model Erreichen der Ziele benötigt

personifizierte Informationen

abhängig von der Domäne

Umgebungsvariablen Wohldefiniertheit der Items

Erstellung und Wartung von Metadaten

stark Domänenabhängig

Verkauf von Zusatzprodukten

Loyalität aufbauen (Konkurrenz Klick entfernt)

PG:

eigene Publikationen, selbst referenziert

bereits bewertet

Überfluss an Informationen

Echtzeit

Arbeiten mit Stereotypen 8

7

RS: allgemeine Definition

Nutzer C Items S

Gesucht usefulness u: C x S → R

{BildGruppeUser}

{BildGruppeDateien}

8

RS: inhaltsbasierte Techniken

schätze u(c, s) durch die Suche nach u(c, ) ab

wobei Item möglichst ähnlich zu s ist gutes c durch Benutzerprofile: ContentBasedProfile(c)

explizit: z.B. Befragung, Formulare implizit: Mitschnitt des Nutzerverhaltens über die Zeit

gutes s durch Itemprofile: Content(s)

charakteresierende Attribute extrahieren: z.B. Keywords Gewichte für Wichtigkeit: z.B. TF-IDF


s is i

9

RS: Kategorie CBName Herangehensweise Vorteile Nachteile

inhaltsbasierte Techniken (CB)

rating-based ähnliche Bewertungen ↔ ähnlicher Geschmack des einzelnen Nutzers

- Domänenunabhängig- verbessert sich über die Zeit

- cold-start-Problem- new-user-Problem- nur begrenze Vorschläge

attribute-based gewichteItem-Attribute↔ Benutzer-Attribute

- kein cold-start-Problem- kein new-user-Problem- regiert gut auf Änderungen

- nur parsebare Inhalte- lernt nicht über die Zeit- funktioniert nur mit Kategorien- erfordert Wartung/ Kategorisierung- Güte nicht ableitbar- redundante Vorschläge

10

RS: kollaborative Techniken

schätze u(c, s) durch die Suche nach u( , s) ab

wobei User möglichst ähnlich zu c ist: user peers memory/heuristic-based: auf vorangegangenen Bewertungen

gesucht: unbekannte Wertung: C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete

Summe, angepasste gewichtete Summe model-based

Modell lernt und macht dann eine Vorhersage: W'keit, dass Nutzer bestimmtes Rating zu Item abgibt

Auflösung der W'keiten durch User-Cluster und Bayes-Netzwerke


c ic i

r c , s

11

RS: Kategorie CFName Herangehensweise Vorteile Nachteile

kollaborative Techniken (CF)

user-based/item-based

ähnliche Bewertungen ↔ ähnlicher Geschmack der verschiedene Nutzer

- keine Inhaltsanalyse nötig- Domänenunabhängig- verbessert sich über die Zeit- Zufallsfunde möglich

- cold-start-Problem- beliebter Geschmack- Skalierbarkeit- Seltenheit- ”Rauschen”– Skala nicht klar– Grund für Abstimmung

Stereotypen oderDemografien

clustert Nutzer anhand bekannter Attribute

- kein cold-start-Problem- Domänenunabhängig- Zufallsfunde möglich

- Informationsbeschaffung/ Metadaten- unzureichende Informationen- nur beliebter Geschmack- Wartung

12

RS: hybride Techniken

hybride Techniken

implementieren CB und CF Technik separat

kombinieren Ausgabe abhängig vom Szenario für ”bessere” entscheiden

13

char. Attribute gewichten: TF-IDF Keyword , Dokument

Anzahl der Vorkommnisse von in Dokument

s = ”Das rote Auto hält an der roten Ampel” = 2 Vorkommenshäufigkeit: normalisierte Häufigkeit von in :

k i s jf i , j k i s j

f rot , sTF i , j k i s j

TF i , j=f i , j

max z f z , j

14

char. Attribute gewichten: TF-IDF

S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword

Inserve Dokumentenhäufigkeit: misst Relevanz zu anderen Dokumenten

Gewicht von Keyword im Dokument wird berechnet:

Content( ) = ( , …, )

TF i , j=f i , j

max z f z , j

s i k iIDF i=log

Ssi

w i , j k i s jw i , j=TF i , j∗IDF i

s j w1, j w k , j

Vorkommenshäufigkeit:

15

CB: Bayes-Klassifikator model-based Ansatz

lernt aus statischem Wissen einer Trainingsmenge überträgt Wissen auf unbekannte Szenarien

Beispiel Webseiten-Klassifikator:

gesucht: W'keit das Webseite zu der Klasse (relevant/irrelevant) gehört

P( | & … & ) gegeben: Keywords auf Seite : , …,

Ann.: Keywords unabhängig

p j C i

C i k1, j k n , jp j k1, j k n , j

P C i∗∏x P k x , j .C i

16

RS: Algorithmen Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)

Technisches Richtmaß:

Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz Deckungsgrad (coverage): Anteil der Items für die RS eine

Vorhersage treffen kann allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …

Vorgehen:

durch Heuristiken oder Modelle die usefulness Funktion u bestimmen und empirisch untersuchen

die Funktion abschätzen, um bestimmte Kriterien zu verbessern

17

IR & RS in der PG Inhaltsanalysen liefern Keywords

nicht eindeutig und synonym

Zitierung ähnlich wie Bewertung Matthew Effect, Eigenzitierung

Referenzen und Autoren ergeben Cluster mehrdeutige Autorennamen

Lesezeichen und Downloads ermöglichen kontinuierliche Beobachtung

Implizite und explizite Bewertungen Mindestanzahl an Nutzern notwendig

18

Danke für Ihre Aufmerksamkeit!

19

Literatur [Drachsler2007]

Recommendations for learners are different : Applying memory-based recommender system techniques to lifelong learning

[Drachsler2009]Identifying the Goal, User model and Conditions of Recommender Systems for Formal and Informal Learning

[Kargioti2010]Supporting Emergent Learning through Social Recommendations

[Adomavicius2005]Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions

[Gipp2009a]Scienstein: A research paper recommender system

information retrieval und recommender systems

Entertainment & Humor

j ki s j tfi

j ki s j wi

j ki s j f rot

j vorkommenshufigkeit

dokument s

ki s j f i

jidfi s j w1

j si ki idf