information retrieval und recommender systems
TRANSCRIPT
Information Retrievalund
Recommender Systems
H R
2
Exemplar: amazon
3
Exemplar: youtube
4
Gliederung
Information Retrieval
Komponenten allgemeine Definition Techniken Algorithmen
Recommender Systems
IR & RS in der PG
5
Information Retrieval
Information Retrieval
Social Information Retrieval
Extrahierung Speicherung Abruf
Parser/Crawler Storage Retrieval
{BildMähdrescher}
{BildSpeicher}
{BildLupe}
6
RS: Komponenten
Ziele des RS (Zusatz-) Informationen bereitstellen
Entscheidungshilfen, Referenzen bieten
User model Erreichen der Ziele benötigt
personifizierte Informationen
abhängig von der Domäne
Umgebungsvariablen Wohldefiniertheit der Items
Erstellung und Wartung von Metadaten
stark Domänenabhängig
Verkauf von Zusatzprodukten
Loyalität aufbauen (Konkurrenz Klick entfernt)
PG:
eigene Publikationen, selbst referenziert
bereits bewertet
Überfluss an Informationen
Echtzeit
Arbeiten mit Stereotypen 8
7
RS: allgemeine Definition
Nutzer C Items S
Gesucht usefulness u: C x S → R
{BildGruppeUser}
{BildGruppeDateien}
8
RS: inhaltsbasierte Techniken
schätze u(c, s) durch die Suche nach u(c, ) ab
wobei Item möglichst ähnlich zu s ist gutes c durch Benutzerprofile: ContentBasedProfile(c)
explizit: z.B. Befragung, Formulare implizit: Mitschnitt des Nutzerverhaltens über die Zeit
gutes s durch Itemprofile: Content(s)
charakteresierende Attribute extrahieren: z.B. Keywords Gewichte für Wichtigkeit: z.B. TF-IDF
Gesucht usefulness u: C x S → R
s is i
9
RS: Kategorie CBName Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche Bewertungen ↔ ähnlicher Geschmack des einzelnen Nutzers
- Domänenunabhängig- verbessert sich über die Zeit
- cold-start-Problem- new-user-Problem- nur begrenze Vorschläge
attribute-based gewichteItem-Attribute↔ Benutzer-Attribute
- kein cold-start-Problem- kein new-user-Problem- regiert gut auf Änderungen
- nur parsebare Inhalte- lernt nicht über die Zeit- funktioniert nur mit Kategorien- erfordert Wartung/ Kategorisierung- Güte nicht ableitbar- redundante Vorschläge
10
RS: kollaborative Techniken
schätze u(c, s) durch die Suche nach u( , s) ab
wobei User möglichst ähnlich zu c ist: user peers memory/heuristic-based: auf vorangegangenen Bewertungen
gesucht: unbekannte Wertung: C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete
Summe, angepasste gewichtete Summe model-based
Modell lernt und macht dann eine Vorhersage: W'keit, dass Nutzer bestimmtes Rating zu Item abgibt
Auflösung der W'keiten durch User-Cluster und Bayes-Netzwerke
Gesucht usefulness u: C x S → R
c ic i
r c , s
11
RS: Kategorie CFName Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/item-based
ähnliche Bewertungen ↔ ähnlicher Geschmack der verschiedene Nutzer
- keine Inhaltsanalyse nötig- Domänenunabhängig- verbessert sich über die Zeit- Zufallsfunde möglich
- cold-start-Problem- beliebter Geschmack- Skalierbarkeit- Seltenheit- ”Rauschen”– Skala nicht klar– Grund für Abstimmung
Stereotypen oderDemografien
clustert Nutzer anhand bekannter Attribute
- kein cold-start-Problem- Domänenunabhängig- Zufallsfunde möglich
- Informationsbeschaffung/ Metadaten- unzureichende Informationen- nur beliebter Geschmack- Wartung
12
RS: hybride Techniken
hybride Techniken
implementieren CB und CF Technik separat
kombinieren Ausgabe abhängig vom Szenario für ”bessere” entscheiden
13
char. Attribute gewichten: TF-IDF Keyword , Dokument
Anzahl der Vorkommnisse von in Dokument
s = ”Das rote Auto hält an der roten Ampel” = 2 Vorkommenshäufigkeit: normalisierte Häufigkeit von in :
k i s jf i , j k i s j
f rot , sTF i , j k i s j
TF i , j=f i , j
max z f z , j
14
char. Attribute gewichten: TF-IDF
S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
Inserve Dokumentenhäufigkeit: misst Relevanz zu anderen Dokumenten
Gewicht von Keyword im Dokument wird berechnet:
Content( ) = ( , …, )
TF i , j=f i , j
max z f z , j
s i k iIDF i=log
Ssi
w i , j k i s jw i , j=TF i , j∗IDF i
s j w1, j w k , j
Vorkommenshäufigkeit:
15
CB: Bayes-Klassifikator model-based Ansatz
lernt aus statischem Wissen einer Trainingsmenge überträgt Wissen auf unbekannte Szenarien
Beispiel Webseiten-Klassifikator:
gesucht: W'keit das Webseite zu der Klasse (relevant/irrelevant) gehört
P( | & … & ) gegeben: Keywords auf Seite : , …,
Ann.: Keywords unabhängig
p j C i
C i k1, j k n , jp j k1, j k n , j
P C i∗∏x P k x , j .C i
16
RS: Algorithmen Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
Technisches Richtmaß:
Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz Deckungsgrad (coverage): Anteil der Items für die RS eine
Vorhersage treffen kann allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …
Vorgehen:
durch Heuristiken oder Modelle die usefulness Funktion u bestimmen und empirisch untersuchen
die Funktion abschätzen, um bestimmte Kriterien zu verbessern
17
IR & RS in der PG Inhaltsanalysen liefern Keywords
nicht eindeutig und synonym
Zitierung ähnlich wie Bewertung Matthew Effect, Eigenzitierung
Referenzen und Autoren ergeben Cluster mehrdeutige Autorennamen
Lesezeichen und Downloads ermöglichen kontinuierliche Beobachtung
Implizite und explizite Bewertungen Mindestanzahl an Nutzern notwendig
18
Danke für Ihre Aufmerksamkeit!
19
Literatur [Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system techniques to lifelong learning
[Drachsler2009]Identifying the Goal, User model and Conditions of Recommender Systems for Formal and Informal Learning
[Kargioti2010]Supporting Emergent Learning through Social Recommendations
[Adomavicius2005]Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions
[Gipp2009a]Scienstein: A research paper recommender system