Table Of ContentMatthias Runte
Personalisierung im Internet
Wirtschaftswissenschaft
~
Betriebswirtschaftslehre fUr Technologie unci Innovation, Band 37
Herausgegeben von Prof. Dr. Klaus BrockhoH,
Prof. Dr. Andreas Drexl,
Prof. Dr. Dr. h. Jiirgen HauschUdt,
Co
Prof. Dr. Rolf A. E. Miiller
Geschiiftsfiihrender Herausgeber:
Professor Dr. Sinke Albers,
Institut fur Betriebswirtschaftslehre,
Christian-Albrechts-Universitiit Kiel
In der Schriftenreihe
Betriebswirtschaftslehre fur Technologie und Innovation
werden Ergebnisse von Forschungsarbeiten veroffentlicht, die
sich in herausragender Weise mit Fragen des Managements
neuer Technologien, der industriellen Forschung und Entwicklung
und von Innovationen aus betrieblicher Perspektive beschaftigen.
Die Reihe richtet sich an leser in Wissenschaft und Praxis, die
Anregungen fOr die eigene Arbeit und Problemlosungen suchen.
Sie ist nicht auf Veroffentlichungen aus den Instituten der Her
ausgeber beschrankt.
Matthias Runte
Personalisierung
im Internet
Individualisierte Angebote
mit Collaborative Filtering
Mit einem Geleitwort von Prof. Dr. Sonke Albers
Springer Fachmedien Wiesbaden GmbH
Die Deutsche Bibliothek - CIP-Einheitsaufnahme
Runte, Matthias:
Personalisierung im Internet: individualisierte Angebote mit
Collaborative Filtering / Matthias Runte. Mit einem Geleitw.
von Sonke Albers. - 1. Aufl .. - Wiesbaden : Dt. Univ.-Verl., 2000
(Betriebswirtschaftslehre fOr Technologie und Innovation ; Bd. 37)
(DUV : Wirtschaftswissenschaft)
Zugl.: Kiel, Univ., Diss., 2000
1. Auflage Dezember 2000
Alle Rechte vorbehalten
© Springer Fachmedien Wiesbaden 2000
UrsprOnglich erschienen bei Deutscher Universitats-Verlag GmbH, Wiesbaden 2000
leklorat: Ute Wrasmann / Gereon Roeseling
Der Deutsche Universitots-Verlag isi ein Unternehmen der
Fachverlagsgruppe BertelsmannSpringer.
Das Werk einschlieBlich aller seiner Teile ist urheberrechtlich
geschOtzt. Jede Verwertung auBerhalb der engen Grenzen des
Urheberrechlsgesetzes isi ohne Zustimmung des Verlages unzu-
19ssi9 und strafbar. Das gilt insbesondere fOr Vervielfoltigungen,
Ubersetzungen, Mikroverfilmungen und die Einspeicherung und
Verarbeitung in elektronischen Systemen.
www.duv.de
Hochste inhaltliche und technische Qualitot unserer Produkte ist unser ZieI. Bei der
Produktion und Verbreilung unserer BOcher wollen wir die Umwell schonen. Dieses Buch
ist auf sourefreiem und chlorfrei gebleichlem Papier gedruckt. Die EinschweiBfolie beslehl
aus Polyothylen und damit aus organischen Grundstoffen, die weder bei der Herstellung
noch bei der Verbrennung Schadstoffe freisetzen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschulz-Gesetzgebung als
frei zu betrachten woren und daher von jedermann benutzt werden dOrften.
ISBN 978-3-8244-0550-3 ISBN 978-3-663-05968-4 (eBook)
DOI 10.1007/978-3-663-05968-4
Geleitwort
1m Innovationsmanagement wird bei der Neuproduktplanung ublicherweise der Fail be
trachtet, dass ein neues Produktkonzept fUr eine Produktklasse mit einer geringen Anzahl von
Wettbewerbsprodukten eingefiihrt wird. Es gibtjedoch viele Mlirkte, in denen die Sortimente
unubersehbar groB sind. Dies ist z. B. der Fall bei Buchern, Musiksrucken, Filmen, Hotelun
terktinften und Pauschalreisen. Hier kommt es meist weniger auf die sorgfliltige Planung des
Neuproduktes an, dies unterliegt ohnehin einem ktinstlerischen Prozess, sondern auf die
Durchsetzung dieser Produkte im Markt. Urn sich in einem soIchen Sortiment abheben zu
konnen, braucht man Empfehlungssysteme. Diese hat es in der Vergangenheit durch Buchre
zensionen, Musik-und Filmkritiken imrner schon gegeben. Das groBte Problem bestand darin,
dass die Kritik den personlichen Geschmack des Kritikers darstellte und sich weniger an dem
Geschmack von Zielgruppen orientierte. Etwas objektivere Empfehlungen konnte man durch
Hitlisten bekommen, die allerdings keine individuellen Geschmacker berucksichtigen konn
ten. Nach dem Aufkommen des Internet ist es nun moglich, auch individualisierte Empfeh
lungen abgeben zu konnen. Eine Klasse dieser Verfahren stellt das Collaborative-Filtering
dar, dessen Prognosekraft Runte in dieser Arbeit untersucht. Dabei greift er auf Daten zuruck,
die er im Rahmen eines unter www.linxx.de angebotenen Systems im World Wide Web er
halten hat.
Die Arbeit von Runte ist in sieben Abschnitte untergliedert. Nach einer Einfiihrung in die
Problematik des Collaborative-Filtering beschreibt er im zweiten Abschnitt Formen der Indi
vidualisierung von Angeboten. Den Schwerpunkt seiner Ausilihrungen stellt dabei die Syste
matisierung von Empfehlungssystemen dar, zu denen die Verfahren des Collaborative
Filtering ziihlen.
Der dritte Abschnitt ist methodischen Aspekten bei der Konstruktion von Automated Col
laborative-Filtering-Verfahren gewidmet. Runte stellt dabei fest, dass Collaborative-Filtering
methodisch den Fall eines Missing-Value-Problems darstellt, woraus er entsprechende Emp
fehlungen zur GestaItung von Collaborative-Filtering-Algorithmen ableitet. In diesem Ab
schnitt befasst er sich auch mit geeigneten ProximitatsmaBen. Aus der Menge der moglichen
Verfahren wiihlt Runte flir seine empirische Untersuchung einen distanz-und einen korrelati
onsbasierten Algorithmus aus, die er beide mit einer reinen Mittelwertbetrachtung vergleicht.
In einem vierten Abschnitt beschreibt Runte das von ihm durchgeftihrte Feldexperiment. Es
basiert auf dem Web-Angebot Linxx, bei dem ein interaktiver Webguide zur individuellen
Empfehlung von interessanten Websites angeboten wird. Auf der Basis der eigenen Daten
untersucht er im flinften Abschnitt die Prognosegute im Zeitablauf nach Ratings, Objekten
und Benutzem. Urn ein umfassenderes Bild der Gute von Collaborative-Filtering zu erzielen,
schlieBt Runte noch einen sechsten Abschnitt mit einer Simulationsstudie an, in der er den
VI Geleitwort
eigenen Datensatz zusammen mit zwei weiteren von extern erhaltenen Datensiitzen dahinge
hend vergleicht, welche Prognosegiite man mit einer Vielzahl alternativer Verfahren erhiilt.
Die Ergebnisse seiner Untersuchung fasst er im letzten Abschnitt zusammen und leitet daraus
Implikationen flir das Management abo
Runte kann mit seiner Untersuchung sehr interessante empirische Ergebnisse erzielen. Auf
der Basis von etwa 40.000 Empfehlungen, zu denen etwa 12.000 Feedback-Werte vorliegen,
an denen die Validitiit getestet werden konnte, zeigt Runte, dass die Prognosegiite der von
ihm untersuchten Collaborative-Filtering-Verfahren mit 58 % besser lagen als eine einfache
Mittelwertbetrachtung. Dabei schneiden die distanzbasierten Prognosen nach allen ausgewer
teten Kriterien besser ab als die Prognosen auf der Basis von Korrelationen. Erfreulicherweise
zeigte sich, dass die Prognosegiite bereits nach Vorliegen der Urteile von 200 registrierten
Benutzern stabil war. Collaborative-Filtering-Verfahren erwiesen sich gegeniiber dem naiven
Mittelwertverfahren immer dann als besser, wenn der Benutzer keinen Mainstream
Geschmack hatte. Diese Ergebnisse werden im wesentlichen durch die Simulationsstudie, die
auch zwei weitere von extern erhaltene Datensiitze einschlieBt, bestiitigt. Hier war die Progno
segiite in 60 bis 63 % der Fiille besser. AuBerdem kann er zeigen, dass die Prognosegiite mit
der Anzahl der Mentoren, also der als iihnlich klassifizierten Personen, deutlich ansteigt.
Insgesamt liegt eine Arbeit vor, in der in vorbildlicher Weise eine Vielzahl von Verfah
rensvarianten des Collaborative-Filtering hinsichtlich ihrer Prognosegiite untersucht werden.
Zur Verallgemeinerung seiner Ergebnisse hat Runte auch von anderen Wissenschaftlern erho
bene Datensiitze verwendet. Der Forscher erhiilt einen sehr guten Oberblick tiber Missing
Value-Probleme und die zu ihrer Behebung diskutierten Imputationsverfahren. AuBerdem
wird eine Vielzahl von Varianten diskutiert, die es potentiellen Anwendern von Collaborati
ve-Filtering-Verfahren erlauben, eigene Systeme im Internet zu realisieren. Die Arbeit ist
deshalb nicht nur fUr Forscher von hohem Interesse, sondern gibt dem Praktiker konkrete Ver
fahrensempfehlungen. Insofern ist die Arbeit fUr Wissenschaftler und Praktiker gleicherma
Ben von Interesse. Ich wiirde mich deshalb sehr freuen, wenn diese Arbeit eine weite Verbrei
tung finden wiirde.
Prof. Dr. Sonke Albers
Vorwort
Die sprunghafte Verbreitung des Internet hat in den letzten Jahren flir den Anbruch eines
neuen Zeitalters gesorgt. Es ist die Zeit der GrUnder, die gegen etablierte Konzerne antreten.
In einem von starkem Wettbewerb gepragten Markt hat derjenige die besten Chancen, der
Kundenbediirfnisse besser erflillen kann als der Konkurrent. Schlagworter wie "One-to-One
Marketing" oder "Mass Customization" sind in aller Munde. Die nachsten Jahre werden
durch einen noch starker werdenden Trend zur Personalisierung von Angeboten und Inhalten
gepragt sein. Methodisches Know-How in diesem sehr jungen Bereich hat sich jedoch in den
meisten Unternehmen zum gegenwiirtigen Zeitpunkt noch nicht etablieren konnen.
In dieser Arbeit soll ein methodischer Beitrag zu Personalisierungs-Verfahren geliefert wer
den. Bei der untersuchten Methode handelt es sich urn "Collaborative Filtering". Beim
Collaborative Filtering werden Benutzer auf Ahnlichkeiten in ihren Benutzerprofilen unter
sucht. Auf Basis dieser Ahnlichkeiten lassen sich bestimmte Prognosen erstellen, die zur In
dividualisierung von Inhalten und Angeboten eingesetzt werden konnen.
Die Aufzeichnung einer breiten Masse empirischer Daten fiir die in der vorliegenden Arbeit
durchgeflihrte Feldstudie war nur durch die Unterstiitzung des Projektes durch die fluxx.com
AG aus Kiel moglich. Diese fligte iiber einen Zeitraurn von iiber einem Jahr Hinweise auf das
Linxx-System in ihr regelmiiBiges Email-Rundschreiben ein und plazierte einen auf das
Linxx-System zeigenden Hyperlink auf ihrer Jaxx-Website. Auch wegen der guten Zusam
menarbeit in einer Reihe weiterer Projekte mit fluxx.com geht mein besonderer Dank an Ma
thias Dahms, Rainer Jacken, Christoph Tonn und Uwe Wanger.
Die Arbeit selbst ist im Rahmen des Graduiertenkollegs "Betriebswirtschaftslehre fiir
Technologie und Innovation" an der Christian-Albrechts-Universitat zu Kiel entstanden. Sie
wurde durch ein Stipendiurn der Deutschen Forschungsgemeinschaft (DFG) gefordert, flir das
ich mich an dieser Stelle herzlich bedanke.
Besonders verbunden bin ich meinem akademischen Lehrer Prof. Dr. Sonke Albers. Er hat
in vielen Gesprachen und mit unziihligen konstruktiven Kommentaren zurn Gelingen dieser
Arbeit beigetragen. Mein Dank gilt in diesem Zusammenhang auch Prof. Dr. Klaus Brock
hoff, Prof. Dr. Andreas Drexl, Prof. Dr. Gerd Hansen, Prof. Dr. Dr. h. c. Jiirgen Hauschildt
und Prof. Dr. Rolf A. E. Miiller. Die problemlose und stiindige Kommunikation zwischen
Professoren und Graduierten hat einen spiirbar positiven EinfluB auf diese Arbeit gehabt.
Besonders zu Dank verpflichtet bin ich meinen Kollegen vom Lehrstuhl flir Innovation,
Neue Medien und Marketing. Von Anfang an fand ich hier Unterstiitzung in allen wissen
schaftlichen und privaten Belangen. Mein Projektpartner Claudius Paul, mit dem ich im Rah
men des Projektes "Individual-Marketing" das Linxx-System in wesentlichen Teilen gemein
sam konzeptioniert habe, danke ich fiir eine fruchtbare Zusammenarbeit. Dr. Michel Clement
VIII Vorwort
verdanke ich eine Reihe von gemeinsamen Publikationen zum Thema Software-Agenten.
Stellvertretend fUr aile anderen nenne ich zudem Dr. Ulrike Biihr-Seppelfricke, Ingo Garc
zorz, Prof. Dr. Karen Gedenk, Christoph Ipsen, Nicolai Johannsen, Prof. Dr. Manfred Krafft,
Dr. Jens Langholz, Dr. Thorsten Litfin und Prof. Dr. Bernd Skiera. Sie und viele andere haben
meine Zeit in Kiel bereichert.
Mein Dank gebUhrt auch Steve Glassman von DEC Systems Research Center und Prof.
Ken Goldberg von der University of Berkeley flir Bereitstellung von Datensatzen fUr die Si
mulationsrechnungen.
Die Anfertigung einer Dissertation ist ein ProzeB, der durch einige Hohen und Tiefen geht.
Dem steten Riickhalt durch meine Eltern und durch meine Freundin Merja ist es zu verdan
ken, daB gelegentliche Tiefen schnell iiberwunden werden konnten und so die Hohen wiihrend
meiner Arbeit am Graduiertenkolleg klar iiberwiegen konnten. Ihnen ist diese Arbeit gewid
met.
Und natiirlich meinem Bruder Andreas, der mich mit Kommentaren wie "aber letztlich
wollt Ihr ja doch nur etwas verkaufen" immer wieder entbloBte.
Letztlich hat er nicht unrecht.
Matthias Runte
Inhaltsverzeichnis
Geleitwort ................................................................................................................................. v
Vorwort .................................................................................................................................. VII
Inhaltsverzeichnis .................................................................................................................. IX
Abbildungsverzeichnis ........................................................................................................ XIII
Abkiirzungsverzeichnis ..................................................................................................... XVII
Symbolverzeichnis ............................................................................................................... XIX
1 Zur Problematik des Collaborative Filtering ................................................................. 1
1.1 Problemstellung .......................................................................................................................... 1
1.2 Beitrag der Arbeit ....................................................................................................................... 2
1.3 Aufbau der Arbeit ....................................................................................................................... 4
2 Individualisierung von Angeboten in Interaktiven Medien .......................................... 5
2.1 Neue Realisationsfonnen des Marketingskonzeptes .................................................................. 5
2.2 Kommunikationsmodell der Interaktiven Medien ...................................................................... 6
2.3 Individualisierung von Angeboten ............................................................................................. 8
2.4 Empfehlungs-Systeme ................................................................................................................ 9
2.4.1 Eigenschaftsbasierende Systeme ..................................................................................... 11
2.4.2 Recommender-Systeme ................................................................................................... 14
2.5 Collaborative Filtering. ............................................................................................................. 15
2.5.1 Tapestry ........................................................................................................................... 15
2.5.2 US-Patente 4.870.579 und 4.996.642 .............................................................................. 16
2.5.3 CHI '95 ............................................................................................................................ 16
2.5.4 ACM 97 ........................................................................................................................... 17
2.6 Active und Automated Collaborative Filtering ........................................................................ 19
2.7 Praferenzcn und Prognosen ...................................................................................................... 24
2.7.1 Messung der Priiferenz .................................................................................................... 24
2.7.2 Benutzerprofil und Datenrnatrix ...................................................................................... 25
2.7.3 Prognose .......................................................................................................................... 26
2.7.4 Weitere Anwendungen .................................................................................................... 27
2.8 Feature Based vs. Collaborative Filtering ................................................................................ 27
2.9 Feature Guided Collaborative Filtering .................................................................................... 32
3 Automated Collaborative Filtering ............................................................................... 35
3.1 Collaborative Filtering als Missing-Value-Problem ................................................................. 35
x
Inhaltsverzeichnis
3.1.1 Datenmatrix, Objekte und Merkmale .............................................................................. 35
3.1.2 Ursachen fehlender Daten ................................................................................................ 37
3.1.3 Ausfallmechanismen ........................................................................................................ 37
3.1.4 Strukturanalyse ................................................................................................................ 39
3.1.5 Missing-Data-Verfahren .................................................................................................. 42
3.1.5.1 Eliminierungsverfahren ........................................................................................... 43
3.1.5.2 Imputationsverfahren .............................................................................................. 44
3.1.5.2.1 Einfache Imputationsverfahren ........................................................................... 45
3.1.5.2.2 Imputationsverfahren innerhalb von Klassen ..................................................... 46
3.1.5.2.3 Multivariate Imputationsverfahren ..................................................................... 47
3.1.5.2.4 Imputationsverfahren bei systernatischen Ausfallmechanismen ........................ 47
3.1.5.3 Weitere Verfahren ................................................................................................... 47
3.1.6 Zur Effizienz von Missing-V alue-V erfahren ................................................................... 49
3.1.7 Geeignete Missing-Value-V erfahren fUr Recommender-Systeme .................................. 49
3.2 Elemente von Collaborative-Filtering-Algorithmen ................................................................ 51
3.2.1 Erhebung von Benutzerdaten ........................................................................................... 52
3.2.2 Berechnung der Proximitat .............................................................................................. 54
3.2.2.1 ProximitatsrnaBe unter Missing Values .................................................................. 56
3.2.2.2 Eigenschaften von ProximitatsrnaBen ..................................................................... 56
3.2.2.2.1 Definition ............................................................................................................ 56
3.2.2.2.2 Direkte und indirekte Proximitatsbestimmung ................................................... 57
3.2.2.2.3 Transformation von AhnIichkeiten und Distanzen ............................................. 58
3.2.2.2.4 Mitte1wertzentrierung, Standardisierung und Translationsinvarianz .................. 60
3.2.2.3 Spezielle ProximitatsrnaBe ...................................................................................... 61
3.2.2.3.1 Einteilung ............................................................................................................ 61
3.2.2.3.2 Allgemeine Minkowski-Lq-Metrik ..................................................................... 62
3.2.2.3.3 Korrelationskoefflzient ....................................................................................... 63
3.2.2.4 Aufbereitung der Datenmatrix ................................................................................ 64
3.2.2.5 Korrigierte ProximitatsrnaBe unter Missing Values ................................................ 68
3.2.2.5.1 Korrigierte Minkowski-Lq-Metrik ...................................................................... 68
3.2.2.5.2 Korrigierter Korrelationskoeffizient ................................................................... 73
3.2.2.6 Zusammenfassung ................................................................................................... 74
3.2.3 Mentoren-Auswahl und Prognose-Berechnung ............................................................... 75
3.3 Basis-Algorithmen .................................................................................................................... 77
3.3.1 Mitte1werte (MEANS) ..................................................................................................... 77
3.3.2 Distanzbasierter Basis-Algorithmus (D-BASIS) ............................................................. 79
3.3.3 Korrelationsbasierter Basis-Algorithmus (Q-BASIS) ..................................................... 81
3.4 Prognosegiite von Collaborative-Filtering-Algorithmen .......................................................... 83
3.4.1 Zur Bewertung von Collaborative-Filtering-Algorithmen ............................................... 83
3.4.2 GiitemaBe in Abhiingigkeit des Anwendungsgebietes ..................................................... 84
3.4.2.1 Fall 1: FilterungvonObjekten ................................................................................ 85
3.4.2.2 Fall 2: Rangordnung von Objekten ......................................................................... 89
3.4.2.3 Fall 3: Prognose des Benutzerproflls ...................................................................... 89
3.4.2.3.1 Anteil besserer Prognosen .................................................................................. 89
3.4.2.3.2 Prognosefehler .................................................................................................... 90
3.4.2.3.3 Wertkorrelation ................................................................................................... 94
3.4.3 Anteil berechenbarer Prognosen ...................................................................................... 94
3.4.4 Differenzierte Analysen ................................................................................................... 95
3.4.5 Giitemessung .................................................................................................................... 97
3.4.5.1 Experimentelle Messung ......................................................................................... 97