7/30/2008

MA Reading Memo 7/30

Intelligent Techniques for Web Personalization(link)
使用者不用明確說出他們的需求,就可以提供使用者所需的資訊

The Personalization Process

數學符號代表:
Assume
n Items, each can be described as a s dimensional vector, i(j) : { b(j,1), b(j,2), ..., b(j,s) }
m Users,each can be described as a t dimensional vector, u(k): {a(k,1), a(k,2),..., a(k,t) }
I(u,k) : 沒有被User u(k) rated過的item集合
I(r,k) : 已經被User u(k) rate 過的item集合
The goal is to suggest Item i(j) belongs to I(u,k) and would interest User u(k).

Step:
  1. Collect Data:
    ‧data 必須是attributable
    ‧web上收集的資料往往包含許多需要被去除的noise
    ‧在IBM的分析中,發現user往往會願意多填一些資料,來提高系統的準確性。
  2. Build user-centric data model : 有很多方法可以表示data model,ex. vector, ontology, aggregate usage profile, ...
  3. Evaluation: 常用converage, mean absolute error及ROC sensitvity。
  4. Deployment: 常見有scalability的issue,希望可以real-time產生recommendation。
  5. all steps need to be monitored

通常推荐的方式可以分成兩大類:
Prediction Task:預測其他未被user rate過的item的rate值
Selection Task: 選擇N個最相關且未被rate過的item給user

Classifications of Approaches to Personalization
Individual Vs Collaborative

  1. Individual : 使用content-based filtering systems,用item的內容及user自己的rate來推荐。
    優點:可以建構在client side,因此比較不會有privacy issue
    缺點:完全based on使用者自己之前的推荐,不會有"意外"發現其他interest的可能,而且必須確保推荐過的item本身可以access到。
  2. Collaborative: collaborative(Social) filtering,不使用item的內容,而使用user及其neighborhood的rate來決定是否推荐一篇article
    缺點:new item and new user rating problem
    優點:參考individual的缺點XD
Reactive Vs Proactive
  1. Reactive:需要user提供feedback,例如:rate所推荐的東西是不是符合需求。
  2. Proactive: user的feedback並不是影響推荐item的主因,它用其他"學"到的information來做推荐,如amazon。
User Vs. Item Information

  1. Item Related Information: 包含item descriptions 及 product/ domain ontology,通常用來處理unstructured data與item 的關聯。ex. 用keyword來描述document.
  2. User Related Information: 包含rating record, past user behaviour,少部份會採用demographic data(不易收集,且較item-based及user behavior不精確。)
  3. Hybrid: 因為兩個各有優缺點,所以有些system兩種方式都同時採用。

Memory Based Vs. Model Based

  1. Memory Based(lazy learning): 在query 進來當下才generalize(online)
    ex. 傳統CF及content based filtering
    缺點:scalability
    優點:可以反映user interest的變化
  2. Model Based(eager learning):在query進來之前已經建好model(offline)
    ex. item-based CF

Client Side Vs Server Side

  1. Client side: 資料儲存在client端
    缺點:只適用Individual model
    優點:可以在不同web site access data(但也要先知道怎麼拿client side的資料才行啊!)
  2. Server side: 資料儲存在server端
    優點:適用 Individual model及Collaborative Model,而且拿自己存的資料比較容易

Data

  • Explicit data: 因為是user自己提供的,有時user會考量到privacy issue而提供較不精確的資料。
  • Implicit data: 比較容易觀察到positive的Info,但negative observation往往很有用
    (ex. last.fm上次討論到的一首歌才聽了一下就換下一首歌,不過last.fm沒有紀錄下來)

Personalization Techniques

Issues
(一些比較trivial的我就直接略過了)

The Cold Start and Latency Problem

  1. New user problem: 新進使用者沒有history資料
  2. Cold Start problem:在collaborative system initial時,所有的user都沒有history
  3. New item (Latency) problem: 新的item缺乏rating資料

解決方法是利用Hybrid來取得一些額外的information

Data Sparseness
Item的數量會稀釋了user history data 佔總量的百分比 造成難以尋找similar user
解決方法:Item partitioning (domain specific)、Item clustering、Gauge set of items(指定某些必須要rate的item) ,簡單的說就是使用替代資料(domain, cluster)取代item。

Scalability:
user及item的數量太大,而使得memory based system無法負荷

Privacy


Recommendation List Diversity
:
研究顯示diversification有positive effect(accuracy不高也沒關係),所以該如何在diversity與accuracy之間取得平衡?

Adapting to User Context:
無法將user與系統的previous interactions視為context也無法explicitly measure context,

Using Domain Knowledge
Managing the Dynamics in User Interests
Robustness
Trust

Evaluation of Personalization Systems

User Satisfaction: ex.
  • RFM: Recency- When was the last order? , Frequency - How many orders have they placed with us? Monetary Value - What is the value of their orders?
  • life-time value
  • recommendation uptake
Accuracy: ex.
Coverage: 推荐系統可以推荐出的universe 的百分比
Utility: ex. novelty
Explainability:
Robustness: prediction stability, power of an attack
Performance and Scalability: response time

0 comments: