一、推薦系統為何是商業 AI 的核心引擎
在數位經濟時代,使用者面對的不再是資訊匱乏,而是資訊過載。一個中型電商平台可能擁有數百萬件商品,而使用者在一次造訪中最多瀏覽數十件。如何在海量候選項目中精準呈現使用者最可能感興趣的內容,正是推薦系統(Recommender System)要解決的核心問題[6]。
推薦系統的商業價值已獲得廣泛驗證。Amazon 早期的研究報告顯示,個人化推薦引擎對整體營收的貢獻超過 35%;Netflix 的統計則指出,用戶觀看的影片中有 80% 來自推薦而非主動搜尋。在台灣的電商生態中,momo 購物網、PChome、蝦皮等平台也將推薦系統視為提升轉換率和客單價的關鍵基礎設施。
從技術角度看,推薦系統本質上是一個資訊檢索與排序問題:給定一組使用者(User)、一組項目(Item)以及歷史互動資料(點擊、購買、評分),系統需要預測每個使用者對未互動項目的偏好程度,並依此排序呈現。這個看似簡單的框架背後,牽涉使用者行為建模、特徵工程、大規模候選召回、精排模型訓練、線上 A/B 測試等一系列工程與研究挑戰。
推薦系統的演進大致可分為三個階段:第一階段是基於統計的協同過濾(Collaborative Filtering),利用使用者與項目的互動矩陣找出相似模式;第二階段是矩陣分解與 Factorization Machines[1][8],將高維稀疏互動矩陣壓縮為低維稠密表示;第三階段則是深度學習推薦模型[6],以神經網路自動學習高階特徵交互,達到前所未有的精準度。本文將依序剖析這三個階段的技術原理,並以電商場景為主軸探討工程化落地的關鍵考量。
二、協同過濾:最經典的推薦方法
協同過濾(Collaborative Filtering, CF)是推薦系統最早也最直覺的方法論。其核心假設極為簡潔:行為相似的使用者,未來也會有相似的偏好。CF 不需要理解項目的內容特徵(如商品類別、文章主題),僅依賴使用者的歷史行為數據就能產生推薦[9]。
CF 分為兩大類別。User-based CF 的邏輯是:找到與目標使用者行為模式最相似的鄰居使用者群,將鄰居們喜歡但目標使用者尚未接觸的項目推薦給他。相似度的計算通常使用餘弦相似度(Cosine Similarity)或皮爾森相關係數(Pearson Correlation)。Item-based CF 則從項目的角度出發:如果使用者喜歡項目 A,而項目 B 與項目 A 在使用者行為上高度相似(被相同的使用者群體偏好),則推薦項目 B。Amazon 在 2003 年發表的經典論文正是 Item-based CF 的工業化先驅。
| 方法 | 核心思想 | 優勢 | 劣勢 |
|---|---|---|---|
| User-based CF | 相似使用者推薦 | 直覺、可解釋 | 使用者數量大時計算昂貴 |
| Item-based CF | 相似項目推薦 | 項目變動慢、可預計算 | 無法捕捉使用者興趣變化 |
| Memory-based | 直接用相似度計算 | 無需訓練、即時更新 | 稀疏矩陣效果差 |
| Model-based | 學習隱因子模型 | 泛化能力強 | 需要訓練時間 |
然而,傳統 CF 面臨兩個根本性的挑戰。第一是資料稀疏性:在百萬級使用者與項目的場景下,使用者-項目互動矩陣的填充率通常不到 1%,導致相似度計算極不穩定。第二是冷啟動問題:對於全新使用者或全新項目,由於缺乏歷史互動,CF 完全無法產生有效推薦。這些限制推動了矩陣分解等更強大的方法的誕生。
三、矩陣分解與 Factorization Machines
2006 年的 Netflix Prize 競賽是推薦系統發展的分水嶺。Netflix 公開了一億筆電影評分資料,懸賞一百萬美元給能將推薦準確度提升 10% 的團隊。最終獲勝的方案核心正是矩陣分解(Matrix Factorization, MF)[1]。
MF 的數學框架極為優雅:將使用者-項目互動矩陣 R(維度 m×n)分解為兩個低秩矩陣的乘積——使用者隱因子矩陣 P(m×k)與項目隱因子矩陣 Q(n×k),其中 k 遠小於 m 和 n。每個使用者被表示為一個 k 維向量,每個項目同樣如此,而預測評分就是兩個向量的內積:
R ≈ P × Q^T
預測評分: r̂(u, i) = p_u · q_i = Σ(k) p_uk × q_ik
優化目標: min Σ(u,i∈observed) (r_ui - p_u · q_i)² + λ(||p_u||² + ||q_i||²)
MF 的關鍵洞見在於:這些隱因子(Latent Factor)會自動捕捉有意義的語義維度。例如在電影推薦中,某個維度可能對應「動作片 vs 文藝片」,另一個維度可能對應「主流商業 vs 獨立製片」。使用者和項目在這個隱因子空間中的位置關係,天然地編碼了偏好資訊。
Rendle 在 2010 年提出的 Factorization Machines(FM)[8]將矩陣分解的思想進一步泛化。FM 不僅處理使用者-項目互動,還能納入任意的輔助特徵(如使用者年齡、項目類別、上下文時間),並以分解的方式高效建模所有二階特徵交互:
FM 預測公式:
ŷ(x) = w_0 + Σ(i) w_i × x_i + Σ(i<j) <v_i, v_j> × x_i × x_j
其中 <v_i, v_j> = Σ(f=1 to k) v_if × v_jf
計算複雜度: O(kn) — 線性!
FM 的巧妙之處在於:它不直接學習 O(n²) 個交互參數,而是將每個特徵映射為一個 k 維向量,交互權重由向量內積隱式得出。這大幅降低了參數量,同時讓模型能在稀疏資料上泛化。FM 成為了後續深度學習推薦模型的重要理論基石[3]。
四、深度學習推薦模型:DeepFM、Wide&Deep、DIN
雖然 FM 優雅地解決了二階特徵交互問題,但真實世界的使用者行為往往涉及更複雜的高階交互模式。2016 年以後,深度學習開始全面進入推薦系統領域[6],以神經網路的非線性擬合能力突破 FM 的表達力上限。
Wide&Deep(Google, 2016)是最早將深度學習與傳統特徵工程結合的工業級推薦模型。Wide 部分是一個廣義線性模型,負責記憶(Memorization)——學習特徵的直接共現模式;Deep 部分是一個多層全連接網路,負責泛化(Generalization)——從稠密嵌入中發現新的特徵組合。兩者的輸出加權合併後送入 sigmoid 函數產生最終預測。
DeepFM[3]在 Wide&Deep 的基礎上做了關鍵改進:用 FM 層取代 Wide 部分的手動特徵交叉。FM 層和 Deep 層共享相同的特徵嵌入(Embedding),前者捕捉二階交互,後者捕捉高階交互,兩者端到端聯合訓練。這意味著 DeepFM完全不需要人工特徵工程,卻同時兼具 FM 的可解釋性與 DNN 的表達力。
| 模型 | 低階交互 | 高階交互 | 是否需要特徵工程 |
|---|---|---|---|
| Wide&Deep | Wide(線性) | Deep(DNN) | Wide 部分需要 |
| DeepFM[3] | FM 層 | DNN 層 | 完全不需要 |
| DCN | Cross Network | DNN 層 | 不需要 |
| DIN[4] | 注意力加權歷史 | DNN 層 | 不需要 |
DIN(Deep Interest Network)[4]由阿里巴巴團隊在 2018 年提出,帶來了另一個關鍵突破:使用者興趣是多元且動態的。傳統方法將使用者的所有歷史行為壓縮為一個固定向量,這在使用者興趣多樣化時會嚴重丟失資訊。DIN 引入了注意力機制,讓候選項目作為 Query,動態地對使用者歷史行為序列做加權——當候選是一件洋裝時,使用者過去瀏覽的服飾類項目獲得更高權重;當候選是一本書時,閱讀相關的歷史行為被放大。這種自適應的使用者表示讓 CTR 預測精度有了顯著提升。
五、YouTube 推薦系統:工業級架構解析
如果說學術研究定義了推薦系統的理論邊界,那麼 YouTube 的推薦架構[5]則定義了工業實踐的標準範式。2016 年,Covington 等人公開了 YouTube 推薦系統的核心設計,揭示了每天為超過十億用戶從數億影片中精選推薦的技術細節。
YouTube 的架構遵循漏斗式兩階段設計:Candidate Generation(候選生成)負責從數百萬影片中快速篩選出數百個候選,Ranking(精排)則對這些候選做精細化排序,選出最終呈現的數十個影片。
YouTube 推薦架構:
階段一:Candidate Generation(召回)
輸入: 使用者觀看歷史、搜尋歷史、人口統計
模型: 深度神經網路 → 使用者嵌入向量
檢索: 近似最近鄰(ANN)在影片嵌入空間中搜尋
輸出: ~數百個候選影片
階段二:Ranking(精排)
輸入: 候選影片 + 豐富特徵(觀看時長、新鮮度、頻道、語言...)
模型: 更深更寬的 DNN,預測期望觀看時長
輸出: 排序後的最終推薦清單
這個兩階段架構的精妙之處在於效率與精度的平衡。召回階段使用相對輕量的模型,但必須在毫秒級內掃描整個影片庫——這裡的關鍵技術是將推薦問題轉化為一個多分類問題,訓練完成後取出使用者嵌入和影片嵌入,利用近似最近鄰(如 Faiss、ScaNN)做高速檢索。精排階段則使用特徵更豐富、結構更複雜的模型,但只需處理召回階段篩選後的數百個候選。
值得注意的一個工程決策是:YouTube 的精排模型預測的不是點擊率,而是期望觀看時長。這避免了「標題黨」影片因高點擊率而被過度推薦的問題,引導模型關注真正能讓使用者停留的優質內容。這一設計思想對後續所有推薦系統的目標函數設計都產生了深遠影響[6]。台灣的短影音平台和串流服務在設計推薦系統時,也普遍採用類似的雙塔召回加精排的架構模式。
六、冷啟動問題與解決策略
冷啟動(Cold Start)是推薦系統最棘手的工程問題之一。當一個全新使用者註冊帳號、或一件全新商品上架時,系統缺乏足夠的互動歷史來進行個人化推薦[10]。在電商場景中,新品的前 72 小時是銷售的黃金視窗,若推薦系統無法在這段時間內有效曝光新品,將直接影響商品的生命週期價值。
冷啟動問題可分為三類:使用者冷啟動(新使用者無歷史行為)、項目冷啟動(新項目無互動記錄)、系統冷啟動(全新平台既無使用者也無項目資料)。針對不同類型,業界發展出了多種策略:
| 策略 | 適用場景 | 核心思路 |
|---|---|---|
| Content-based Filtering | 項目冷啟動 | 利用項目的內容特徵(文字、圖片、類別)計算相似度 |
| Hybrid Model | 使用者 + 項目冷啟動 | 結合 CF 與 Content-based,互補長短 |
| Meta-Learning | 使用者冷啟動 | 從少量互動快速適應,如 MAML-based 方法 |
| Cross-domain Transfer | 系統冷啟動 | 從相關領域遷移使用者偏好知識 |
| Exploration Strategy | 所有冷啟動 | Multi-Armed Bandit 平衡探索與利用 |
在實務中,最有效的冷啟動方案通常是混合策略。對新使用者,系統可以先展示基於人口統計(年齡、地區)和平台熱門榜的推薦,再透過使用者的前幾次點擊行為快速收斂個人化模型。對新項目,系統利用商品的標題文字、描述、圖片等內容特徵,透過預訓練的嵌入模型將新品映射到已有項目的語義空間中,找到最相似的已有項目來「借用」其互動模式。
近年來,大型語言模型(LLM)為冷啟動問題帶來了新的突破方向。透過對商品描述的深層語義理解,LLM 能夠在零互動數據的情況下推斷使用者偏好與商品特性之間的匹配關係,有效緩解資料稀疏性[9]。例如,利用 LLM 對新品描述進行語義解析,可以自動建立與既有商品的關聯圖譜,實現上架即可推薦。
七、圖神經網路在推薦系統的應用
傳統推薦模型將使用者和項目視為獨立的實體,僅透過互動矩陣建立聯繫。但在真實場景中,使用者與項目之間存在豐富的圖結構關係:使用者的社交網路、項目的知識圖譜、使用者-項目-屬性的異質圖等。圖神經網路(Graph Neural Network, GNN)為推薦系統提供了一種天然的方式來建模這些關係[7]。
在 GNN-based 推薦模型中,使用者和項目被表示為圖中的節點,它們的互動構成邊。GNN 透過訊息傳遞(Message Passing)機制在圖上傳播資訊:每個節點聚合其鄰居的表示來更新自身的嵌入。經過多層傳播後,每個節點的嵌入不僅包含自身資訊,還融入了多跳鄰域的結構資訊。
GNN 在推薦系統中的訊息傳遞:
使用者-項目二部圖:
User_A ──購買──→ Item_1
User_A ──瀏覽──→ Item_2
User_B ──購買──→ Item_1
User_B ──購買──→ Item_3
第 1 層: Item_1 的嵌入 ← 聚合(User_A, User_B) 的特徵
第 2 層: User_A 的嵌入 ← 聚合(Item_1(含 User_B 資訊), Item_2)
→ User_A 間接獲得了 User_B 的偏好資訊(Item_3)
代表性的模型包括 PinSage(Pinterest 的 GNN 推薦系統,處理超過 30 億節點的圖)、LightGCN(簡化了 GCN 的設計,移除非線性變換和特徵轉換,僅保留鄰域聚合,在推薦任務上反而效果更好)、以及 NGCF(Neural Graph Collaborative Filtering,將 CF 的信號顯式編碼在嵌入傳播過程中)。
GNN 在推薦系統中的優勢主要體現在三個方面[7]。第一,高階連接性:多層 GNN 能捕捉使用者之間的高階相似性,即使兩個使用者沒有直接的共同購買行為,也能透過多跳路徑發現潛在的偏好關聯。第二,側資訊整合:知識圖譜中的項目屬性關係(如品牌、材質、設計師)能自然地編碼為圖中的邊,豐富項目嵌入的語義。第三,冷啟動緩解:即使新項目缺乏互動數據,只要它在知識圖譜中與已有項目存在屬性關聯,GNN 就能透過圖傳播為其生成有意義的嵌入表示。
然而,GNN-based 推薦模型在工業部署中面臨顯著的可擴展性挑戰。完整的圖鄰域聚合在億級節點的場景下計算成本極高,因此業界普遍採用圖取樣(如 GraphSAGE 的鄰域取樣)、Mini-batch 訓練等策略來平衡效果與效率。
八、多目標優化:點擊率、轉換率與長期價值
在真實的推薦場景中,系統需要同時優化多個相互關聯甚至衝突的目標。電商平台不僅希望使用者點擊推薦的商品(CTR),更希望使用者完成購買(CVR),甚至希望推薦能提升使用者的長期留存率和終身價值(LTV)。這些目標之間的張力構成了多目標優化(Multi-Objective Optimization, MOO)的核心挑戰[10]。
最直覺的方式是將多個目標的加權和作為最終排序分數:
最終分數 = α × pCTR + β × pCVR + γ × 預估客單價 + δ × 內容品質分
典型權重設定(電商場景):
短期轉化: α=0.3, β=0.5, γ=0.15, δ=0.05
長期價值: α=0.2, β=0.3, γ=0.1, δ=0.4
然而,簡單的加權線性組合存在根本性的問題。第一,不同目標的尺度(Scale)和分布差異巨大,需要精細的歸一化處理。第二,權重的設定高度依賴人工經驗,且最優權重會隨時間和上下文動態變化。第三,更深層的問題是目標間的因果結構——使用者必須先看到商品、再點擊、再加入購物車、最後才購買,這是一個序列決策過程。
阿里巴巴的 ESMM(Entire Space Multi-Task Model)提出了一個優雅的解決方案:利用 pCTCVR = pCTR × pCVR 的因果分解,在全樣本空間上聯合訓練 CTR 和 CVR 兩個子任務。這解決了傳統 CVR 模型只能在點擊樣本上訓練導致的樣本選擇偏差問題。
更先進的方法包括 Multi-gate Mixture-of-Experts(MMoE):為每個任務設置獨立的 Gate 網路來動態選擇共享的 Expert 模組,讓不同任務能夠自適應地利用共享表示和任務特定表示。在此基礎上,PLE(Progressive Layered Extraction)進一步引入了任務特定 Expert 和漸進式的層間連接,更有效地平衡任務間的資訊共享與衝突。
在台灣電商的實踐中,多目標優化的一個關鍵考量是平台生態健康。過度優化短期 CTR 可能導致「標題黨」商品泛濫;過度優化 CVR 可能導致系統只推薦低價爆品而忽略長尾商品。成熟的推薦系統需要將多樣性(Diversity)、新穎性(Novelty)、公平性(Fairness)納入優化目標[10],確保推薦結果不僅對使用者有價值,對商家和平台也是可持續的。
九、結語:推薦系統的下一個範式
從 User-based CF 到矩陣分解[1],從 FM[8] 到 DeepFM[3],從 DIN[4] 到 GNN[7],推薦系統在過去二十年經歷了從統計方法到深度學習的質變。每一次技術跨越都伴隨著商業價值的指數級增長——更精準的推薦意味著更高的轉換率、更長的使用者停留時間、更健康的平台生態。
回顧技術演進的核心脈絡:
- 特徵交互的自動化:從手動特徵工程(Wide&Deep)到自動二階交互(FM / DeepFM[3])再到任意高階交互(DNN),模型逐漸接管了特徵工程師的工作
- 使用者建模的精細化:從固定向量表示到注意力加權的動態表示(DIN[4]),再到序列模型捕捉行為的時序演化
- 資訊來源的擴展:從純互動矩陣到融合內容特徵、社交關係、知識圖譜的多源異質資訊(GNN[7])
- 優化目標的多元化:從單一 CTR 到多目標聯合優化,再到涵蓋公平性、多樣性的可信賴推薦[10]
展望下一個範式,我們看到三個正在匯聚的趨勢。第一,大型語言模型作為推薦引擎:LLM 具備強大的語義理解能力和世界知識,能夠以自然語言理解使用者意圖、解釋推薦理由,並在對話中動態調整推薦策略。第二,生成式推薦(Generative Recommendation):不再從固定的候選集中檢索,而是直接生成使用者可能需要的內容描述或商品組合,打破傳統推薦的「既有庫存」限制。第三,因果推論與反事實推薦:從「使用者點擊了什麼」的相關性分析,轉向「推薦導致了什麼行為改變」的因果性分析,讓系統真正理解推薦的效果而非僅僅記錄表面相關。
對於台灣的電商平台與內容服務而言,推薦系統不僅是技術問題,更是組織能力問題。建構一個有效的推薦系統需要資料工程、機器學習、前端互動設計、A/B 測試基礎設施、以及對業務指標的深刻理解。超智諮詢在協助客戶落地推薦系統時,始終強調「端到端思維」——從資料採集、特徵工程、模型訓練到線上服務,每個環節的品質都決定了最終推薦效果的上限。技術在進步,但核心原則不變:理解使用者、尊重使用者、為使用者創造真正的價值。