概述
- 解决信息过载问题,相对应的还有搜索引擎
- 搜索引擎:有明确目的
- 推荐系统:没有明确目的,对长尾效应有所缓解
- 基于推荐系统可以做到千人千面以及相关条目的推荐
- 一般需要经过召回、排序。
相关学者
- Yehuda Koren:Netflix Prize的冠军队成员
- Hao Ma:社会化推荐系统
- Julian McAuley:社交网络、数据挖掘
- 郭贵冰:推荐系统开源项目LibRec,国内推荐系统大佬
- Hao Wang:深度学习技术提升推荐系统
- 何向南:深度学习技术提升推荐系统
- Robin Burke:混合推荐
- 项亮:推荐系统实践
- 谢幸:解释性推荐系统
- jiliang tang:社交网络分析提升推荐
- 赵鑫:自然语言处理技术提升推荐
- 石川:异质信息网络上的推荐
- 吴乐:结合社交信息的推荐
- 王鸿伟:图机器学习,结合知识图谱进行推荐
相关会议
相关综述
数据集
- 电影:评分信息、用户人口统计学特征以及电影的描述特征
- 社会化推荐:规模小,包含用户对电影评分信息,同时包含用户间的新人社交信息
- Douban:规模适中,包含用户对电影评分信息,同时包含用户间的新人社交信息
- Epinions:规模大,包含用户对电影评分信息,同时包含用户间的新人社交信息
- Yelp:数据集大,适用于所有的推荐任务,包含评价评分、用户信息、商品信息、建议信息
- KB4Rec:适合推荐系统和知识图谱结合的需求,将推荐数据中的物品链接到知识图谱中的实体,为推荐系统的物品提供蕴含丰富语义的结构化信息
分类
- 召回层:传统、机器学习、深度学习
- 传统:基于传统的推荐系统理论所涉及到的算法,例如计算用户之间相似度、物品之间相似度等。都可以归属到协同过滤算法,有基于用户的协同过滤、基于物品的协同过滤。基于Es等搜索引擎的检索召回。
- 机器学习:NMF(Nonnegative Matrix Factor,非负矩阵分解),LFM(Latent Factor Model,基于潜在隐因子模型),FTRL(Follow The Regularized Leader),PersonalRank,BM25、N-gram等
- 深度学习:DNN、Embedding等方法
- 排序层:一般采用点击率预估方法,并将预估得到的概率排序取top-N。机器学习、深度学习
- 机器学习:可以分为两类、线性模型和树模型
- 线性模型主要使用逻辑回归
- 树模型常用的随机森林、Boosting、GBDT、XGBOOST、LGB
- 但是在使用的时候经常是两种的结合,比如GBDT+LR
- 深度学习:出于大量数据的出现,逐步成为主流方式,常见DeepFM和xDeepFM。DeepFM也就是深度模型和因子分解机结合使用,xDeepFM主要是对DeepFM中的DCn模型的缺点进行改进。
- 机器学习:可以分为两类、线性模型和树模型
存在问题
- 冷启动:新用户或者新商品
- 探索和利用问题:已知用户偏好,如何确定最合理的推荐方式
- 大部分推荐其感兴趣Exploit
- 小部分试探新的兴趣Explore
- 如何平衡
- 安全问题:推荐不靠谱或者收集到不靠谱的脏数据
- 隐私问题:用户的个人信息等隐私数据的保护机制
- 长尾问题或者说是马太效应,热门产品越来越热门,新产品一直没有办法被推荐
方向
- 可解释性:基于知识图谱、模型无关的可解释性推荐框架、结合生成模型进行对话式推荐
- 结果的多样性和公平性:
- 强化学习:推荐系统看做Agent,用户看做environment,商品的推荐看做顺序决策问题。Agent每一次排序选择看做一次试错,用户的反馈,点击,成交等作为从环境中获取的奖赏。