全部问题问题热门未解答所有标签标签收藏收藏我要提问

为什么wide&deep模型用ftrl和adagrad两种优化方法

统计/机器学习推荐系统人工神经网络浏览次数：5439 分享

二维码

手机扫描二维码

案例分析面试常见题？

在论文里，wide部分使用ftrl优化，deep部分使用adagrad优化，请问这样设计的动机是什么。

nobodyoo1 2019-07-11 18:08

1个回答

1.一片google论文说wide模型可能有billion的feature，FTRL+L1norm可以让参数w稀疏，并提供不错的结果。稀疏性应该是一个动机。

2. 可能Google的FTRL的实现适合稀疏数据，而Adagrad每个参数都要记录learning rate，内存消耗太大。

3. 论文里说wide负责memorize/overfitting，deep负责generalization。一个可能的动机是FTRL更容易overtting。

稀疏应该是主要原因。

SofaSofa数据科学社区 DS面试题库 DS面经

Zealing 2019-07-17 20:03

相关讨论

推荐系统中常用的表示相似或者距离的方法有哪些？

推荐系统里的ALS是什么意思？

余弦相似和内积的意义？

推荐系统算法里的cold start是什么意思？

怎么给推荐结果增加多样性和随机性？

pointwise和pairwise推荐排序算法的区别是什么？

两个向量的余弦距离大于1？

Jaccard相似或者Jaccard距离是怎么计算的？

协同过滤的数据预处理问题

怎么理解推荐系统中的NDCG？

随便看看

对连续特征一定要进行分箱处理吗？

推荐系统中的召回(recall)是什么意思？

线性可分是什么意思？

单一变量下的异常检测该怎么做？

如何检验两个样本是同分布的？