在论文里,wide部分使用ftrl优化,deep部分使用adagrad优化,请问这样设计的动机是什么。
1个回答
1.一片google论文说wide模型可能有billion的feature,FTRL+L1norm可以让参数w稀疏,并提供不错的结果。稀疏性应该是一个动机。
2. 可能Google的FTRL的实现适合稀疏数据,而Adagrad每个参数都要记录learning rate,内存消耗太大。
3. 论文里说wide负责memorize/overfitting,deep负责generalization。一个可能的动机是FTRL更容易overtting。
稀疏应该是主要原因。
SofaSofa数据科学社区DS面试题库 DS面经