1.假如我们是做商品推荐,假如商品频繁上新,我们的物品库会是一个动态的,Embedding技术如何应对?
2.为什么深度学习的结构特点不利于稀疏特征向量的处理呢?
3.采用Node2Vec算法时,当前节点v到下一个节点x的概率在经过进出参数和返回参数调整后是否需要做概率的归一化操作,使节点v到所有下一节点的概率为1呢?
4.在一个高并发的推荐服务集群中,负载均衡的策略有哪些?
5.如果基于兴趣标签做召回,同一个物品,有多个标签,而用户也计算了出了多个兴趣标签,那么怎么做用户的多兴趣标签与物品的最优匹配呢?还有物品的标签有多层,那么怎么利用上一层的标签呢?
6.关于EGES的训练,试了下,由于电商领域商品维度非常大,即使hash后也很大,这导致训练非常慢,这个一般怎么解决啊?
7.对于局部敏感哈希算法,b是0到w间的一个均匀分布随机变量,避免分桶边界固化。这是什么意思呢?是说可以通过调整b来形成另外一个一个hash函数?
8.想问下在线服务是否会涉及一些推荐的机制策略?比如流量控制,多样性,疲劳度优化等等?
9.对于双塔模型来说,把物品侧的 Embedding 和用户侧的 Embedding 存起来,就可以进行线上服务了。但如果把一些场景特征,比如当前时间、当前地点加到用户侧或者物品侧,还能用这种方式进行模型服务吗?为什么?
10.DeepFM的图示中,输入均是类别型特征的one-hot或embedding,请问是因为特征交叉仅适用于类别型特征的交叉吗?
11.对于DIN和DIEN这种包含N个历史商品的模型,如果用户历史商品数小于N,那么这些位置应该如何去填充呢?如果用户商品数大于N,是否是选择最近的N个商品呢?
12.离线 Replay 这个评估方法,跟我们之前讲过的增强学习有什么相似之处吗?它们两个还有什么更深层次的关系吗?
13.对于P-R 曲线和 ROC 曲线,它们的优缺点分别是什么呢?在正负样本分布极不均衡的情况下,哪个曲线的表现会更稳定、更权威一点?
14.使用 GraphSAGE 是为了生成每个节点的 Embedding,那我们有没有办法在 GraphSAGE 中加入物品的其他特征,如物品的价格、种类等等特征,让最终生成的物品 Embedding 中包含这些物品特征的信息呢?
15.当前模型在考虑用户历史行为信息时,只考虑了用户的点击行为,能否将特定的曝光行为也考虑进去呢?