推选大模子也可生成式白丝 jk,况兼初度在国产昇腾 NPU 上到手部署!
在信息爆炸时间,推选系统已成为生计中不成或缺的一部分。Meta 伊始冷落了生成式推选范式 HSTU,将推选参数推广至万亿级别,获得权贵截止。
探索进程中还有哪些告诫与发现?最新公开共享来了。
禀报亮点包括:
归来推选范式发展历程,指出具备推广定律的生成式推选范式是改日趋势;
复现并商讨不同架构的生成式推选模子过头推广定律;通过消融实验和参数分析,解析 HSTU 的推广定律开首,并赋予 SASRec 以可推广性;
考据 HSTU 在复杂场景和排序任务中的进展及推广性;
团队预计并归来改日商讨标的。
具备推广定律的生成式推选范式正在成为改日趋势
如图 1 所示,推选系统的发展趋势是慢慢减少敌手工瞎想特征工程和模子结构的依赖。在深度学习兴起之前,受限于狡计资源,东谈主们倾向于使用手工瞎想的特征和毛糙模子(图 1A)。
跟着深度学习的发展,商讨者专注于复杂模子的瞎想,以更好地拟合用户偏好,并擢升对 GPU 并行狡计的欺诈率(图 1B)。
然而,跟着深度学习才略的瓶颈,特征工程再次受到保重(图 1C)。
如今,大言语模子推广定律的到手启发了推选范围的商讨者。推广定律描写了模子性能与关节野心(如参数范围、数据集范围和安稳资源)之间的幂律关系。通过加多模子深度和宽度,并结合宽广数据,不错擢升推选效果(图 1D),这种圭臬被称为推选大模子。
近期,HSTU 等生成式推选框架在此标的获得了权贵截止,考据了推选范围的推广定律,激勉了生成式推选大模子商讨的怡悦。团队觉得,生成式推选大模子正在成为颠覆现时推选系统的下一个新范式。
在此配景下,探索哪些模子简直具备可推广性,解析其到手应用推广定律的原因,以及若何欺诈这些限定擢升推选效果,已成为现时推选系统范围的热点课题。
基于不同架构的生成式推选大模子推广性分析
为了评估生成式推选大模子在不同架构下的推广性,团队对比了 HSTU、Llama、GPT 和 SASRec 四种基于 Transformer 的架构。
在三个公开数据集上,通过不同凝视力模块数目下的性能进展进行分析(见表 1)。截止败露白丝 jk,当模子参数较小时,各架构进展相同,且最优架构因数据集而异。
然而,跟着参数推广,HSTU 和 Llama 的性能权贵擢升,而 GPT 和 SASRec 的推广性不及。尽管 GPT 在其他范围进展讲究,但在推选任务上未达预期。团队觉得,这是因为 GPT 和 SASRec 的架构缺少专为推选任务瞎想的关节组件,无法有用欺诈推广定律。
生成式推选模子的可推广性开首分析
为了探究 HSTU 等生成式推选模子的可推广性开首,团队进行了消融实验,辩认去除了 HSTU 中的关节组件:相对凝视力偏移(RAB)、SiLU 激活函数,以及特征交叉机制。
实验截止(见表 2)败露,单一模块的缺失并未权贵影响模子的推广性,但 RAB 的移除导致性能赫然下落,标明其关节作用。
为了进一步分析赋予模子推广定律的身分,团队比较了 SASRec 与推广性讲究的 HSTU 和 Llama 的区别,发现主要相反在于 RAB 和凝视力模块内的残差伙同形势。
为考据这些相反是否为推广性的关节,团队为 SASRec 引入了 HSTU 的 RAB,并改革其凝视力模块的竣事形势。
实验截止(见表 3)败露,单独添加 RAB 或修改残差伙同并未权贵改善 SASRec 的推广性。然而,当同期修改两个组件后,SASRec 展现出讲究的推广性。这标明,残差伙同模式与 RAB 的结合,为传统推选模子赋予了推广性,为改日推选系统的推广性探索提供了紧迫启示。
生成式推选模子在复杂场景和排序任务中的进展复杂场景中的进展
HSTU 在多域、多行径和赞成信息等复杂场景中进展出色。以多域为例,HSTU 在 AMZ-MD 的四个域中永久优于基线模子 SASRec 和 C2DSR(见表 4)。
与单域孤独安稳的 HSTU-single 比较,多域长入安稳的 HSTU 进展更佳,讲明注解了多域长入建模的上风。表 5 败露,HSTU 在多域行径数据上的推广性权贵,尤其在范围较小的场景如 Digital Music 和 Video Games 上。这标明 HSTU 在处分冷驱动问题上具有后劲。
在排序任务中的进展
排序是推选系统中紧迫的一环,团队深刻琢磨了生成式推选模子在排序任务中的有用性和推广性。正如表 6 所示,生成式推选大模子在性能上权贵优于 DIN 等传统推选模子。尽管在小范围模子下,Llama 的进展优于 HSTU,但 HSTU 在推广性方面更具上风,而 Llama 在推广性上显得不及。
团队还商讨了负采样率和评分收罗架构对排序任务的影响,并进行了全面分析。此外,还琢磨了缩减 embedding 维度对性能的影响。减弱 embedding 维度(表 7)擢升了少许据集 ML-1M 和 AMZ-Books 的性能,但在大数据集 ML-20M 上则有所下落。这标明,推选大模子的推广定律不仅受垂直推广(凝视力模块数目)影响,也受水平范围(embedding 维度)影响。
改日标的和归来
在技巧禀报中,团队指出了数据工程、Tokenizer、安稳推理遵循等推选大模子改日商讨的后劲标的,这些标的将匡助处分现时的挑战并拓宽应用场景。
论文纠合 : https://arxiv.org/abs/2412.00714
主页纠合 : https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models
一键三连「点赞」「转发」「预防心」
宽宥在挑剔区留住你的思法!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿执行
附上论文 / 情状主页纠合,以及磋磨形势哦
咱们会(尽量)实时回报你
� � 点亮星标 � �
两性故事科技前沿进展逐日见白丝 jk