Embedding技术在推荐场景实践

前言

深度学习是当前热门课题，核心流程包含：数据表征、数据录入与建模、基于结果调优。“万丈高楼平地起”，如果数据根基不稳，那么很难达成理想结果。

本文从这个问题切入，和大家交流如何用Embedding表征对象，以及如何在业务落地。

万物皆可Embedding

Embedding简史

Embedding最早由Hinton在1986年提出，直到2013年word2vec的推出，让一切皆可embedding，并迅速应用在特征表达，画像构建召回排序业务场景

在正式接触Embedding之前，我们先了解一下One-Hot编码表征对象方法：

浅粉红	粉红	猩红	One-Hot编码
1	0	0	浅粉红：[1,0,0]
0	1	0	粉红：[0,1,0]
0	0	1	猩红：[0,0,1]

One-Hot编码优点是简单实现，但是无法表达更多有意义的含义（比如范例中的色差）。每多一种色彩，那么维度就多一层，在成功表征对象的同时，引发了新的多维度问题（维度灾难）

如何解决上述问题呢？有请Embedding主角登场！

Embedding定义

Embedding 字面理解是“嵌入”，实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本在语义空间的关系。

通俗理解：用特定的数字表达一个“对象”object，并且保留原样本的语义（比如色差、距离） 。

同样借助色彩表征例子来理解概念：

颜色	RGB格式
浅粉红	[255, 182, 193]
粉红	[255, 192, 203]
猩红	[220, 20, 60]

通过One-Hot和Embedding对比来加深理解：

Embedding映射后的数据，相较于One-hot更加稠密
One-Hot每一个对象独立标识，那么存在维度灾难
One-Hot只能标识一个对象，但是无法像embedding赋予对象更多寓意表达（相似度、距离、色差等）

Embedding原理

文本：“Embedding技术对深度学习推荐系统的重要性”

目标：将里面的每一个分词，都可以用向量数字表达

模型：Embedding有两种建模方式CBOW（给定上下文，预测中心词）和Skip-gram（给定输入词，预测上下文），这里选择Skip-gram作介绍

主要分为三个步骤：

数据预处理，去掉“对”、“的”等无意义的语气助词
滑窗获取素材，滑窗定为3，那么每次将邻近3个词做为一组素材(eg：Embedding、技术、深度学习)，同时将中心词(eg：技术)作为输入，另外词（Embedding、深度学习）作为输出，以此类推
数字向量表达对象，有了训练素材集合，再加上借助Item2Vec模型，就可以水到渠成得到每个词的向量化表达了

Embedding技术在业务实践

实践思路

我们将站台用户点击序列拼接得到长文本，输入到item2Vec建模，得到每个物件的Embedding向量值Post_Embedding向量表达。再将用户所看到Post_Embeddings值整合，就得到User_Embedding。

数据分析

基础信息比对：

深度信息比对：

结论：用户实际看物件与Embedding推荐集合，存在深度相关性，大概率会被用户点击!

业务场景

基于用户浏览行为，每天定时为用户推送 “喜好” 笋盘集

注：图源安居客（侵删），业务场景与其类似，仅供参考

实践步骤

1. 将站台所有用户的点击序列串连

用户id	点击序列
A	1，2，3，4
B	2，3，6，7
C	3，4，7，6

聚合点击序列得到click_order_str：1，2，3，4，2，3，6，7，3，4，7，6..

2. 点击序列集合导入到item2vec中

model = word2vec.fit(click_order_str)

3. 得到每个物件的embedding

4. 通过物件集求embedding之和，得到人的embedding

result = scores_table.select('userId','emb').rdd.map(lambda x: (x[0], x[1])) .reduceByKey(lambda a, b:[a[i] + b[i] for i in range(len(a))]).collect()

5. 以人的embedding为参数，得到相似度最高前N个物件

syms = model.findSynonyms(row[1], 150)

6. 对相似集业务过滤，推荐给对应用户

业务过滤包含不限于：用户已看、价差较大、物件质量较低等，在推送给用户前剔除

我另外整理了简版demo（包含代码和测试数据）便于大家学习

业务成效

在原有ALS基础上，我们融合了Embedding集合，最终物件点阅数显著提升 !

Embedding进阶

如果我们的业务实际素材不够丰富，或者期望更多的训练素材，大家可使用随机游走得到“模拟”训练集。

基于Graph-Embedding的随机游走：Deep Walk

除了串联已有的点击序列，作为数据建模，还可以利用图结构，扩大我们的数据集，以得到更丰富的embedding向量表达。

我们将被点击到的已知物件ID取出，再结合用户点击序列顺序，进行如图b所示随机游走，得到图c更为丰富的点击序列。同样借助item2vec建模，得到数据集。

结论：用Deep Walk在租售场景应用，得到的结果不理想，体现在用户已看物件和推荐物件落差极大，因此不做更进一步探究！

总结

目前我们已经学习了ALS、Embeding两种推荐算法，并在业务落地应用，这些都是多路召回的不同策略。

展开阅读全文

页面更新：2024-04-15

标签：向量表征物件建模序列深度场景对象业务数据用户技术

1 2 3 4 5

日产从0-50万支甘肃新能源电池产业呈现井喷发展

“保姆式”招商引资做大做强产业链紧贴国家“双碳”目标，金昌市培育壮大新能源和新能源电池千亿级产业集群，新能源电池产业实现从无到有、串点成线、扩链成网、产业集群的转变。金昌国家级经济技术开发区作为河西走廊

企业如何自主训练AI？大数据行业首个大模型应用创新场景推出

以ChatGPT为代表的超大语言模型的迅速应用，加速了AI普及，那么企业如何训练适用性高的AI？5月26日，在“向星力？未来数据技术峰会（FDTC）”上，星环科技推出首个行业大模型应用创新场景，通过相应的工具，帮助企业构建自有的行业大模型

一加再降价，势必要和Redmi硬磕到底，卢总还是更胜一筹！

618还没到，大家都能感受到浓浓的火药味，作为手机行业的购物盛典，手机厂商绝对不会放过这么一个机会，无论是苹果、华为、还是小米OPPO都开始了自己的销售策略，小米的好多手机也选择了降价促销，比如说小米13也是首降300元，小

LCD党狂喜，红米Note12T Pro来了，重铸LCD荣光

不少坚守LCD的用户可能还在纠结买啥新机，或者要不要考虑买Note11T Pro，根据最新消息，LCD党今年依然没有被抛弃，红米将推出新机Note12T Pro，搭载LCD屏幕+天玑8200处理器，小米官方人员表示：重铸LCD荣光。从配置来看，红米Note12T

“海外媒体数谷行”- 外媒：贵州在大数据领域的发展令人印象深刻

漫步在贵州省平塘县的天文小镇，随“中国天眼（FAST）”一起遥望百亿光年外的点点星河；驶入平塘特大桥，感受“世界最高混凝土桥塔”的巍峨雄其；踏上贵阳大数据科创城，体会“东数西算”坚实底座的澎湃动能；走进南明智能制造产业园

毕业想进入互联网工作，这个不限专业且高薪的神仙岗位了解一下

最近几年互联网行业已经成为就业的主力，招聘需求多，薪资福利好，当其他行业毕业5年还月薪5000为生活所困的时候，互联网人可能已经攒够钱买房买车了归其原因，就在于互联网跟上了时代的发展，就像小米的雷军说的“站在风口，猪都

债务追收的黑暗面：湖南永雄如何创建了一项追踪专利并逃避法律

5月25日，湖南永雄债务催收公司因被安徽警方针对跨境执行而成为中国头条新闻。该公司发布了一份令人震惊的声明，宣布暂停业务，引发了互联网上的大量嘲笑。然而，这不是一个笑话，因为该公司以采用恐吓和威胁手段来收回债务而

600光年外的“超级地球”：均温仅22℃，人类移民梦真的能实现？

自上世纪90年代以来，人类就提出了“第二地球”这个概念。迄今为止，人类已经发现了数十颗“第二地球”。这些“第二地球”鳞次栉比，给大家带来了无尽的幻想。今天要讲到的，就是一颗名为开普勒22b的“第二地球”。据说这颗

能源革新与数字经济加速融合，以数字化技术推动工业减污降碳

南方财经全媒体记者彭敏静珠海报道“我国拥有全球最完备的工业体系，工业产值占世界30%左右，拥有41个工业门类。粗钢、煤炭、电池等200种产品产量世界第一。”5月27日，中国科学院过程工程研究所研究员曹宏斌在亚洲低碳技

第二个“郑州”或将出现，富士康投资30亿？连华为也在这里落户

文|王雅丽编辑|媸尤在阅读此文前，诚邀您点击一下“关注”，既方便您进行讨论与分享，又给您带来不一样的参与感，感谢您的支持。这段时间有个消息成为了洛阳市民热议的话题，就是富士康集团在洛阳市吉利区投资了30亿的设备制造

柏睿数据董事长、首席科学家刘睿民：关键技术标准引领构建数字产业生态

5月26日，2023中国国际大数据产业博览会在贵阳开幕。会议期间，来贵阳参加本次盛会的部分嘉宾接受了贵阳日报融媒体记者的专访。嘉宾们围绕“数实相融算启未来”的年度主题，就数据要素流通、数据应用场景、智慧文旅产业等

收入和教育水平较高的人更爱用ChatGPT

一项来自皮尤研究中心（Pew Research Center）的新研究发现，博士学位的成人中有八成听说过很多(32%)或者一些(47%)关于这个人工智能程序,而持有学士学位的则有71%这样说。但有部分大专教育的人(59%)则说他们听说过。相比之

圆满落幕！2023数博会呈现四大特点

5月28日下午，2023中国国际大数据产业博览会闭幕式新闻发布会在贵阳召开，记者从会上获悉，本届数博会主要特点体现在四个方面。一、突出国际化，品牌影响持续提升。随着数博会品牌吸引力的持续扩大，越来越多的国际友人和全球

2023中关村国际技术交易大会将举办26场技术交易主题活动

北京青年报记者了解到，中关村国际技术交易大会将在本届中关村论坛期间举办26场技术交易主题活动，并将发布《百项新技术新产品榜单》和《百项国际技术交易创新项目榜单》，并将优选“十大最具影响力新技术新产品”和“十大

这也......太聪明了！中关村论坛上的“智慧”生活-

全球最大的空管自动化系统、一键开关的地铁站……在2023中关村论坛展览（科博会）上，展示了多项民航、地铁、城市等领域的智慧化应用，智慧空管、智慧车站、智慧城市正在为人们带来更多人性化和安全、舒适的生活体验。在中国

上滑加载更多 ↓

Embedding技术在推荐场景实践

日产从0-50万支甘肃新能源电池产业呈现井喷发展

企业如何自主训练AI？大数据行业首个大模型应用创新场景推出

一加再降价，势必要和Redmi硬磕到底，卢总还是更胜一筹！

LCD党狂喜，红米Note12T Pro来了，重铸LCD荣光

“海外媒体数谷行”- 外媒：贵州在大数据领域的发展令人印象深刻

毕业想进入互联网工作，这个不限专业且高薪的神仙岗位了解一下

债务追收的黑暗面：湖南永雄如何创建了一项追踪专利并逃避法律

600光年外的“超级地球”：均温仅22℃，人类移民梦真的能实现？

能源革新与数字经济加速融合，以数字化技术推动工业减污降碳

第二个“郑州”或将出现，富士康投资30亿？连华为也在这里落户

柏睿数据董事长、首席科学家刘睿民：关键技术标准引领构建数字产业生态

收入和教育水平较高的人更爱用ChatGPT

圆满落幕！2023数博会呈现四大特点

2023中关村国际技术交易大会将举办26场技术交易主题活动

这也......太聪明了！中关村论坛上的“智慧”生活-

企业如何自主训练AI？大数据行业首个大模型应用创新场景

“海外媒体数谷行”- 外媒：贵州在大数据领域的发展令人

能源革新与数字经济加速融合，以数字化技术推动工业减污

柏睿数据董事长、首席科学家刘睿民：关键技术标准引领

2023中关村国际技术交易大会将举办26场技术交易主题活

中国工程院院士王沙飞：发展关键技术，让低空资源“敢用、

经济日报携手京东发布数据-六一临近儿童产品走俏

从1.77万亿元到4.78万亿元全国技术合同成交额4年增长

消费动力强劲年内快递业务量同比增长17.0%

海外 - 轮胎制造商“大撤退”，米其林宣布出售在俄罗斯