HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

标签系统是推荐系统产品经理的基本功,属于非算法技术的模块

2020-08-07

标签系统是推荐系统产品经理的基本功,属于非算法技术的模块,故此算“文”的部分。上图是视频的标签系统的业务架构逻辑。

此标签体系主要是针对视频,其中业务包含长视频和短视频,长视频:基于最细粒度标签向量,人工打权重,用向量相似计算节目相似度;短视频:基于三级标签,利用产品运营策略、规则、算法计算相似度。利用NLP从标题中提取关键词补充三级标签,建立倒查索引表,实时更新相似度。

标签系统主要分,标签的数据结构,标签的数据类型,标签的数据来源,标签的系统功能。

数据结构(英语:data structure)是计算机中存储、组织数据的方式。

标签的数据结构一般分为三级,一级,二级表示标签的功能;三级表示标签的具体信息;这种数据结构来自按业务需求进行的梳理。梳理标签分类时,尽可能按照MECE原则,相互独立,完全穷尽。每一个子集的组合都能覆盖到父集所有数据。标签深度控制在三、四级比较合适,方便管理,到了第四级就是具体的标签实例。

我们的视频标签数据结构是分为三级,例如,人口属性——性别-性别(男)这样的数据结构来梳理的。

数据类型(英语:Data type),又称数据型态、数据型别,是用来约束数据的解释。在编程语言中,常见的数据类型包括原始类型(如:整数、浮点数或字符)、多元组、记录单元、代数数据类型、抽象数据类型、参考类型、类以及函数类型。数据类型描述了数值的表示法、解释和结构,并以算法操作,或是对象在存储器中的存储区,或者其它存储设备。

在我们的标签体系中一般是指产品对应具体的业务内容,视频的产品经理一般会按照长视频,例如:短视频的变迁数据类型会分为,分类标签,栏目标签,内容标签等。分类标签是指短视频的类别,例如属于教育、音乐还是舞蹈等等,栏目标签是指某个短视频栏目,然后是具体的内容。

那么标签的数据来源是怎么来的呢?一方面是手工人工对内容进行梳理,标签化。另外一方面算法对视频标题内容和视频简介进行分词理解。

文二:用户画像

用户画像是由N维度的用户标签生成的,用户画像将推荐系统设计的焦点放在目标用户的动机和行为上,从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表,根据自己的需求设计产品,导致无法抓住实际用户的需求。往往对产品做了很多功能的升级,用户却觉得体验变差了。

在大数据领域,用户画像的作用远不止于此。用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标签化以后,我们对用户就有了一个直观的认识。

同时计算机也能够理解用户,将用户的行为信息用于个性化推荐、个性化搜索、广告精准投放和智能营销等领域。

为视频做推荐系统,需要了解视频用户的特征,这些特征传统方法可以通过特征工程来做,但是有了AI后,可以用神经网络自动提取特征。如下图:


我们已经落地的视频用户的标签体系主要分为基础标签,包含设备的型号和设备的LBS位置等,以及用户的家庭结构还有核心目的预测用户的需求的标签,例如:是否已婚、是否有房、从事的行业等等。


我们视频类产品用户的标签主要来自于业务系统,例如用户用过手机看视频,用户通过电视看视频,用户看广告并点击了某类型的广告,用户在第三方平台的数据等等。

然后我们将用户数据ETL进入数仓,同时也会利用AI的工具例如TensorFlow等生产出新的数据,进而形成用户画像,然后封装好供推荐系统和内容运营人员利用。

武一:懂大数据和推荐系统的关系

推荐系统是帮助人们解决信息获取问题的有效工具,对互联网产品而言用户数和信息总量通常都是巨大的,每天收集到的用户在产品上的交互行为也是海量的,这些大量的数据收集处理就涉及到大数据相关技术,所以推荐系统与大数据有天然的联系,要落地推荐系统往往需要企业具备一套完善的大数据分析平台。

推荐系统与大数据平台的依赖关系如下图。

相关推荐