留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于价值分组与偏好习惯的电视用户观看行为分析方法

易鑫睿 陈昊 兰金明 祝纯浩

引用本文:
Citation:

基于价值分组与偏好习惯的电视用户观看行为分析方法

    通讯作者: 陈昊; 
  • 中图分类号: TP399

An Analysis Method of TV User Viewing Behavior Based on Value Grouping and Preference Habit

    Corresponding author: Hao CHEN
  • CLC number: TP399

  • 摘要: 针对个性化推荐系统中用户行为分析这一重要环节,本文以用户价值和偏好习惯为切入点,通过提取用户历史记录中的隐式信息,提出了一种新的电视用户观看行为分析方法。提取用户整体平均操作频次、近期平均操作频次、操作频次变化比率、最近一次操作时间间隔作为价值模型指标,根据特征指标提出包括忠诚、新生、流失等8类不同用户价值群体分类结果;将节目划分为12类,构建基于活跃度和稳定度的用户偏好习惯特征矩阵,将用户偏好习惯分为4个簇类,对用户偏好进行量化与分析。通过对1 025位用户产生的361 459条播放记录数据进行实验,结果表明该方法能有效对任意电视用户观看行为进行分析,提高了偏好分析结果的准确性。
  • 图 1  基于价值分组和偏好习惯的用户行为分析方法框图

    图 2  电视用户偏好习惯类型折线图

    图 3  同类偏好习惯用户的特征指标折线图

    图 4  1 005用户观看行为分析结果数据

    图 5  偏好习惯准确率对比结果

    表 1  用户价值分组特征指标数据

    用户价值类别TFrffratioR
    均值标准差均值标准差均值标准差均值标准差
    Ⅰ类用户 7.395 2 4.607 8 8.500 4 5.923 2 123.432 5 60.487 7 0.003 4 0.058 5
    Ⅱ类用户 7.855 8 4.526 8 6.886 1 5.320 6 88.816 9 39.169 5 2.661 5 2.425 6
    Ⅲ类用户 3.004 6 0.454 1 2.465 5 1.400 2 82.907 8 48.069 3 2.254 2 2.589 2
    Ⅳ类用户 3.304 6 2.395 2 1.740 7 2.400 5 74.701 0 114.678 5 6.305 6 6.228 1
    Ⅴ类用户 0.457 3 0.477 9 1.725 1 1.872 1 433.849 3 126.682 2 3.649 1 4.112 2
    Ⅵ类用户 1.454 1 0.392 2 1.194 2 0.806 3 79.955 6 45.514 6 2.921 0 3.696 3
    Ⅶ类用户 0.483 7 0.275 1 0.640 1 0.549 8 127.393 8 75.902 9 5.508 4 4.369 2
    Ⅷ类用户 0.518 1 0.756 2 0 0 0 0 41.390 4 21.242 1
    下载: 导出CSV

    表 2  用户价值分组类别

    类别代号类别名称类别代号类别名称
    Ⅰ类用户忠诚用户Ⅴ类用户新生用户
    Ⅱ类用户重要用户Ⅵ类用户潜在用户
    Ⅲ类用户一般用户Ⅶ类用户挽留用户
    Ⅳ类用户保持用户Ⅷ类用户流失用户
    下载: 导出CSV

    表 3  电视剧类偏好习惯指标

    偏好习惯mtre_mtφR
    均值标准差均值标准差均值标准差均值标准差
    V1 263.05 111.92 347.97 158.79 148.29 76.11 0.56 1.12
    V2 14.29 18.56 57.83 77.1 439.67 121.96 4.94 4.8
    V3 74.56 56.51 88.44 55.77 147.74 63.79 1.91 2.93
    V4 21.84 30.07 5.98 10.85 20.3 29.45 28.25 30.05
    下载: 导出CSV

    表 4  少儿类偏好习惯指标

    偏好习惯mtre_mtφR
    均值标准差均值标准差均值标准差均值标准差
    V1 30.67 66.49 49.17 87.31 201.18 73.84 4.10 3.99
    V2 4.00 8.64 20.38 40.46 556.22 76.43 7.71 4.51
    V3 15.38 35.02 4.10 12.37 17.54 30.60 20.17 13.87
    V4 0.82 2.87 0 0 0 0 83.54 14.09
    下载: 导出CSV

    表 5  戏曲类偏好习惯指标

    偏好习惯mtre_mtφR
    均值标准差均值标准差均值标准差均值标准差
    V1 3.96 5.58 12.7 19.00 312.75 71.86 7.07 5.65
    V2 1.89 6.39 9.64 29.76 588.54 49.48 6.26 5.21
    V3 1.50 3.39 0.30 1.84 5.93 23.47 36.99 15.79
    V4 0.04 0.29 0 0 0 0 91.00 4.39
    下载: 导出CSV

    表 6  用户偏好习惯类别

    类别代号活跃度稳定度
    V1
    V2
    V3
    V4
    下载: 导出CSV

    表 7  top-N推荐结果准确性

    N12345678
    AS-UPA0.632 20.650 40.677 30.698 90.713 50.698 20.671 20.638 6
    文献[10]0.535 40.610 00.658 30.683 70.696 00.681 60.654 60.625 4
    文献[22]0.537 60.595 90.640 70.667 00.676 60.666 70.641 40.610 0
    下载: 导出CSV
  • [1] 2018年11月份通信业经济运行情况[EB/OL]. [2018–12–20]. http://www.miit.gov.cn/n1146285/n1146352/n3054355/n3057511/n3057518/c6551116/content.html.
    [2] Liu Q,Chen E,Xiong H,et al. A cocktail approach for travel package recommendation [J]. IEEE Transactions on Knowledge & Data Engineering,2013,26(2):278–293.
    [3] Chen T. The RFM-FCM approach for customer clustering [J]. International Journal of Technology Intelligence & Planning,2012,8(4): 358–373.
    [4] Martinez A B B,Arias J J P,Vilas A F,et al. What’s on TV tonight? An efficient and effective personalized recommender system of TV programs [J]. IEEE Transactions on Consumer Electronics,2009,55(1):286–294. doi: 10.1109/TCE.2009.4814447
    [5] 印鉴,王智圣,李琪,等. 基于大规模隐式反馈的个性化推荐[J]. 软件学报,2014(9):1953–1966.
    [6] Ding Y,Li X. Time weight collaborative filtering[C]//Proceed of the ACM International Conference on Information & Knowledge Management,2005:485−492.
    [7] Kohrs A. Improving collaborative filtering for new-users by smart object selection[C]//Proceed International Conference on Media Features,2001.
    [8] Xuan N L,Vu T,Le T D,et al. Addressing cold-start problem in recommendation systems[C]//Proceed of the ACM International Conference on Ubiquitous Information Management and Communication,2008:208−211.
    [9] Pyo S,Kim E,Kim M,et al. Automatic and personalized recommendation of TV program contents using sequential pattern mining for smart TV user interaction [J]. Multimedia Systems,2013,19(6):527–542. doi: 10.1007/s00530-013-0311-7
    [10] 罗贺,赵培. 面向电视观众的用户兴趣偏好建模方法[J]. 中国管理科学,2016,24(S1):43–48.
    [11] Kassak O,Kompan M,Bielikova M. User preference modeling by global and individual weights for personalized recommendation [J]. Acta Polytechnica Hungarica,2015,12(8):27–41.
    [12] 何海洋,王勇,蔡国永. 基于用户类别偏好相似度和联合矩阵分解的推荐算法[J]. 数据采集与处理,2018,33(1):179–185.
    [13] Sajib M S R,Malik M A I,Islam M A,et al. Video recommendation system for you Tube considering users feedback [J]. Global Journal of Computer Science & Technology,2018,18(1):11–15.
    [14] Adomavicius G,Tuzhilin A. Toward the next generation of recommender systems: A survey of the State-of-the-Art and Possible Extensions [J]. IEEE Transactions on Knowledge & Data Engineering,2005,17(6):734–749.
    [15] Kim E,Pyo S,Park E,et al. An automatic recommendation scheme of TV program contents for (IP)TV personalization [J]. IEEE Transactions on Broadcasting,2011,57(3):674–684. doi: 10.1109/TBC.2011.2161409
    [16] Shin H,Lee M,Kim E Y. Personalized digital TV content recommendation with integration of user behavior profiling and multimodal content rating [J]. IEEE Transactions on Consumer Electronics,2009,55(3):1417–1423. doi: 10.1109/TCE.2009.5278008
    [17] Sanchez F,Barrilero M,Alvarez F,et al. User interest modeling for social TV-recommender systems based on audiovisual consumption [J]. Multimedia Systems,2013,19(6):493–507. doi: 10.1007/s00530-013-0312-6
    [18] 任品. 基于置信用户偏好模型的电视推荐系统[J]. 现代电子技术,2014(16):30–33. doi: 10.3969/j.issn.1004-373X.2014.16.009
    [19] Rafailidis D. A multi-latent transition model for evolving preferences in recommender systems [J]. Expert Systems with Applications,2018,104:97–106. doi: 10.1016/j.eswa.2018.03.033
    [20] Fan N,Yang Y,He L. An algorithm of users access patterns mining based on video recommendation [J]. Human Centric Technology and Service in Smart Space,2012,182:37–42. doi: 10.1007/978-94-007-5086-9
    [21] Tan H N,Huynh H X,Huu H H. Recommender system based on analysis implicative statistical user preferences over time[C]//Proceed of the ASI9 International Conference on Analysis Statistique Implicative,France,2017.
    [22] 喻玲. 面向家庭用户的互联网电视资源推荐模型研究[D]. 武汉:华中师范大学,2015.
  • [1] 宋高俊蒋丽霞隋海虹熊小亮 . 基于OFDMA系统的用户调度算法的比较研究. 南昌航空大学学报(自然科学版), 2011, 25(3): 18-22.
    [2] 殷志坚涂序洪 . 现代电视中音响技术的应用. 南昌航空大学学报(自然科学版), 2001, 15(4): 59-61.
    [3] 傅建平周向农 . 弱电系统中的接地技术. 南昌航空大学学报(自然科学版), 2002, 16(2): 54-59.
    [4] 万雄何兴道易江林程小金 . 光纤衰减测试系统的研究. 南昌航空大学学报(自然科学版), 1998, 12(3): 55-60.
    [5] 王海龙 . 城市公交系统调度的优化模型. 南昌航空大学学报(自然科学版), 2009, 23(4): 17-19,52.
    [6] 顾平万高峰舒坚张小峰王力 . 学生成绩随机后台查询系统. 南昌航空大学学报(自然科学版), 1998, 12(2): 52-56.
    [7] 熊玲珠石为为 . 基于网络的考试系统的设计. 南昌航空大学学报(自然科学版), 2003, 17(3): 84-87.
    [8] 陈琼万国金 . 基于EIB系统的BCU研究. 南昌航空大学学报(自然科学版), 2005, 19(2): 62-65.
    [9] 赵文龙钟敏张鹏 . 同步实时时钟系统研究. 南昌航空大学学报(自然科学版), 2015, 29(2): 87-92,97. doi: 10.3969/j.issn.1001-4926.2015.02.015
    [10] 冀春涛罗贤星张晨曙 . 电阻焊集约控制系统. 南昌航空大学学报(自然科学版), 2000, 14(1): 21-24.
    [11] 余润芝赵文龙陈玉林曾竞凯 . 无线爆破控制系统设计. 南昌航空大学学报(自然科学版), 2018, 32(3): 100-105. doi: 10.3969/j.issn.1001-4926.2018.03.015
    [12] 周雅 . 粉末涂装系统的选择及维护. 南昌航空大学学报(自然科学版), 2000, 14(1): 55-59.
    [13] 王华夏璇 . 盘/轴系统瀑布图的仿真. 南昌航空大学学报(自然科学版), 2000, 14(3): 53-55.
    [14] 赵雷熊器万生鹏 . 基于光纤光栅解调系统和嵌入式准实时监测系统的研究. 南昌航空大学学报(自然科学版), 2018, 32(3): 43-49. doi: 10.3969/j.issn.1001-4926.2018.03.007
    [15] 蔚晓明陈琼寥建庆 . 电力系统交流电参量检测系统的研究. 南昌航空大学学报(自然科学版), 2008, 22(4): 83-87.
    [16] 李静王琦 . 发动机润滑系统网络系统的设计及其模拟实验. 南昌航空大学学报(自然科学版), 2008, 22(1): 67-71.
    [17] 焦益群谢友宝姚昌仁 . 八自由度弹架系统建模研究. 南昌航空大学学报(自然科学版), 1996, 10(2): 58-64.
    [18] 史永莉李涛宋琼 . 基于C/S模式MIS系统的技术研究. 南昌航空大学学报(自然科学版), 2006, 20(2): 76-79.
    [19] 李智华王细洋 . 基于LabVIEW的刀具故障诊断系统. 南昌航空大学学报(自然科学版), 2005, 19(2): 50-53.
    [20] 涂顺国吴剑张东豪 . 飞机通信系统内的中低频干扰抑制研究. 南昌航空大学学报(自然科学版), 2012, 26(3): 103-103.
  • 加载中
图(5)表(7)
计量
  • 文章访问数:  44
  • HTML全文浏览量:  78
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-06
  • 录用日期:  2019-07-09
  • 刊出日期:  2019-09-01

基于价值分组与偏好习惯的电视用户观看行为分析方法

    通讯作者: 陈昊; 
  • 1. 无损检测技术教育部重点实验室(南昌航空大学), 南昌 330063
  • 2. 南昌航空大学 信息工程学院, 南昌 330063

摘要: 针对个性化推荐系统中用户行为分析这一重要环节,本文以用户价值和偏好习惯为切入点,通过提取用户历史记录中的隐式信息,提出了一种新的电视用户观看行为分析方法。提取用户整体平均操作频次、近期平均操作频次、操作频次变化比率、最近一次操作时间间隔作为价值模型指标,根据特征指标提出包括忠诚、新生、流失等8类不同用户价值群体分类结果;将节目划分为12类,构建基于活跃度和稳定度的用户偏好习惯特征矩阵,将用户偏好习惯分为4个簇类,对用户偏好进行量化与分析。通过对1 025位用户产生的361 459条播放记录数据进行实验,结果表明该方法能有效对任意电视用户观看行为进行分析,提高了偏好分析结果的准确性。

English Abstract

    • 在三网融合的政策背景下,传统广播电视和新兴媒体正在不断融合。IPTV作为新媒体代表,是电视媒体向网络新媒体演化的重要一步。IPTV提供给用户多种体验选择和丰富的影视资源。然而,用户面对众多电视节目往往会出现选择困难的情况。据工信部统计,截止2018年11月我国IPTV用户总数为1.53亿户[1]。面对如此庞大的用户群体,如何优化服务,提升用户体验,增大运营利润是电视运营商需要考虑的重要问题。

      个性化推荐系统是通过挖掘用户的兴趣偏好信息,筛选并推送给用户感兴趣的项目,帮助用户解决选择困难的一种技术手段。用户偏好行为分析是其中一个关键环节,而用户偏好行为的多样性和易变性一直是影响个性化推荐系统性能的主要因素[2]。因此建立合理的用户偏好行为分析模型对提升个性化推荐系统性能有极大帮助。

      本文从用户价值角度出发,建立以忠诚、新兴、一般、流失用户价值分类标签,其次,结合用户偏好习惯分析,定义用户偏好习惯活跃度和稳定度指标,以此来刻画任意用户画像。另外,将该方法应用于实际测试数据集,分析结果准确性。

    • 通过对电视用户行为的分析可以了解用户的观看习惯和规律,以此将用户进行价值分组将有助于运营商节约营销资源,提升运营利润。Google网站会根据访问用户的访问频率,上次访问时间,访问页数等指标衡量用户价值。而传统用户价值分组模型RFM则采用最近一次消费时间(Recency)、消费频率(Frequency)和消费金额(Monetary)3项指标作为建模依据,通过指标平均值进行划分指标取值的高低,最终将用户价值分为8种类型[3]

      将相同分组的用户群进行偏好信息分析,能够更加合理准确的进行个性推荐。其中,用户兴趣偏好信息获取可通过显式反馈和隐式反馈2种方式[45]。显式反馈获取用户偏好的研究中,Ding等认为用户消费过的项目能够不同程度反映用户的兴趣,提出基于信息熵的项目加权方法表征用户兴趣[67]。Xuan等人则利用一些属性和内容信息对项目和用户聚类处理,从而发现用户兴趣偏好[8]。具体而言,根据用户观看的电视节目内容进行用户聚类,以用户组中的频繁项集表征整类用户偏好[9]。罗贺等[10]将用户观看电视节目过程中的点播操作和观看时长与电视节目的基本属性相结合,从时间和频率2个维度建立了用户兴趣偏好矩阵。Kassak等[11]提出采用单个用户观看过的电视节目包含的元数据和用户评分共同组成用户偏好向量的方法。何海洋等[12]在偏好矩阵的基础上,通过度量用户类别偏好相似度,建立联合矩阵分解的推荐算法。显式反馈虽然能够较直接获得用户偏好,但在实际生活中,主动提交评论的用户仅占少数,同时用户评论容易受动态情绪的影响,无法客观地评估用户评论文本的真实性[1314]

      相比较而言,隐式反馈是在不需要电视用户对电视节目内容做出明确的评分前提下,仅通过用户历史记录隐式推断用户对观看的电视节目内容的兴趣。因此,隐式反馈更能反映用户真实的偏好[15]。Shin等[16]通过用户观看时长、节目类别以及收藏等操作设计出一种隐式估计用户对电视节目喜好程度的计算公式。Sanchez通过用户电视观看记录根据隐式马尔可夫模型和贝叶斯推理技术判断用户偏好[17]

      以上2种反馈方式分析用户偏好时通常认为所有用户的偏好习惯是不会随时间产生变化。在实际情境中,置信用户确实存在稳定偏好习惯[18]。但用户偏好随时间产生变化更为普遍。Rafailidis等通过制定一个联合目标函数来计算持续一段时间内,用户最新偏好和所有过去的偏好之间的多重转换[19]。而Fan等认为用户偏好不仅随横向时间变化,同时也存在纵向时间变化,即用户不同时间段对不同类别节目的偏好不一样,不同电视节目也会因时效产生不同的影响[2021]

      本文提出了基于用户价值分组和用户偏好习惯的电视用户观看行为分析方法,并利用实际IPTV用户产生的历史记录数据进行了实验分析。

    • 本文提出的电视用户观看行为分析方法的流程如图1所示。方法主要包括3个模块,分别是数据获取、用户价值分类以及用户偏好分析预测。数据的获取主要通过用户机顶盒设备号提取用户的观看记录,通过清除历史记录中重复、错误、缺失的数据,并对数据内容进行补充完善使得数据符合需求,并以数据库的形式保存。

      图  1  基于价值分组和偏好习惯的用户行为分析方法框图

    • 本文在RFM模型基础上,提出以用户整体平均操作频次、近期平均操作频次、操作频次变化比率、最近一次操作时间间隔4项指标作为价值分组模型指标。

      在统计周期长度为day的时间内,用户i的总操作次数为$T{C_i}$,由此定义用户整体平均操作频次的公式为:

      $ T{F_i} = \frac{{T{C_i}}}{{day}} $

      (1)

      定义用户近期平均操作频次计算公式为:

      $ r{f_i} = \dfrac{{r{c_i}}}{{reday}} $

      (2)

      其中,reday的取值大小为15 d,$r{c_i}$则为第i个用户在距离统计结束的15 d内总操作次数。单纯的频次指标不足以表现用户使用频次的变化特征,利用第i个用户近期操作频次与整体操作频次的比率可表征用户需求变化率,如式(3)。${f_{ratio}}$越大则说明用户近期需求与整体相比变化很大。${R_i}$为用户最后一次操作距统计结束的时间间隔,取值越大说明用户长时间未使用电视产品,可能面临用户流失的危险。

      $ {f_{ratio}} = \frac{{r{f_i}}}{{T{C_i}}} \times 100\% $

      (3)

      根据以上分析,基于用户整体平均操作频次、近期平均操作频次、操作频次变化比率、最近一次操作时间间隔四项指标建立的模型中,TFrf取值越大,${f_{ratio}}$取值接近100,R取值趋近于0的用户价值越高。

    • 在营销过程中,对用户进行价值分类有助于提高服务效率,一般通过提取表征用户群体特征的指标,利用聚类算法对用户群体进行价值分类。传统的基于距离的K-means聚类算法,虽然简单但是对分布复杂的样本聚类效果较差,与K-means聚类算法相比,基于机器学习中EM算法的高斯混合模型,在聚类结果上采用概率表达样本属于每个类别的概率,使得结果更符合实际情况。高斯混合模型可用式(4)表示:

      $ p(x) = \sum\limits_{k = 1}^K {{{\text{π}} _k}} {N}(x\left| {{\mu _k},\sum {_k} )} \right. $

      (4)

      其中:${ N}(x\left| {{\mu _k},\sum {_k} )} \right.$是第k个高斯模型的概率密度函数,${{\text{π}} _k}$表示第k个高斯模型的权重。

      从聚类结果中,提取各类用户群体价值指标的均值和标准差,分别组成特征均值矩阵${{{M}}_{{{value}}}}$和标准差矩阵${{{S}}_{{{value}}}}$,根据特征指标矩阵建立对未知类别用户相似度分类模型。定义基于高斯核的特征指标相似度计算公式如下:

      $ { f} (x,m,s) = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\exp \;( - \dfrac{{{{(x - m)}^2}}}{{2{s^2}}})}&{s \ne 0} \end{array}} \\ {\begin{array}{*{20}{c}} 1&{s = 0,x = m} \end{array}} \\ {\begin{array}{*{20}{c}} 0&{s = 0,x \ne m} \end{array}} \end{array}} \right. $

      (5)

      其中,x为某一特征指标取值,ms为该特征指标的均值和标准差。按照相似度计算公式计算可得到单个用户特征指标相似矩阵${{Si}}{{{m}}_{{{matrix}}}}$,定义式(6)计算用户属于第k类结果的相似度,取最大相似度值作为用户特征分类结果。

      $ Si{m^k} = \frac{{\displaystyle\sum {{{Si}}{{{m}}_{{{matri}}{{{x}}_{k \times j}}}}} }}{N} $

      (6)

      用户相似度分类模型具体算法流程如下:

      算法1:(用户相似度分类模型)

      输入:用户i的特征指标向量${{{u}}_{{i}}}$,特征均值矩阵${{{M}}_{{{value}}}}$和标准差矩阵${{{S}}_{{{value}}}}$

      输出:用户i分类结果

      1:建立特征属性相似度矩阵${{Sim}}{_{{{matrix}}}}$和类别相似度向量${{Sim}}{_{{{vector}}}}$

      2: for x in $1:ncol({{Sim}}_{{{{matrix}}}})$ //x表示列,y表示行

      3:  for y in $1:nrow({{Sim}}_{{{{matrix}}}})$

      4:  $ {{Sim}}_{{{{matrix}}}}{\rm{[}}y,x{\rm{]}} = {\rm f} ({{{u}}_i}[y,x],{{{M}}_{{{value}}}}[y,x],$$ {{{S}}_{{{value}}}}[y,x])$

      5: end

      6:end

      7:for k in 1:N

      8: $ {{Sim}}_{{{{vector}}}}[k] = Si{m^k}$

      9: end

      10: return 最大相似度分类结果

    • 不同用户对于各类电视节目存在不同程度的偏好,文献[22]利用用户产生的有效观看操作记录通过隐式反馈获得用户对于电视节目的偏好。$p_i^t = $${{{C_t}} / {T{C_i}}}$表示用户对于某电视节目的偏好权重,Ct为用户i在统计周期内对第t种电视节目的有效观看次数,最终用户对于各类电视节目的偏好权重向量可表示为${{{P}}_{{i}}} = \{ p_i^1,p_i^2, \cdots ,p_i^t\} $

      虽然这类隐式反馈分析偏好的方法相比显式反馈更能反映用户真实的兴趣偏好,但用户真实的兴趣偏好实际会受时间、空间等因素影响而发生变化。用户某类兴趣偏好发生变化是一种用户偏好习惯的体现。本文在文献[22]上提出一种基于用户偏好习惯活跃度和稳定度(User preference habit activity and stability with user preference analysis, AS-UPA)的偏好分析预测方法,通过分析用户偏好习惯以提高用户偏好分析方法的准确性。

      其中,活跃度描述用户对于电视产品的使用情况,如:日常观看电视是否频繁,对同类电视节目花费的时长。但用户对某类电视节目的活跃度高也并不能说明用户确实喜欢,例如,商场中的电视机器,因为销售需要,可能反复不间断播放同类电视节目,这种高活跃度却并不能完全表征用户偏好。而稳定度能调整这种现象,稳定度描述用户对于某类电视节目专注的持久性。当活跃度高且稳定度也高时,说明用户很长一段时间对这类节目都表示喜爱且经常保持观看。

      基于对活跃度与稳定度的描述,选用偏好特征属性包括:用户i平均每日观看某类电视节目的时间$mt_i^t = st_i^t/day$$st_i^t$是用户i观看第t种电视节目全部有效时长;用户i近期平均每日观看某类电视节目的时间$r{e_ - }mt_i^t = {{r{e_ - }st_i^t} / {reday}}$$r{e_ - }st_i^t$是用户i近期观看第t种电视节目全部有效时长;用户i近期与整体花费在某类电视节目上的日均时间比率${\varphi _i} = \dfrac{{r{e_ - }mt_i^t}}{{mt_i^t}} \times$$ 100\% $;用户i最近一次观看某类电视节目至统计结束的时间间隔$R_i^t$

      通过数据统计,对偏好特征属性矩阵${{{I}}^{{t}}} = \{ m{t^t},$$r{e_ - }m{t^t},{\varphi ^t},{R^t}\} $采用K-means聚类方法将用户偏好情况分为4类初始簇群$\{ {\rm{V}}(1),{\rm{V}}(2),{\rm{V}}(3),{\rm{V}}(4)\} $,提取每类簇群的均值和标准差用以代表整个簇群特征。利用相似度分类模型将用户偏好习惯进行分类。具体算法流程如下:

      算法2:(偏好特征提取)

      输入:用户i的偏好特征属性向量${{I}}_i^t = \{ mt_i^t,re\_mt_i^t,$$\varphi _i^t,R_i^t\} $,偏好特征属性均值矩阵${{M}}_{interest}^t$和标准差矩阵$S_{interest}^t$

      输出:用户i对第t类电视节目的兴趣偏好习惯类型$V(v)_i^t$

      1:建立用户偏好习惯特征相似度矩阵${{proSim}}_{{{matrix}}{_{{i}}}}^{{t}}$

      2:建立用户偏好习惯相似度向量${{proSim}}_{{i}}^{{t}}$

      3:for x in $1:ncol({{proSim}}_{{{{matrix}}}})$ //x表示列,y表示行

      4: for y in $1:nrow({{proSim}})$

      5:${{proSim}}_{{{{matrix}}}}[y,x] = {\rm f} ({{I}}_i^t[y,x],{{M}}_{{{interest}}}^{{t}}[y,x],$${{S}}_{{{interest}}}^{{t}}[y,x])$

      6: end

      7:end

      8:for v in 1:V  //v是用户偏好习惯类别序号,V表示偏好习惯种类数量

      9: ${{proSim}}[v] = \dfrac{{\displaystyle \sum {{{proSim}}_{{{{matri}}{{{x}}_{{{v}} \times {{j}}}}}}} }}{V}$

      10:end

      11:filter $v = maxcol({{proSim}})$ //筛选最大相似度偏好习惯

      12:return 用户偏好习惯类型$V(v)_i^t$

      由上述算法可获得用户对于电视节目类别的偏好习惯类型,按照偏好习惯分别赋予不同比例权重$\delta $,最终利用权重调整得到用户ui对于各类电视节目的偏好向量${{{P}}_i}' = \{ p_i^1 \cdot \delta _i^1,p_i^2 \cdot \delta _i^2, \cdots ,p_i^t \cdot \delta _i^t\} $

      通过优化后的用户价值分组与基于活跃度和稳定度的用户偏好建模结果共同作用,可以对任意用户进行一个完整的定义,可以针对不同电视用户按照定义,设置一个合理的推荐频次、推荐节目的范围等,最终达到个性化推荐目的。

    • 数据采集自某地区1 025户IPTV用户在2017-07-01到2017-09-30所产生的观看记录361 459条,通过数据清洗,保留有效数据记录326 103条。

    • 表1是通过用户数据获得用户价值分组特征指标数据,将用户分为8类不同的价值群体,可观察到I类用户整体的操作频次仅比II类用户略低,且近期操作频率最高,前后用户操作频次基本保持稳定,最近一次操作的时间很近,用户粘合度很高,记录数据丰富,营销价值高,I类用户标定为忠诚用户。II类用户最近一次操作的时间间隔相比略长,但操作频率高,使得II类用户具有很高的营销价值,II类用户标定为重要用户。相比I类用户和II类用户,III类用户和IV类用户的操作频率在中等水平,没有很强烈的需求,其中III类用户最近一次操作时间间隔更低,III类用户粘合度更高,为实际群体中的一般用户,IV类用户由于时间间隔更大,粘合度略低,在营销中需要保持稳定联系,防止用户流失,因此标定为保持用户。V类用户整体操作频率虽然很低,考虑时间因素,用户近期需求相比整体出现变化明显,这类用户有更大概率在营销中进一步发展为更具价值的用户,标定为新生用户,VI类用户的需求偏低,但距离最近一次操作时间隔得较近,说明用户粘合度较高,可以通过营销策略提升这一部分用户价值,标定为潜在用户。VII类用户的操作频率不仅低,而且最近一次操作时间间隔较长,这类用户面临着流失危险,但相比VIII类用户,VII类用户存在一定可能性挽留,所以标定为挽留用户,而VIII类用户则流失用户。

      表 1  用户价值分组特征指标数据

      用户价值类别TFrffratioR
      均值标准差均值标准差均值标准差均值标准差
      Ⅰ类用户 7.395 2 4.607 8 8.500 4 5.923 2 123.432 5 60.487 7 0.003 4 0.058 5
      Ⅱ类用户 7.855 8 4.526 8 6.886 1 5.320 6 88.816 9 39.169 5 2.661 5 2.425 6
      Ⅲ类用户 3.004 6 0.454 1 2.465 5 1.400 2 82.907 8 48.069 3 2.254 2 2.589 2
      Ⅳ类用户 3.304 6 2.395 2 1.740 7 2.400 5 74.701 0 114.678 5 6.305 6 6.228 1
      Ⅴ类用户 0.457 3 0.477 9 1.725 1 1.872 1 433.849 3 126.682 2 3.649 1 4.112 2
      Ⅵ类用户 1.454 1 0.392 2 1.194 2 0.806 3 79.955 6 45.514 6 2.921 0 3.696 3
      Ⅶ类用户 0.483 7 0.275 1 0.640 1 0.549 8 127.393 8 75.902 9 5.508 4 4.369 2
      Ⅷ类用户 0.518 1 0.756 2 0 0 0 0 41.390 4 21.242 1

      定义用户价值分组类别名称如表2所示,对于不同的用户价值群体在实施推荐算法时应该区别对待。

      表 2  用户价值分组类别

      类别代号类别名称类别代号类别名称
      Ⅰ类用户忠诚用户Ⅴ类用户新生用户
      Ⅱ类用户重要用户Ⅵ类用户潜在用户
      Ⅲ类用户一般用户Ⅶ类用户挽留用户
      Ⅳ类用户保持用户Ⅷ类用户流失用户
    • 对用户偏好习惯进行建模的部分电视类别特征指标数据如表3表5所示。

      表 3  电视剧类偏好习惯指标

      偏好习惯mtre_mtφR
      均值标准差均值标准差均值标准差均值标准差
      V1 263.05 111.92 347.97 158.79 148.29 76.11 0.56 1.12
      V2 14.29 18.56 57.83 77.1 439.67 121.96 4.94 4.8
      V3 74.56 56.51 88.44 55.77 147.74 63.79 1.91 2.93
      V4 21.84 30.07 5.98 10.85 20.3 29.45 28.25 30.05

      表 4  少儿类偏好习惯指标

      偏好习惯mtre_mtφR
      均值标准差均值标准差均值标准差均值标准差
      V1 30.67 66.49 49.17 87.31 201.18 73.84 4.10 3.99
      V2 4.00 8.64 20.38 40.46 556.22 76.43 7.71 4.51
      V3 15.38 35.02 4.10 12.37 17.54 30.60 20.17 13.87
      V4 0.82 2.87 0 0 0 0 83.54 14.09

      表 5  戏曲类偏好习惯指标

      偏好习惯mtre_mtφR
      均值标准差均值标准差均值标准差均值标准差
      V1 3.96 5.58 12.7 19.00 312.75 71.86 7.07 5.65
      V2 1.89 6.39 9.64 29.76 588.54 49.48 6.26 5.21
      V3 1.50 3.39 0.30 1.84 5.93 23.47 36.99 15.79
      V4 0.04 0.29 0 0 0 0 91.00 4.39

      通过图2比较,在同类电视节目的观众中,用户的偏好习惯能够分为4类,具有V1类偏好习惯的用户群体相比其他几类用户群体花费在该类电视节目上的时间更多,更为活跃,喜好程度更高,在统计周期内频繁观看。虽然V3类偏好习惯的用户群体相比V1类花费的时间减少,但V3类和V1类中的用户都是这类电视节目的稳定观看受众,专注度高。V2类偏好习惯的用户群体前后对于同类节目的关注度变化最大,用户偏好不稳定,而V4类偏好习惯的用户群体活跃度和稳定度都不及其他几类用户,在一定程度上表现为对该类电视节目并不感兴趣。

      图  2  电视用户偏好习惯类型折线图

      通过图3比较,对于不同类电视节目,衡量他们偏好习惯类别的指标取值也有所差别。这是由于实际生活中,不同类电视节目对应的用户人群不同,针对电视剧,综艺这类常见且受众年龄范围大的电视节目,日常用户花费的时间明显要多于类似少儿,戏曲这类受众人群特殊,年龄范围有限的电视节目。表6根据偏好习惯指标取值,定义了4类偏好习惯中活跃度和稳定度水平。

      图  3  同类偏好习惯用户的特征指标折线图

      表 6  用户偏好习惯类别

      类别代号活跃度稳定度
      V1
      V2
      V3
      V4

      根据用户价值分组和用户偏好建模两部分结果可以对任意用户给出客观有效的评价分析结果。以用户1 005为例,相关数据如图4所示。在分析用户价值群体类别的时候,可以观察到,该电视用户最终判定的用户价值群体为忠诚用户,这类用户的使用需求大,同时该用户关注的电视节目种类排名前五项为综艺、新闻、电视剧、生活、纪录片,并且用户对于这几类电视节目的偏好习惯均是活跃且稳定,而对于少儿节目需求很低,对与戏曲类电视节目则没有需求,分析该用户背后观看电视的观众是中青年群体,有足够的消费基础,用户营销价值高。在设计营销方案时,应加强与电视用户的联系,同时由于用户需求明确,在进行节目推荐设计时,应针对用户偏好强烈的节目进行推荐,推荐重点应该锁定在前三类电视节目,对应推荐频次应设置更频繁,推荐策略可采用短信推荐或电视表单推荐。

      图  4  1 005用户观看行为分析结果数据

    • 用户偏好分析的准确性对于推荐系统至关重要,通常评估偏好建模结果的准确性是采用准确率指标,准确率的定义如下[10]

      $ P = \dfrac{{\displaystyle \sum\limits_{{u_i} \in u} {\left| {R({u_i}) \cap T({u_i})} \right|} }}{{\displaystyle \sum\limits_{{u_i} \in u} {\left| {R({u_i})} \right|} }} $

      (7)

      其中,$R({u_i})$为通过建模生成的推荐序列,$T({u_i})$为用户实际生成的用户观看记录序列。

      在以上准确率的计算中,认为推荐序列中的某个元素(具体某类电视节目)存在于实际序列中,则该元素就为推荐准确。但在实际推荐中,推荐序列中每个元素的位置是分析用户偏好以后给予的排序。本文认为,在实施top-N推荐时的N个推荐节目中,当推荐序列中某元素的位置和实际序列中的位置对应不一致时,这类节目推荐应该认定为不完全准确。在准确性计算中,如果单个项目推荐准确计分为1分,则该类节目就应该给予一个低于1的打分。

      因此,对于某个用户的top-N推荐的准确率计算调整为式(7),其中,Si为第i个推荐元素得分。

      $ P = \dfrac{{\displaystyle \sum\limits_{i = 1}^N {{S_i}} }}{N} $

      (8)

      实验改变推荐节目数N的取值,记录实验结果数据,并与文献[10]所采用的建模方法和文献[22]产生的结果对比。绘制折线图如图5所示。

      图  5  偏好习惯准确率对比结果

      随着N的增大,推荐结果的准确性开始均呈现上升趋势,而当N超过一定数量时,准确率开始呈现下降趋势(如表7)。一方面,由于用户具有丰富的情感思维,在测试统计周期内,用户产生的结果容易受到某些不定因素影响。用具体的标准去区分用户的偏好实际存在一定困难,当推荐数目取值较小时,这种影响更加明显。另一方面,每个用户所偏好的节目都存在一定范围,随着N的增大,可以发现准确率存在上升趋势,说明推荐结果与用户实际偏好的范围逐渐靠拢。不过一旦超过了这个范围,准确率将会受到影响,呈现下降趋势。对比准确率曲线,可发现本文采用的建模方法在分析用户偏好时,准确率相比另外两种方法更高。

      表 7  top-N推荐结果准确性

      N12345678
      AS-UPA0.632 20.650 40.677 30.698 90.713 50.698 20.671 20.638 6
      文献[10]0.535 40.610 00.658 30.683 70.696 00.681 60.654 60.625 4
      文献[22]0.537 60.595 90.640 70.667 00.676 60.666 70.641 40.610 0
    • 目前,IPTV用户群体庞大且一直呈现上升趋势,市场需求不断推动着运营商设计出更加优化的个性化推荐系统,用户偏好分析是推荐系统中重要的环节。本文通过用户观看记录,通过挖掘用户群体的价值,以及单个用户潜在的偏好,分析单个用户的偏好习惯。为设计个性化推荐系统提供推荐策略依据。实验证明,在偏好分析准确性方面更准确。不过,本文提出的方法也存在不足之处,在表征用户偏好习惯指标的选取上,如何选取更有特征指标以及指标维数是否可以增加。针对本文获得的用户兴趣偏好矩阵,设计完善的推荐算法也将是接下来需要继续研究的重点。

参考文献 (22)

目录

    /

    返回文章
    返回