博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于用户标签的时间衰减因子
阅读量:5783 次
发布时间:2019-06-18

本文共 756 字,大约阅读时间需要 2 分钟。

hot3.png

背景

依据用户发帖子所属于的分类,给用户打标签,并确定标签的权重。

比如:A用户总共发了8个贴子,其中有1个帖子属于spark分类,3个属于hadoop分类,4个属于storm分类。系统会给用户分别打个spark,hadoop,storm三个标签,但是这三个标签的权重该怎么确定呢?

有一种简单的方案:用贴子的数量做为权重,那在这个例子中,spark权重就是1,hadoop权重就是3,storm权重就是4。这样是有问题的,比如如果4个跟storm相关的帖子是前年发的,而3个跟hadoop相关的帖子是近一周发的。这样的话,只计算数量,storm的权重比hadoop的权重高,看上去不合理,因为没有考虑到时效性,在我们看来,hadoop分类下的帖子数量虽然没storm的帖子数量多,但是发帖的时间距离现在比较近,更能反应发帖者目前的状态。

指数衰减

某个量的下降速度和它的值成比例,称之为服从指数衰减。用符号可以表达为以下微分方程,其中N是指量,λ指衰减常数。

180740_Qbdk_2002757.png

方程的一个解为:

180807_5PxQ_2002757.png

这里N(t)是与时间t有关的量,N0 = N(0)是初始量,即在时间为零时候的量。

衰减速率的测定

平均寿命

如果这个衰减量是一个集合中的离散元素,可以计算元素留在集合中的平均时间长度。这被称为平均寿命(一般称寿命)。并且它可以被证明与衰减速率有关。

181150_HSWu_2002757.png

平均时间(或被称为指数时间常数)由此被看做一个简单的缩放时间

181206_NoeH_2002757.png

因而,这是量减少到初始量的1/e所需要的时间。

利用指数衰减函数做为时间衰减因子,这个也是  最终的一个形态,标签的权重可以称为标签的热度,权重越大,热度就越高,时间衰减因子体现了标签的热度随着时间逐渐冷却的过程。

转载于:https://my.oschina.net/xiaoluobutou/blog/686183

你可能感兴趣的文章
python调用zabbix的api接口添加主机、查询组、主机、模板
查看>>
python_django urlpatterns
查看>>
增加网站百度收录的方法
查看>>
平台即服务PaaS关键:多用户租用构建云
查看>>
创建移动企业是IT企业面临的挑战之一
查看>>
beautifulsoup根据标签名以及其中的属性名称超找html元素
查看>>
day-编辑器vim
查看>>
String的substring、split,外加StringTokenizer三者截取字符串...
查看>>
关于数据库测试数据的一些心得
查看>>
键盘触摸板失灵
查看>>
恶意代码分析实战
查看>>
linux下查看已经安装的jdk 并卸载jdk
查看>>
Java compiler level does not match the version of
查看>>
js发送post请求
查看>>
数组和元组
查看>>
解决ubuntu更新软件仓库失败的笔记
查看>>
一、TOMCAT的目录结构
查看>>
MySql数据库忘记Root密码,如何修改
查看>>
redis 安装和配置
查看>>
Juery 基础
查看>>