“阅读需要X分钟”这个功能是如何实现的?

  统计/机器学习 自然语言处理    浏览次数:4207        分享
0

现在很多新闻和文章的开头都有类似于“阅读需要X分钟”,这个功能是如何实现的?用的什么算法?

 

godfly   2019-05-21 11:38



   2个回答 
5

国外一个专栏网站medium透露过他们计算阅读时长的方法,我觉得中文也是类似的。

基本上一个简单的公式就够了:

阅读时长 = 总字数 ÷ 平均阅读速度(例如:275字每分钟)

在此基础上,再给每一张图像 12 秒的时间。

随着平台的发展,越来越多的文章图文并茂。而原来的阅读时长是以漫画等「要看得比较久」的图片为基准,如果以原来的算法计算,那一篇包含 140 张图片的文章阅读时长会高达 87 分钟,这显然不合理。

因此,图片的读取时间修正为第一张 12 秒,第二张 11 秒,依次减少 1 秒到第 10 张之后,每张以 3 秒计算。

设置阅读时长的原因其实很好理解,这样用户就可以方便地把握阅读的时机 —— 是在等公交的时候看,还是先收藏起来一会儿再看。

SofaSofa数据科学社区DS面试题库 DS面经

子京   2019-05-22 11:31

谢谢,看起来好像挺简单,挺容易实现的 - godfly   2019-05-30 13:51
2

我觉得不需要算法吧。正常人的阅读速度是一秒钟5个字,一分钟300个字,字数除以300就得到时间了。

如果文章里有视频,就再加上视频的时间,如果有图的话,每个图可以再加5到10秒的时间。

SofaSofa数据科学社区DS面试题库 DS面经

东布东   2019-05-22 10:19



  相关讨论

nlp里的stemming是什么意思?

文本处理中stop word什么意思

文本处理中的tf是什么意思?如何计算?

自然语言处理中的Tf-idf是什么意思

怎么判断一句中文话语是否通顺

jieba分词中最大正向匹配法是什么?

python里实现词云的package

bert里cls和sep分别是什么意思?

wordcloud安装报错error: Microsoft Visual C++ 14.0 is required

jieba.cut中use_paddle是什么模式?

  随便看看

推荐系统中的召回(recall)是什么意思?

如何重命名pandas的dataframe的列名

python里怎么计算曼哈顿距离?

线性可分是什么意思?

去掉pandas DataFrame的index的名字