今日头条网页(今日头条网页版入口)

微博热评号购买 2022年08月28日 20:12 550 admin

“戴玉数据圈”是资深数据新闻人戴玉创办的数据新闻群，里面汇聚了各类数据报告发布方、数据媒体主编和记者、高校数据新闻教师、可视化人员、数据行业人员等等，旨在搭建切实推动数据新闻行业交流与合作的平台。

数据圈沙龙系列二【数据圈那些数据】

旨在介绍各类优质的数据及其来源，希望为数据报道和数据分析碰撞出新的维度，促进交流。（之前的沙龙系列一【数据圈那些人】旨在介绍各类数据媒体，已成功举办8期）

分享人：刘志毅今日头条媒体实验室负责人

分享时间：2017.03.29 下午14:30

今日头条网页(今日头条网页版入口)

嘉宾分享环节

大家好，我是来自今日头条算数中心的刘志毅，今天跟大家分享的主题是今日头条阅读数据的想象力。我们说想象力实际上指的是数据的应用场景和阅读数据能够发挥价值的最大的地方。

我首先举几个大家可能耳熟能详的例子，比如说谷歌曾经用搜索数据来预测流感，当然这个项目后来被认为效果一般。但是在日本相类似的用社交网络的阅读和分享数据来预测流感却很成功。谷歌用他的搜索数据来预测电影的票房来达到一些营销方面的收益等等。这样的项目其实我们认为都是阅读和搜索数据的非常好的应用场景。

首先我要回答的第一个问题是数据是从哪里来的？这个涉及到我们的数据可以怎样应用以及对于这些数据最基本的理解是什么样子。我们的数据全部来自于今日头条后台对于用户阅读行为的捕捉以及对用户画像的分析。所以今日头条媒体实验室也好，今日头条算数中心也好，都是基于这些一手数据再进行分析以及应用。

这样一张图可能是一般人对于今日头条的理解，我们是将丰富多样的媒体内容，通过高效的人工智能平台分发到千人千面的用户手机上。最终达到提高信息分发效率的结果。所以我们说头条是一个内容分发的平台。

在这个分发的过程中间发生了什么样的变化呢？我这边也可以给大家简单的介绍一下。实际上当每一篇文章来到了智能引擎之后，我这边对它所经历的过程进行了一些简化，首先它会经过一个消重，也就是相同或者相似内容的文章会被我们归为一类，然后这一类做为一个group来进行推荐。推荐的依据是我对这个文章内容进行的特征分析。比如说它还有哪些关键词，它来自于什么样的来源，它属于哪样的兴趣类别等特征。我给它赋予了特征向量之后，这样的文章就会在文章库中间有一个自己独特的位置。

与此类似的是，一个用户，他如果在它上面产生了阅读行为，我们的机器就会判断这个用户对什么东西是更感兴趣的，他当前在用的网络情况是什么样，他当前处在的位置是什么，这些都有可能决定他最终的阅读喜好。而我们将这两者的特征向量进行匹配之后，得到最有可能受读者喜爱的内容，然后将这个内容分发到每一个用户的手机上，这才做到了我们经常所说的“你关心的才是头条”这样一个效果。

举个例子来说，比如一条新闻出现在用户的手机上，在出现之前经历了什么过程，以及机器有哪些方面的运算呢？这个用户他的兴趣是什么？他的职业是什么？他的年龄性别？正在使用的手机的机型是什么？他的家乡来自哪里？他最近关注过什么样的广告？点击过什么样的兴趣标签？这个用户处在什么样的使用环境中？他的位置时间以及他的网络状况如何？因为在使用wifi的时候我们认为用户可能更倾向于点开视频和大图，而使用自己流量的时候我们会将文字内容推送给他。最后还有他所处的天气，当时的天气情况是什么样子都有可能影响用户的阅读倾向。

另外一方面是文章特征，这个文章本身是关于什么类别的，比如说是科技还是养生？它的主关键词是什么？这个文章发出来已经过了多长的时效了？文章来源于媒体还是自媒体，或者别的途径？它有可能是一个权威的时政新闻，也有可能是一个段子，也有可能是一个轶闻。

最后是用户对于文章本身的反馈，也就是这个文章在被推送出来之后用户的样本对他产生了什么样的行为，这是我们非常看重的一个指标。有没有点赞？有没有转发？用户对他的欢迎程度是什么样子？是否有人举报这篇文章等等。这些因素最终决定了这篇文章来到一个用户的手机上。目前来讲我们组合用户特征、环境特征，以及文章特征已经能够产生达到百亿级别的特征值，我们通过这样的海量特征值来判断用户的需求，智能推荐匹配用户的资讯。

在介绍完主产品简单的逻辑之后，我来说一下数据运用是在做什么样的事情。我们从刚刚的分发过程中间收集什么样的数据呢？比如说用户有点击什么文章或者没有点击什么样的文章，读者产生了什么样的评论，读者在哪点了踩在哪点了赞，读者完成比例是多高，对话题产生了持续的还是短暂的兴趣，读者在文章上面的停留时间是多长，读者用的手机品牌是什么，手机型号是什么，前后有没有发生变化等等。这些数据都是我们一直在收集的关于用户阅读行为的数据。

我们希望找到这些细颗粒数据与现实垂直领域的联系，或者寻求它们对各地媒体的指导作用。

刚才我们已经回答了数据是从哪里来的，那现在我们要回答一下数据到哪里去。这也是我们整个部门的工作都在回答的一个问题。数据到哪里去能够最大程度的发挥这个数据对公司、对社会所产生的价值呢？首先我们考虑到今日头条是一个连接创作者，连接内容与人，提高分发效率的内容平台。我们首先想到的是用这些分发数据来反哺优秀的创作者。我们有一个产品叫今日头条媒体实验室。它的slogan跟主产品的slogan也非常对应，叫做“怎样创作才是头条”。就像一些电商平台会把各个领域的交易数据、交易情况提供给这个行业的小卖家，让他们更好的售卖自己的商品一样（当然他们这个服务是收费的），我们在媒体实验室中将文章的分发数据免费的提供给所有优质创作者。

理解了刚才分发数据的产生机制，就不难理解媒体实验室工作的简单模式。实际上就是将用户与推荐引擎的互动中产生的所有的分发数据，作为媒体实验室的数据来源，我们对后台数据进行提取和分析，然后输出一些固定的维度，提供给内容创作者，来作为内容创作方向上解决问题的参考，以及做决策的依据。

我们在媒体实验室中提供哪些功能呢？具体来说我们提供大数据分析、可视化的分析图表、用户画像、写作角度，甚至还有一些未经报道的新闻线索等等，待会儿我们会从产品的角度来进行一些功能介绍，当然这是我们用户阅读数据应用的第一个场景。

这是我们目前的一个首页。大家会看到一个最显著的功能实际上就是一个搜索框，我们可以在这个搜索框中输入任何感兴趣的词汇，然后看到这个词汇相关的热度，以及这个词汇在媒体实验室上用数据展现的一些角度和一些分析维度，还有跟这个词汇相关的全部报告。甚至这个词汇对应的用户画像都能够展现给用户。

比如我现在演示的一个搜索，在上面可以进行丁俊晖和林丹的热度对比。可以发现在最近一个月内，与这两个人相关的热点分别是哪些。同时我们还能对这两个词进行相关的关联分析，也就是什么样的关键词与它们同时出现的概率最高。还有相关内容，有什么样的文章是来描述他们是相关的，人群画像什么样，以及在跟他们相关的文章中间用户的评论是什么样的。

我们希望这个平台在提供这些功能之后能够让创作者在创作内容的时候，更加有据可依，有数据可用，跟分发平台配合的更好，能够让自己创作的优质内容释放出更大的价值。同时呢，大家看到这个搜索框以及产生的结果，也会很容易的联想到像谷歌趋势，甚至于前一段时间比较火的微信指数，还有老牌的百度指数这样一些产品，实际上我们能够提供的数据和功能跟这些产品也是类似的。一些跟内容有关的传播、营销等方面的人员也都可以把这个数据产品作为他们重要的工具之一。

然后第二个栏目是我们对于热点追踪的展示，这些是当下已经发生的一些热点，它会根据热度高低浮现在我们的热门事件榜单上，同时我们除了计算绝对热度，还会按照热度的飙升值，也就是相对于上一个周期所产生的增量来进行飙升值的排序。

剩下第三个栏目就是我刚提到的UGC的实时爆料，今日头条的用户在看到一些未经报道的新闻线索的时候对我们给到一些爆料，经过审核之后会在我们平台进行放出。

另一个比较重要也很受欢迎的模块是我们的数据报告栏目，在这个栏目下面我们会实时的更新今日头条整个公司各个部门发布的与数据有关的报告，以及头条的一些合作伙伴与我们共同发布的一些数据报告，我们也把这个数据报告栏目作为创作者引用参考资料的一个重要来源。

最后是给用户定制的一个自定义板块，多词监控。因为我们考虑到在前面的热词搜索中，大家只能输入一个词。而事实上有很多事件是由多个词来交叉才能够指定的，所以当用户需要分析这样的事件的时候我们可以在监控事件中间输入自己关注的多词，在这里找到相关的数据分析，包括这个多词所产生的指数、热闻、爆料、视频还有评论的数据。

刚刚给大家找到这些截图都是媒体实验室在与一些优质的媒体、自媒体或者是媒体机构，在一些关键的时间节点上产出的我认为比较有价值或者有意思的数据新闻。我挑其中的一两条来说，比如说在两会和奥运会期间，我们媒体实验室主要给央视、新华社以及地方都市报这样一些媒体来定点定时的提供全国甚至全世界热点事件，每一个细分的人群或者地域，他们所关注热点分别是什么，以及进行相应的解析。在与财新网的合作中，有一个希拉里的谢幕曲线，实际上是用实验室的数据来支撑的。而在北京台、东方台进行的新闻盘点中，也是利用媒体实验室的热度来进行的排序。

双十一、雾霾以及永远在路上这样的纪录片播出时，我们用数据呈现了不同的词之间的关联，来解释相关的话题。在雾霾的时候我们展示了不同地域的人对于雾霾关注的变化，与雾霾的变化同时移动的趋势。

最后我要提出的是南方周末跟我们曾经一起做过的深度报道，当时也是疯狂的学区房。学区房价格疯长的时候，他们想对学区房疯长的故事以及背后的深层次原因进行剖析。这也是媒体本身的调性所决定的。然后我们媒体实验室在中间起到什么样的作用呢？我们可以给他们进行用户的画像，以及文本词语的分析。我们发现跟学区房相关的除了他的位置、政策以及它的价格等等我们能想到的因素之外，另一个非常让人意外的因素就是学区房跟离婚是非常相关的。每当有学区房相关的新闻的时候，离婚这个词总是会很高概率的出现。这跟记者在实地采访的过程中遇到的故事也是吻合的。所以最后报道呈现的过程中，相关故事的细节和我们对于数据的分析被放在了同一个版面上，我们认为这是一个很好的融合报道。

除了我刚才提到的那些场景和合作的案例，实际上还有很多体现不出来的媒体实验室的场景，用在了报纸上，或者电视屏幕上。这其中包括当一个媒体或者自媒体需要去报道一个要花很多时间的选题时候，我们会去帮他们判断，这个选题在文章或者成品已经出来之后热点还会不会持续？以及选题是不是有针对性的受众，对于这个媒体是不是有足够的收益？比如在南方暴雨期间有的媒体向我们求助说，当地有一些省份可能没有受到足够的关注，但是他们仍然想要报道这些省份发生的故事，想知道在当地是不是有这样的群众基础。或者是在一些非常高热度的话题出现的时候，往往会有很多的报道方向出现。媒体实验室能够通过文章簇的功能分析出目前市面上已经出现了哪些报道的角度，这些报道的角度又是否拥挤，还是宽松，是不是值得新的入场者去再进行写作。尤其是在现在视频已经成为一个很大的内容封口的情况下，对于视频的投入实际上需要很高的成本，那么如果要拍视频，在什么领域拍，用什么样的角度去拍，拍成什么样子，在什么样的地方，以什么样的形式去分发可能都是媒体实验室能够提供一定的数据依据的场景。而且场景可能并不能在我刚才提供那些电视的截屏上、报纸的版面上、新媒体的网页上或者微信端直接的呈现出来，它是融入到了每一个优质创作者本身的生产过程中间去了。

借助媒体实验室我们想做一件什么样的事情呢？实际这两张图是我们一个很简单的愿景，我们是想让今日头条不仅仅成为媒体内容的一个分发平台，同时，我们在凭借自己高效的分发产生的数据来再产生价值的时候，能够把用户这一端产生的所有的行为画像等等海量的数据样本再反过头来去反哺媒体内容，让媒体更好、更有效地生产出最高价值的内容，并且能够再次推进我们的分发。这样我们就形成一个媒体和平台关系的再造，也相当于是平台用数据反哺了媒体。并且我们在这个地方还把媒体的概念进行延伸，它不仅是传统的媒体机构，还包括了很多自媒体作者，甚至有媒体传播目标的一些公司和项目。

这些都会是我们的服务对象，或者是将来会产生更大想象空间的领域。

这个是我们目前媒体实验室的二维码，主要针对我刚刚讲过的那些人群，是通过审核的机制来开放的，我非常欢迎各位给我们的这个产品来提意见。

那阅读数据还有什么其他的想象力呢，实际上除了我刚才提到的服务创作的媒体实验室之外，我们部门还在做很多其他的很有意思的项目，比如接下来我的这张截图实际上是在讲，去年一年为什么vivo跟oppo这两家厂商成为市场上面风头非常劲两家厂商。

这两家厂商最大的市场优势实际上是在三四线城市建立起来的，为什么呢？因为三、四、五线城市对于手机参数、性价比等方面的阅读表现并不敏感，他们跟一二线城市的阅读的差别非常明显。三、四、五线城市数据显示，他们关于手机体验的资讯阅读量高于一、二线城市百分之七十。那么什么叫做手机体验的资讯呢？比如“充电五分钟通话两小时”，这就是所谓的体验方面的资讯。而一、二线城市呢，用户还要关注手机本身的参数，所以可能跟oppo、vivo线下的推广方式以及他们的市场对自己品牌的塑造有关系。我们从阅读数据这个角度来向大家呈现这一点，我认为这也是阅读数据的一个很有意思的想象力。

另一张图片也很有意思，是我们在春节档期间对上映的四部电影进行了评论，以及对文章本身正负相的分析，来看出它们跟票房之间的关系。这一点我开篇的时候也提到过，与谷歌曾经做过一个项目很类似。后来我们发现每一部电影的票房收益程度跟它在今日头条上正负面评论趋势是完全正相关的。其实我们可以看到在春节档最大的两个赢家应该是《乘风破浪》和《功夫瑜伽》，而之前备受关注的《西游伏魔》以及《大闹天竺》可以说在最终的票房是败下阵来的。

最后这两张图的左边是我们对15年各月股民看涨看跌文章的比例进行的一个分析，我发现它与大盘的走势有些微妙的联系。我们看到，看涨除以看跌的比例实际上是领先于大盘指数的。而股民本身对下跌有关的文章产生的篇均阅读数，或者与上涨有关的股票文章产生的篇均阅读数，跟大盘的走势基本上是完全相同。从今日头条的阅读数据中也能体现出二级市场股民的情绪传递。

右边这张图是联合国发展署想在中国选一个代言人。他们希望头条的阅读数据能够帮助他们在知名度、美誉度、契合度甚至风险度等等综合考量情况下，再考虑到这个明星一定要对年轻人有足够的影响力，输出一个代言人的列表给他们，最终我们通过阅读数据也给到了相应的答案。

以上就是整个讲座的全部内容，也希望大家可以更多的关注我们的媒体实验室和今日头条算数中心所做的一些数据方面的项目，谢谢大家。

提问交流环节

@上海社科院研究所-王蔚：我先问两个小问题，一是你们所做的用户画像、用户行为分析，一定是注册用户吗？注册用户和非注册用户之间的数据获取有什么不同么？二是看到许多有意思的相关性分析，我想问现在对于这些相关性的解读，尤其是对出乎意料之外的相关性的解读，是否目前主要还是由媒体、自媒体等内容生产者在做呢？

@今日头条-刘志毅：1.不一定是注册用户。注册用户与非注册用户在产生了阅读行为之后都会拥有一样的user id，我们会对这两种用户进行一样的分析，本质上没什么区别。2.解读是机器不能自主完成，而需要专业的认识来进行的，这也是我们的数据希望达到的激发、启发的作用，目前确实主要还是由媒体、自媒体等内容生产者在做，也有一些垂直领域的专家和机构我们愿意去合作，比如我们曾经也和创投机构一起研究过创业项目创业领域和舆情热度之间的关系。

今日头条网页(今日头条网页版入口)

@主持人-戴玉：所以其实带有很多智库的特点？基于头条数据的智库？

@今日头条-刘志毅：可能还到不了智库的层面，因为终究头条的阅读数据只是一个单一信源。但是我们很乐意成为智库做研究时的数据工具之一。

@对外经贸大学-张淑玲：感谢志毅分享，也感谢戴老师的精心组织，我想问一下，头条平台收集和挖掘到的用户画像等数据是否都属于保密的专有数据？可否提供部分给学界供研究使用呢？

@今日头条-刘志毅：与学界的合作其实我们也是很早就开始了。和中山大学、北京大学、人民大学都有过很好的合作，只需要双方对目标达成一致，这个数据是可以在合作中来研究使用的。

@主持人-戴玉：也有公司把实地调研、深度课题研究和公司数据结合起来去研究，不知道头条主要是基于自身数据去做横向应用（头条+的模式），还是打算和其他数据打通做成阅读领域（传播数据）的垂直应用呢？

@今日头条-刘志毅：如果和垂直领域的专门机构去合作的时候，很容易就能生产出带有智库特点的一些内容，这种模式确实也是我们做得很多的：头条阅读数据+专业领域经验与分析。我们目前还不打算将模式固化下来，但是你这样分类下来，我觉得目前做得比较多的还是前者。

@滴滴-汪艳：插问一下，比如说同样分析一个社会问题，头条的阅读数据和百度、微博、微信等平台指数相比优劣势在哪里呢？

@今日头条-刘志毅：这个问题恰好也是我最近在研究的，实际上微信指数推出了之后，指数界又多了一个大玩家。我个人的理解是，这些数据的最大不同来自于他们的样本来源，也就是受本身产品的基因影响，百度是基于搜索尤其是PC端，微博微信是基于社交发酵更多，而头条的数据则是基于智能分发的，这种用户场景的区别可能会带来比较大的不同。更多的具体优劣，可能一时半会说不清楚，case by case地来看，作为数据人员应当是取各家所长的吧。

@上海社科院研究所-王蔚：我还想问一下，头条在采集用户这些行为数据时，是否需要事先由用户授权？如果需要，受众是在什么阶段来获得授权的？如果不需要，采集数据本身现在或者将来是否有可能受到一些管理规定的限制？

@今日头条-刘志毅：我没来得及细看用户协议，但是我自己作为一个用户来说，我使用打车软件、外卖软件、阅读软件等等的时候，我的数据显然都是在我未专门授权的情况下被收集了。按照惯例，我们的分析都是在数据脱敏即不涉及个体的情况下进行群体分析的。我也认为除了行业自律，有更多的有牙齿的管理规定，会更有利于数据行业的发展。

@主持人-戴玉：各家公布一下用户结构（取样范围），如果有的话。

@我在现场-沈杭珍：头条数据发布前先偏正么，还是原生态发布。就内容生产者的感受，头条用户和微信用户，百度用户，天天快报用户，阅读习惯不太一样。

@今日头条-刘志毅：我觉得阅读、使用习惯不一样恰恰是数据需要体现出来的，不是需要被纠掉的“偏”。否则各家的数据都一样，就除了互相印证没有别的价值了。被纠偏的部分应该是，在研究某一个具体问题的时候，如果取样不够全而导致的样本偏差，如地域年龄性别等等因素分布过于极端不够有代表性，那么这个时候需要纠偏。同样，这个是case by case的。

@上海社科院研究所-王蔚：@戴玉是啊戴老师，用户结构一定是对数据结果有很大影响的，但其实这些数据，如果能够找到一些出乎意料的相关性，进而帮助分析出变量之间的因果关系，已经很有价值了。

@今日头条-刘志毅：如果是全局的数据，我们是原生态发布的。事实上，我们也跟CNNIC出的连续几版大报告的数据去对过，基本上因为覆盖的面很广了，比例构成都很相似。@王蔚这就是各家数据结合的一个很大的价值所在。

@主持人-戴玉：我感觉首先是个探索吧，先探索阅读数据的各种使用场景和可能性，后面就好做了。

@上海社科院研究所-王蔚：是的，我们也特别关注头条。期待今后能够和你们合作，做一些有意思有价值的研究。

@今日头条-刘志毅：非常欢迎！

整理/ 李安娜高赫

排版/ 肖喻心

| ||

| |

| | |

一图观政

微信号：P100017