» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[其他] 我爬取了流浪地球下2313条影评及用户的注册时间


功辰 (莱芜) 2019-02-08 11:25:34

作为一只不善交际的工科狗,热闹春节里的大部分时间都在刷手机中度过。
本想着静静的看友邻们吐槽晒照,没曾想,豆瓣的新年比现实更热闹。
作为豆瓣摸爬滚打(看戏)多年的资深游客,为了一部电影无休无止的讲道理,与我印象中友邻“你好 or CNM”的干脆利落大相径庭。
我的第一反应是 可能有水军
所以出于调查有没有水军的动机,本着动口不如动手的朴素工科品格,我写出了我的第一个爬虫程序。由于豆瓣不会显示全部短评,因而选择爬取影评。虽然使用的代理ip,但最终我的账号还是来到了“证明自己不是程序”的验证页面。最终2017-02-07 23:17开始爬取,爬取开始时影评数4585条,共爬取自 2017-03-05 10:58:19 至 2019-02-07 10:56:15 的2313条影评信息,期间豆瓣用户们已经煞有介事的讨论过一阵了,所以我认为结果是有代表性的:


有效数据 共2313条






影评打分分布图




我首先统计了给出1分评价和5分评价用户的注册时间


1分评价用户注册时间分布






5分评价用户注册时间分布




严谨的说,统计样本内给出1分影评的用户中应该是没有有组织有纪律的集体注册账号的打分活动的。
而5分影评中,2019.2月注册的用户数量明显占很大比例,但是仅凭这一点得出结论,因为还有其它可能,比如“豆瓣焕发第二春了”。
于是我们对比下4分影评的统计结果,因为我认为一名专业的水军应该是无私的,是抛开了个人感情的,是要坚决的为打分事业贡献终生的,是不会打4分的。

可以得到,给出4分影评的用户中,2019.2注册的用户比例为13%,这一比例在5分评价的用户中为19%,我认为这是一个可以接受的偏差,换言之,就是有大量的观众在看完《流浪地球》后专门注册了豆瓣账号来对该片进行打分,表达自己的想法。再换一种说法:此时豆瓣总部的用户部门会惊奇的发现新用户注册数量在大年初一后增长的风生水起,《流浪地球》让豆瓣焕发了第二春!
再来看下3分影评的统计结果


3分评价用户注册时间分布




用户注册时间所占比例与1分评价基本一致,由此基本上可以得出结论:
《流浪地球》下热烈讲道理中的主要矛盾是豆瓣新用户与老用户间评分标准、价值观念及网络使用惯性的矛盾。
作为一篇科研小品,文章至此就应该结束了,以下是私货:
童年刚刚接触电影时,我蹲坐在小板凳上,顶礼膜拜的看完了星爷的《功夫》。刚看完时那种恨不得想让全世界都知道这部电影有多精彩的感受现在还能有余味,而分享也是豆瓣社区得以欣欣向荣、大家得以相聚在此其乐融融的内核之一。
但随着观影量的提升,我会去五刷《霸王别姬》三刷《Fight Club》甚至看两遍《No Country for Old Men》,但我不会再去看第二遍《功夫》。《功夫》于我,就像熟稔而亲切的小学老师,虽然个人的知识水平有限,但却是将我领入知识殿堂的最最出色的引导者。
对于给出较低评价的友邻们,我想说的是在全国年人均观影量不足两次、影片质量滥竽充数、guandian审核滴水不漏的中国,《流浪地球》能成为众多国内观众观影的启蒙者和引导者,也是一件幸事。
而对于可能也可能不会成为未来友邻的新用户们,希望你们能在“尊重”“包容”“平等”的前提下,尽情探索豆瓣社区,享受书、影、音等人类艺术和智慧的结晶带来的无尽乐趣。
希望更多的人能看到。
————————————————————————————————————————————
没有爬取短评和评分的原因是豆瓣只开放最新的100条短评和热门评价,但影评是可以全部获取的。
有友邻提出了新用户打分可能不会被采纳的问题,我给出使用我统计结果计算的评分提供参考,因为爬取至2月7日10:56的评论,当时的评分是8.2?


样本数据计算评分




刚图片被人尴尬盗用,加了水印,转载请注明出处
文章中已经解释过的问题不再一一解答




TOP

发新话题
     
官方公众号及微博