写在最前面:个人感觉 V2EX 信息熵开始走低,所以部署了一只爬虫以极慢的速度爬取了 V 站的所有主题及回复来提取价值较高的主题,并一直更新数据至今。现打算定期拿出来分享一下,给那些时间不多,但是又不想错过 V 站精彩主题的朋友们。周报以周一起,周日止,每周二 /周三发布上一周的周报,数据均截止于发帖时的数据进行排序。有很多数据并没有使用起来,以后会慢慢增加周报的内容。
其实也做了一个简单的展示页面,但是还有些不完善,等完善了再发布吧。另外 V 站各位有开发各种浏览 V2EX APP 的同学可以和我联系下,我可以免费提供一些 API 有日报、周报、月报、各种时间段各种数据的排行榜,以及各时段的在线人数走势之类的数据。
那么,第一期就这样吧~
注:主题得分依据投票、感谢、回复、点击、收藏以及回复质量计算而得;回复感谢排行下的回复均为当周主题内的回复,久远的主题中近期回复会进入总榜但不会进入周报。
1
Leo 2015-11-25 09:34:44 +08:00 1
有点意思,感谢
|
2
BuilderQiu 2015-11-25 09:41:15 +08:00 1
nice job
|
3
SeanChense 2015-11-25 09:43:31 +08:00 via iPhone 1
熵--表示混乱度。
|
4
sciooga OP @SeanChense .. 原谅我的错误,感觉每次发点什么都会闹笑话。
|
5
111111111111 2015-11-25 09:57:54 +08:00
果然有些热闹的帖子被我错过了,感谢
|
6
Felldeadbird 2015-11-25 10:04:37 +08:00
不错,以后可以定期找遗漏的热门 V 贴
|
7
caiya21 2015-11-25 10:04:44 +08:00
顶贴来了,顺便来看贴
|
8
vainly 2015-11-25 10:13:03 +08:00
总感觉会出现,结果就出现了。
|
9
WildCat 2015-11-25 10:15:35 +08:00 via iPhone
赞!
iOS 客户端开发者出现了,希望具体沟通。 i(at)wildcat.io |
10
keniusahdu 2015-11-25 10:17:20 +08:00
不错.定期看周报了.不刷贴了.
|
11
kenshinhu 2015-11-25 10:17:51 +08:00
求爬虫教程
|
12
Mrxx 2015-11-25 10:21:00 +08:00
做成微信号订阅,省去很多时间
|
13
sciooga OP @kenshinhu V 站的爬虫没什么技术含量的... 单一 IP 只要爬取速度不太快就不会触发 1800 秒了,然后想怎么弄都行了。
这个爬虫有几个爬取方式,一个是通过 v2ex.com/changes 获取到最新的无过滤的主题更新列表 一个是根据时间段划分主题 ID 进行爬取(分速度,近期的更新快些,越久远速度越慢) 然后需要登录才能查看的主题带上 A2 这个 cookie 就行了。 |
15
Devin 2015-11-25 10:41:22 +08:00 via iPhone
熵只增不减😏
|
17
sunpj 2015-11-25 10:49:38 +08:00
棒棒哒
|
18
fakir 2015-11-25 10:53:52 +08:00
good
|
19
Ellison 2015-11-25 10:55:29 +08:00
这个赞,收藏先,期待下一期
|
20
xiaoc19 2015-11-25 10:56:27 +08:00
赞一下啦
|
21
hauk0101 2015-11-25 10:56:41 +08:00 via Smartisan T1
有趣
|
22
MrJing1992 2015-11-25 10:58:56 +08:00
good ,我预测楼主的贴子会登顶楼主的榜单,感谢楼主
|
23
kyonnn 2015-11-25 10:59:45 +08:00
哈哈好棒!看到我的名字了!!!!
|
24
cwhong4399 2015-11-25 11:01:29 +08:00
如果能长期弄下去,可以考虑让 L 大弄个节点咯
|
25
JayFang1993 2015-11-25 11:07:11 +08:00 via iPhone
这个棒 nice
|
26
kyonnn 2015-11-25 11:14:29 +08:00
特意百度了一下“信息熵”,完了,发现自己智硬,抽搐惹……
|
27
nevermind1998 2015-11-25 11:20:47 +08:00
居然錯過了要賣 mac mini 的妹子
桑心 |
28
sciooga OP @kyonnn 大运营你好呀~ 弄不懂就算了,我也是高中时候看压缩算法了解了一下而已,恍恍惚惚又过去几年了。
|
29
Pastsong 2015-11-25 11:29:18 +08:00
居然错过了要卖 Mac mini 的妹子,我这一周在 V2 都在干什么啊!
|
30
DIYgod 2015-11-25 11:32:39 +08:00
回复质量是怎么算的
|
31
SpicyCat 2015-11-25 11:33:00 +08:00
方便的话,能否开源下爬虫代码?
|
32
RockShake 2015-11-25 11:34:14 +08:00
Nice
|
33
mornlight 2015-11-25 11:34:56 +08:00
看起来即使是同一个帖子,也会经常爬一下更新感谢数和回复数?
另外,既然存了帖子标题,楼主有没有考虑过开放一个标题搜索功能? |
34
aheadlead 2015-11-25 11:36:19 +08:00
可以开放个邮件订阅吗
|
35
sciooga OP |
36
sciooga OP |
37
arbipher 2015-11-25 11:41:37 +08:00
有点意思
|
38
loryyang 2015-11-25 11:43:34 +08:00
顶 lz ,也认同部分低质量帖子变多的感觉
PS :记得统计里面把这个帖子去掉。。。 |
39
heyf 2015-11-25 12:19:24 +08:00 1
@SeanChense
@sciooga https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA) 在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。 错的不是你(是世界) |
40
s5s5 2015-11-25 12:24:17 +08:00
楼主好人啊
|
41
Bairrfhoinn 2015-11-25 12:28:28 +08:00
好是好,但是开头那壹段文字就不能用正常大小的字体来书写嘛,实在是太细了,看得人眼睛都要瞎了,为了看清楚说的什么,我都是把浏览器字体放大放大再放大才开始继续阅读的。
|
42
sciooga OP @Bairrfhoinn 不好意思了,以后要有简单说明会放大些的。
|
43
v23ex 2015-11-25 12:35:57 +08:00
得分是如何计算出来的?
|
44
RyuZheng 2015-11-25 12:38:55 +08:00 via Android
之前有人也做了周报,还可以订阅发送到 kindle 但是后来不知为啥就没更新了
|
45
haitongz 2015-11-25 12:42:14 +08:00
喜欢
|
46
endpoint 2015-11-25 12:53:25 +08:00
我倒是想看看爬虫怎么写的。嘻嘻
|
47
ameba 2015-11-25 12:55:50 +08:00
这篇感觉也能进日报
|
48
xiangjian 2015-11-25 13:12:37 +08:00
这个不错。 相当有料
|
49
Mavious 2015-11-25 13:37:02 +08:00 via Android
可以球一个 rss 订阅嘛?一周推 n 个热门帖子看看😉
|
51
smartdie 2015-11-25 13:59:49 +08:00
楼主搞个微信订阅号吧,省去手机上看了。
|
52
PrideChung 2015-11-25 14:00:28 +08:00
我看走眼了,以为看到了
今天被老爸教育要攒钱买房子, 于是我攒了一个黑苹果 [:doge:] |
53
sciooga OP @PrideChung 顺带说一下, V2EX PLUS 更新至最新版是支持快捷键发送的,这样就不会把 doge 那个标签发出来了。
|
54
moufuli 2015-11-25 14:04:14 +08:00
希望可以推送至 kindle ,查看周报汇总滴文章。
|
55
z7039585 2015-11-25 14:10:48 +08:00
挺好的 如果可以用邮件订阅就更好了 0 0
|
57
luili 2015-11-25 14:13:25 +08:00
我要把这个主题赞到十大
|
58
yiciyuansky 2015-11-25 14:15:14 +08:00
有意思
|
59
sciooga OP |
61
MinskyNg 2015-11-25 14:20:34 +08:00
支持一个
|
62
djyde 2015-11-25 14:22:00 +08:00
i'm in!
|
63
dreammes 2015-11-25 14:41:00 +08:00 via iPhone
支持一下
|
64
Qlccks2 2015-11-25 15:03:10 +08:00
本周回复感谢 - Top 10 有重复的吧
|
65
sciooga OP @Qlccks2 点进去就明白了,上面都是主题排行,最后一个是回复排行(也是我最喜欢看的),有重复说明主题下的多条回复都进入了排行。
|
66
eric227 2015-11-25 15:25:55 +08:00
点赞
|
67
vigoss 2015-11-25 15:38:47 +08:00
Nice
|
68
JackyHua 2015-11-25 15:40:33 +08:00
顶贴
|
69
shyrock 2015-11-25 15:42:16 +08:00
为什么要强调是极慢的爬虫?怕被 Livid 封掉?
|
70
quericy 2015-11-25 15:52:20 +08:00
忽然想起来这周周报还没写
|
71
sciooga OP @shyrock 我被封过好几次几天,不想麻烦去找代理,所以速度降低到很慢一分钟几个主题的速度,这样也省事不用怎么维护,写出来就是表明这个爬虫不会给 V 站服务器造成压力,没有什么问题的话还是别封了..
|
72
luckyzhe 2015-11-25 16:12:54 +08:00
有意思
|
73
well 2015-11-25 16:34:54 +08:00
有了这周报,以后不会盲目扫贴看了。
|
74
GPU 2015-11-25 17:03:13 +08:00
我帮你弄一个公众号如何? 嘻嘻
|
75
GPU 2015-11-25 17:03:37 +08:00
我有空就 QQ 你。
|
78
glogo 2015-11-25 17:06:09 +08:00
LZ 请收下我的铜币!!!
|
79
ibolee 2015-11-25 17:10:35 +08:00
这个内容要是出现在右侧就好了~
|
82
sobigfish 2015-11-25 17:39:01 +08:00
所以以后只要订阅楼主久好了-。-
|
83
sobigfish 2015-11-25 17:41:51 +08:00
感觉 lz 花的功夫比 admin 还多, V2EX plus 什么的,你自己弄个社区估计能比这舒服多了。。
何必为他人做嫁衣? |
85
jiehuangwei 2015-11-25 18:30:12 +08:00
@sciooga 给个建议吧,其实楼主是否应该考虑计算综合质量(俗称总分),然后再做 TOP 排行。
热门的帖子,其投票、感谢、回复、点击、收藏各个值一般都不低,否则就不是热门贴了, 如果再按照其各个维度进行排行,在前面的基本都是那么几个帖子,帖子重复度太大,而相对靠后的, 有一定质量的帖子就体现不出来了。 PS :没有看回复,不知道是否已经有人提出过类似这个的建议 |
86
matthewgao 2015-11-25 19:04:02 +08:00 via Android
@SeanChense 混乱度决定了信息量,从信息论的角度说楼主没用错
|
87
ershiwo 2015-11-25 19:11:51 +08:00
表示非常关注,谢谢楼主
|
88
1ychee 2015-11-25 19:22:24 +08:00
支持一个。目测这个帖子第二期肯定上了。。
|
89
sciooga OP @jiehuangwei 第一个得分排行便是各个项得分加权后的排行呀,重复是肯定的,很少有单一项特别突出的,但是某项特别突出的肯定不会被埋没,之前有个渐冻人论坛的求助在 V 站热门就没埋没了,但在我这的日榜看是最顶部的,因为得到的投票比较多。
|
90
wakemecn 2015-11-25 20:13:10 +08:00 1
@SeanChense 熵表示混乱度。熵值越低混乱度越大。信息熵越低,信息的混乱度越高,有价值的信息越少,和熵的概念不矛盾。建议看一下图灵的信息论在跑出来教育人。
|
93
loveuqian 2015-11-25 20:30:03 +08:00
有意思。。。
一直都很想做一个 V2 的 iOS 的 APP 虽然已经有很多了。。。 |
95
sciooga OP @wanll93918 我怎么记得是香农?
|
96
zho6 2015-11-25 21:15:27 +08:00
支持 周报
更期待月报和年报 |
97
kancloud 2015-11-25 21:29:34 +08:00
不错~
|
98
lane3000 2015-11-25 21:55:58 +08:00
干得漂亮,手动点赞~~
|