cowcomic 最近的时间轴更新
cowcomic

cowcomic

V2EX 第 73524 号会员,加入于 2014-09-11 08:31:32 +08:00
cowcomic 最近回复了
第一个实际就是字典,只不过可以用很高效的查找型字典,比如双 Trie 树之类的

第二个应该是 chrome 的分词功能,分词干的事情都差不多,不管是 ES 里面的分词还是 chrome 的分词,但技术原理会有一定差异,比如有些是字典加状态机,有些是字典加 HMM ,有些是纯深度学习。对分词有兴趣可以去看看斯坦福的 coreNLP ,hanLP ,结巴分词,有很多介绍他们原理的文章

上面这些都涉及到 NLP 相关的算法,对这方面感兴趣可以找一些 NLP 相关的算法看看
@Terminator0826 spring issue 上的回复是 5.1.x 不维护了,回头换个高版本的试试
@zhenjiachen 好,回头试一下
@cp19890714 嗯嗯,之前就是没头绪,看了回复有了一些可以试的了
@feelinglucky
@hccsoul
服务器和容器都是正确的时间,是 CST 时间,而且提前的时间也没有规律,不是每次都提前一个整点,而且每次时间都不一样,目前看还没超过两小时,但没啥规律忽短忽长的,也都不是整数
@iamv2er 重启过,问题依旧,包括把 pod 删了重新冲 habor 拉个新的镜像都没用
@TUNGH
@feelinglucky
@ChovyChu
Schedule 用的是多线程,而且目前设置定时的只有三个,早上 8 点一个,晚上 22 点一个,晚上 23 点一个,这三个任务从日志看执行都很快完成了,而且是从服务启动开始就没一个准的,都提前了,应该不是任务积压的问题
87 天前
回复了 acctv2 创建的主题 程序员 Windows 上有没有一款好用的 PDF 阅读器?
我一直用的 wps ,感觉也可以
挺好的,有几个正好需要
121 天前
回复了 xuAN111 创建的主题 程序员 我这个爬虫是否违法?
可以从两个维度来衡量

数据公开维度:
首要考虑数据是否是客观意义上的公开数据,还是面对特定人群的。某电商的商品信息就是公开数据(即使是登录才能看也算是公开的,因为并没有对登录后的身份做区别限制,也没有对注册做限制),但商家后台的订单信息就是面对特定人群的。面对特定人群的爬虫行为一定涉及侵权(无论是否商用,哪怕自己只是归档存储也会认定)
公开数据再考虑对方 robots 协议是如何制定的,这部分的约束性稍微较弱,不遵守并不会一定被认定侵权,所以很多大公司的爬虫的确也不遵守,是有隐患的(如果有很明显的商用,那就会惹麻烦,只要不商用,通常会被睁一只眼闭一只眼)

系统影响维度:
这个就简单了,就看爬虫会不会影响目标站点的正常运行,只要有比较大的影响,不管在数据公开维度是否有问题都会被认定侵权。以前采过一个地方网站,采集内容都是公开的信息,但是没控制好并发,把这个网站采挂了,那该负责任负责任,没啥说的
真挺好的,认真负责
168 天前
回复了 kestrelBright 创建的主题 程序员 求教 mysql 表设计
如果只是用来进行还款记录和逾期搜索,第一种就能满足,觉得不太好的原因是还有别的业务吗?
关于   ·   帮助文档   ·   博客   ·   nftychat   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   1517 人在线   最高记录 5556   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 17:26 · PVG 01:26 · LAX 10:26 · JFK 13:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.