V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  encro  ›  全部回复第 125 页 / 共 161 页
回复总数  3207
1 ... 121  122  123  124  125  126  127  128  129  130 ... 161  
2020-02-22 10:00:51 +08:00
回复了 23571113 创建的主题 C++ 如果读文件的速度比处理的快怎么办
@laminux29
@FrankHB

除了先画图,或者直接编程,有一种中间方法是先写注释,写注释过程过程理清楚,注释中说明为什么要这样做,然后写代码时填空即可,时间不多(必要),代码质量还高,且不容易出错。
一般我都会采用这种方式,偶尔涉及到比如多个系统多次交互,可能需要先画图。
2020-02-22 09:50:47 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
@mawerss1
执行两次,
第一次找出已有的 update,
第二次不存在的 insert。
记得采用事务。
2020-02-21 20:49:29 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
采用事务后,如果几千条数据,插入更新下应该几秒钟搞定了。前提是建立了合理的索引。当然如果你 data 非常大可能久一点。

你这个需求还是不明确,INSERT ... ON DUPLICATE KEY UPDATE Statement 的意思如果唯一索引不存在就插入否则更新。并不能指定其他条件。这篇文章讲得很清楚了 https://blog.csdn.net/analogous_love/article/details/71085001。官方语法也没有提供扩展 https://dev.mysql.com/doc/refman/8.0/en/insert-on-duplicate.html。

所以除非你是根据 ID 来的,或者定了一个唯一索引。且实际不是你说的 “比较新的插入,否则失败”。

我理解你的需求应该是“如果数据有更新,那么执行更新,否则忽略这个数据更新。”
如果是我理解的,那么方案是:
update order set data=new_data where id=xxx and modified_time < new_time; (只需要 id 主键即可,性能最好)
比如你的目的表数据不全部来自来源表,那么可能需要加一个唯一索引字段 from_id
update order set data=new_data where from_id=xxx and modified_time < new_time;(需要对 from_id 建立唯一索引)

你首先要做的是,确定性能问题出在查找数据时的读取磁盘速度慢还是写入磁盘慢。
2020-02-21 16:00:40 +08:00
回复了 xFrank 创建的主题 PHP PHP 里面怎么可以在 index. PHP 里面获取到子路径?
一下点开了 http://xxx.com ,你猜看到什么了。。。


4 楼正确,不过最好看你用的什么框架,可能还需要加上$is_args, $args 等参数。
2020-02-21 15:57:24 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
采用事务提交后,应该几秒钟可以插入几千条吧,你 modified_time 没有索引?

其实这个方案不好,因为 modified_time 可能存在同一秒有多条数据吧。

不知道你具体的需求场景是什么,脱离需求场景谈 SQL 优化很不靠谱。
2020-02-21 14:58:24 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
一条一条插入,然后采用事务批量提交看看,性能也可以的。
2020-02-20 23:07:48 +08:00
回复了 0x0000000 创建的主题 问与答 大家下班回家后都有什么事情干?实在太无聊了
@kissazi2 本来打算给你点个感谢,结果留微信了。。。

对,
就是挖井。。。
2020-02-20 23:03:59 +08:00
回复了 l4ever 创建的主题 Python BeautifulSoup 找到的内容, 属性为什么是倒过来的?
三个方法:
1,print(s)改为 dir(s)
2,直接用 ipython 看一下
3,直接用 ide 调试看
2020-02-20 23:01:33 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
原来是表格啊。
不太可能有通用的,因为表格就不规范。
你只能根据不同类型自己去写解析程序了。

提示下:
table 的 tr 下是 td,td 有两个属性,rowspan 和 colspan,它们的值就是分析表格的关键。但是对于这种不规则的,只能自己写程序,看有多少种类型,就微调下吧。
2020-02-20 22:51:53 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
直接使用 xpath 或者 css 遍历,最简单网站了。
2020-02-20 22:49:24 +08:00
回复了 l4ever 创建的主题 Python BeautifulSoup 找到的内容, 属性为什么是倒过来的?
这个,只能看源码吧。
如果没有记错的话,反转不是直接利用原来文档,是重新生成了,要原来文档有一个双下划线的属性。
2020-02-20 22:43:20 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
@SlipStupig

曾经负责两个世界排名 1000 以内的社区,
每天发布内容条数十万以上吧,
识别联系方式过滤是最有效的,
逐渐优化后达到 95%以上。

既然是小公司,追求智能不一定划算,因为样本不够,且调试过程比你逐渐完善过滤机制代价更大。
当然如果是公司事少、不考虑成本、或者学习目的,那么肯定是可以的。
我文章中开源方案提到一个,我没有实际使用过,[使用 TensorLayer 训练一个垃圾文本分类器] https://github.com/pakrchen/text-antispam
2020-02-20 21:18:08 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
新鲜出炉的 BLOG 文章:
论坛和社区如何防止垃圾文章和评论: https://c4ys.com/archives/2058

包含:
通过关键词库识别 spam 内容
通过联系方式特征识别 spam 内容
通过用户身份识别 spam 内容
通过操作特征识别 spam 内容
识别后的处理
开源方案
商业方案
2020-02-20 19:47:44 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
要自动发现垃圾信息,不用机器学习,简单分词即可:
1,比如将所有历史垃圾内容进行分词,抽取特征词库(其实也可以人工建立和导入网络上的词库);
2,对发布的内容进行分词,如果发现特征词超过一定数量,且存在疑似联系方式的的(这点很重要,因为都会留联系方式,而识别联系方式很简单,甚至有这一点你分词可以不做),直接进入待审核,用户账号进入禁言状态;

但是必须还需要提高作案成本,比如:
1,防止自动发帖工具(验证码,手机注册);
2,防止人工发垃圾帖( IP 黑名单,手机号黑名单);
2020-02-20 19:32:24 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
重要的是你连自己要防的是对象人还是机器都没有确定。

假设对方是人,如果你不提高注册门槛,根本没法用机器的方式防住,

贴吧,V2 很多论坛都有人工复审
2020-02-20 19:26:54 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
比如参考 v2,注册后需要一天才能发信息;
比如参考恩山,需要邀请或者花钱才能注册;

33 楼的可以根据实际情况,找到办法解决。
2020-02-18 13:39:41 +08:00
回复了 RealGM 创建的主题 程序员 V 友们谁会开发社区团购小程序请留言哈!
长沙有一个专门做团购的,
前几年开发了几十个,
去年底只剩几家了,
少于三万是不太可能做出能用的东西的。
1 ... 121  122  123  124  125  126  127  128  129  130 ... 161  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1994 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms · UTC 06:05 · PVG 14:05 · LAX 23:05 · JFK 02:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.