V2EX › encro 的所有回复 › 第 125 页 / 共 161 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 121 122 123 124 125 126 127 128 129 130 ... 161

❮

❯

2020-02-22 10:00:51 +08:00

回复了 23571113 创建的主题 › C++ › 如果读文件的速度比处理的快怎么办

@laminux29
@FrankHB

除了先画图，或者直接编程，有一种中间方法是先写注释，写注释过程过程理清楚，注释中说明为什么要这样做，然后写代码时填空即可，时间不多（必要），代码质量还高，且不容易出错。
一般我都会采用这种方式，偶尔涉及到比如多个系统多次交互，可能需要先画图。

2020-02-22 09:50:47 +08:00

回复了 mawerss1 创建的主题 › MySQL › 请教一个 mysql 批量插入的问题

@mawerss1
执行两次，
第一次找出已有的 update，
第二次不存在的 insert。
记得采用事务。

2020-02-21 20:49:29 +08:00

回复了 mawerss1 创建的主题 › MySQL › 请教一个 mysql 批量插入的问题

采用事务后，如果几千条数据，插入更新下应该几秒钟搞定了。前提是建立了合理的索引。当然如果你 data 非常大可能久一点。

你这个需求还是不明确，INSERT ... ON DUPLICATE KEY UPDATE Statement 的意思如果唯一索引不存在就插入否则更新。并不能指定其他条件。这篇文章讲得很清楚了 https://blog.csdn.net/analogous_love/article/details/71085001。官方语法也没有提供扩展 https://dev.mysql.com/doc/refman/8.0/en/insert-on-duplicate.html。

所以除非你是根据 ID 来的，或者定了一个唯一索引。且实际不是你说的 “比较新的插入，否则失败”。

我理解你的需求应该是“如果数据有更新，那么执行更新，否则忽略这个数据更新。”
如果是我理解的，那么方案是：
update order set data=new_data where id=xxx and modified_time < new_time; (只需要 id 主键即可，性能最好)
比如你的目的表数据不全部来自来源表，那么可能需要加一个唯一索引字段 from_id
update order set data=new_data where from_id=xxx and modified_time < new_time;（需要对 from_id 建立唯一索引）

你首先要做的是，确定性能问题出在查找数据时的读取磁盘速度慢还是写入磁盘慢。

2020-02-21 16:00:40 +08:00

回复了 xFrank 创建的主题 › PHP › PHP 里面怎么可以在 index. PHP 里面获取到子路径？

一下点开了 http://xxx.com ，你猜看到什么了。。。

4 楼正确，不过最好看你用的什么框架，可能还需要加上$is_args, $args 等参数。

2020-02-21 15:57:24 +08:00

回复了 mawerss1 创建的主题 › MySQL › 请教一个 mysql 批量插入的问题

采用事务提交后，应该几秒钟可以插入几千条吧，你 modified_time 没有索引？

其实这个方案不好，因为 modified_time 可能存在同一秒有多条数据吧。

不知道你具体的需求场景是什么，脱离需求场景谈 SQL 优化很不靠谱。

2020-02-21 14:58:24 +08:00

回复了 mawerss1 创建的主题 › MySQL › 请教一个 mysql 批量插入的问题

一条一条插入，然后采用事务批量提交看看，性能也可以的。

2020-02-20 23:07:48 +08:00

回复了 0x0000000 创建的主题 › 问与答 › 大家下班回家后都有什么事情干？实在太无聊了

@kissazi2 本来打算给你点个感谢，结果留微信了。。。

对，
就是挖井。。。

2020-02-20 23:03:59 +08:00

回复了 l4ever 创建的主题 › Python › BeautifulSoup 找到的内容, 属性为什么是倒过来的?

三个方法：
1，print(s)改为 dir(s)
2，直接用 ipython 看一下
3，直接用 ide 调试看

2020-02-20 23:01:33 +08:00

回复了 MrhuangSTR 创建的主题 › Python › 各位大佬有什么好的办法解析网页中不规整的表格吗

原来是表格啊。
不太可能有通用的，因为表格就不规范。
你只能根据不同类型自己去写解析程序了。

提示下：
table 的 tr 下是 td，td 有两个属性，rowspan 和 colspan，它们的值就是分析表格的关键。但是对于这种不规则的，只能自己写程序，看有多少种类型，就微调下吧。

2020-02-20 22:51:53 +08:00

回复了 MrhuangSTR 创建的主题 › Python › 各位大佬有什么好的办法解析网页中不规整的表格吗

直接使用 xpath 或者 css 遍历，最简单网站了。

2020-02-20 22:49:24 +08:00

回复了 l4ever 创建的主题 › Python › BeautifulSoup 找到的内容, 属性为什么是倒过来的?

这个，只能看源码吧。
如果没有记错的话，反转不是直接利用原来文档，是重新生成了，要原来文档有一个双下划线的属性。

2020-02-20 22:43:20 +08:00

回复了 SlipStupig 创建的主题 › 程序员 › 被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

@SlipStupig

曾经负责两个世界排名 1000 以内的社区，
每天发布内容条数十万以上吧，
识别联系方式过滤是最有效的，
逐渐优化后达到 95%以上。

既然是小公司，追求智能不一定划算，因为样本不够，且调试过程比你逐渐完善过滤机制代价更大。
当然如果是公司事少、不考虑成本、或者学习目的，那么肯定是可以的。
我文章中开源方案提到一个，我没有实际使用过，[使用 TensorLayer 训练一个垃圾文本分类器] https://github.com/pakrchen/text-antispam

2020-02-20 21:18:08 +08:00

回复了 SlipStupig 创建的主题 › 程序员 › 被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

新鲜出炉的 BLOG 文章：
论坛和社区如何防止垃圾文章和评论： https://c4ys.com/archives/2058

包含：
通过关键词库识别 spam 内容
通过联系方式特征识别 spam 内容
通过用户身份识别 spam 内容
通过操作特征识别 spam 内容
识别后的处理
开源方案
商业方案

2020-02-20 19:47:44 +08:00

回复了 SlipStupig 创建的主题 › 程序员 › 被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

要自动发现垃圾信息，不用机器学习，简单分词即可：
1，比如将所有历史垃圾内容进行分词，抽取特征词库（其实也可以人工建立和导入网络上的词库）；
2，对发布的内容进行分词，如果发现特征词超过一定数量，且存在疑似联系方式的的（这点很重要，因为都会留联系方式，而识别联系方式很简单，甚至有这一点你分词可以不做），直接进入待审核，用户账号进入禁言状态；

但是必须还需要提高作案成本，比如：
1，防止自动发帖工具（验证码，手机注册）；
2，防止人工发垃圾帖（ IP 黑名单，手机号黑名单）；

2020-02-20 19:32:24 +08:00

回复了 SlipStupig 创建的主题 › 程序员 › 被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

重要的是你连自己要防的是对象人还是机器都没有确定。

假设对方是人，如果你不提高注册门槛，根本没法用机器的方式防住，

贴吧，V2 很多论坛都有人工复审

2020-02-20 19:26:54 +08:00

回复了 SlipStupig 创建的主题 › 程序员 › 被 spam 评论给弄疯了，如何有效的建立机器学习模型呢？

比如参考 v2，注册后需要一天才能发信息；
比如参考恩山，需要邀请或者花钱才能注册；

33 楼的可以根据实际情况，找到办法解决。

2020-02-18 13:39:41 +08:00

回复了 RealGM 创建的主题 › 程序员 › V 友们谁会开发社区团购小程序请留言哈！

长沙有一个专门做团购的，
前几年开发了几十个，
去年底只剩几家了，
少于三万是不太可能做出能用的东西的。

1 ... 121 122 123 124 125 126 127 128 129 130 ... 161

❮

❯