V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  vibbow  ›  全部回复第 185 页 / 共 190 页
回复总数  3784
1 ... 177  178  179  180  181  182  183  184  185  186 ... 190  
2011-12-30 08:03:13 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
又改进了一遍代码,现在瓶颈在硬盘了。
10G数据,170秒全文搜完。
2011-12-29 08:51:48 +08:00
回复了 saynoyes 创建的主题 程序员 不知道V2EX上喜欢听歌的程序员多不多
下载了贝多芬全集,总共80多张CD~
听着古典音乐写代码很舒服~
2011-12-29 03:45:35 +08:00
回复了 liutanyu 创建的主题 问与答 网站到底是怎么弄的?
@leiz 同意,真正的PPMM的是不会放诱惑性头像的。
要不然LZ是男的,要不然LZ是恐龙。
2011-12-29 03:37:37 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
http://vsean.net/blog/post/98
我的全文搜索代码整理完成。
2011-12-29 00:58:05 +08:00
回复了 Livid 创建的主题 Firefox 关于下载 Firefox 洁版的地方
一般都是直接访问 http://www.mozilla.org/en-US/ 然后选Firefox简体中文版下载...
2011-12-26 10:01:52 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
@dndx GTalk ... 木有... 我直接开Gmail吧.... [email protected]
2011-12-26 09:57:17 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
@dndx 明文问题难道很难解决么?出去关键字外随机星号几个字符就行了。
2011-12-26 09:49:38 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
呃...
终于读懂了你的代码,不过你的代码貌似没有考虑读取步进的问题。
举例来说,比如说我有这么 12345678这么一串字符串,我想搜索456。
你的代码先读取了1234,发现没有匹配,然后直接读取了5678,发现还是没有匹配。
于是就认为不匹配了。
我觉得这就是你 large 函数里发生的错误...

呃... 刚才用XDebug对我的代码进行了一下性能分析,发现最耗性能的居然是strtolower函数...
看来有必要做两份数据库了...
2011-12-26 08:33:25 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
而且你的代码貌似区分大小写来着...
2011-12-26 08:21:51 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
发现一个问题诶。
你的代码,搜索正常的csdn文件速度是很快
但是如果我自己创建个文件,每行都是 "vibbow\r\n" 重复上两三万行
那么用你的代码搜索vibbow,一个结果都木有...
2011-12-26 06:44:42 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
当然了,运行时间也是和结果数量是成正比的。
如果结果数量特别多的话就需要七八分钟了。
2011-12-26 06:43:26 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
我没觉得我的搜索速度有多快啊...
既不支持正则,也不支持行号输出...

我搜索服务端算法大体改了3次,我整理整理代码加一下注释,稍后发上来。

性能信息就是:在E5400处理器上,只使用1核心(PHP一次也只能使用一个核心),7200转普通sata硬盘,3G内存上(根据Process Explorer的记录,httpd进程峰值占用了650M的内存),对所有9个数据库搜索(纯文本文件,总大小4.6G),单关键字搜索大约需要3分钟,10关键字并发搜索大约需要5分钟...
2011-12-26 05:20:28 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
也就是说硬盘性能根本不是瓶颈,而是CPU性能。
2011-12-26 05:18:40 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
相信我,搜索时大部分时间不是浪费在硬盘时间上,而是strpos过程上。
2011-12-26 04:04:05 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
@dndx MySQL
2011-12-25 23:30:53 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
额... 蛋疼了。在twitter上发了一下链接,结果现在列队里积攒了800多个搜索...
服务器一晚上都闲不了了...
2011-12-25 20:31:16 +08:00
回复了 richiefans 创建的主题 信息安全 查了下数据总行数163837278~ 这要做成字典也太大了
我清除了一下空行之类的,可能mop的数据不正确。
总共出来是1.17亿。
2011-12-25 20:29:58 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
奇怪了,v2ex怎么链接识别不出来了... 单独发一行试试...
http://vsean.net/blog/post/98
2011-12-25 20:23:38 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
@likuku 反正这服务器过几天没钱了就自动关了,也就懒得去折腾调试他了,就这样吧...
2011-12-25 18:01:38 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
@likuku 懒得去搞那些乱七八糟的东西,就直接下了一个xampp直接运行了。
1 ... 177  178  179  180  181  182  183  184  185  186 ... 190  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1277 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 48ms · UTC 18:03 · PVG 02:03 · LAX 11:03 · JFK 14:03
Developed with CodeLauncher
♥ Do have faith in what you're doing.