也有可能是噪点太多的原因。。
1
pagict 2016-11-01 15:04:45 +08:00
之前我司用 tesseract-ocr ,想着自己做训练。哪想识别效果太差,买了别人的服务。一问,对方就是采取众包把图片发给后台人员人工识别了。。。。 sigh
|
4
lishunan246 2016-11-01 15:11:34 +08:00 via Android
试试先 decay 去掉噪点
|
5
WhyAreYouSoSad 2016-11-01 15:12:06 +08:00
对对对,我最近也好奇这个,人工识别。那成本呢?
@helloccav 怎么盈利 |
6
helloccav 2016-11-01 15:14:23 +08:00
@WhyAreYouSoSad 你指的是验证码平台盈利吗? 例如出售给你每识别一个码收 2 分钱,然后招人的时候每人肉打一个码付 1 分钱,那平台就赚 1 分钱了
|
7
WhyAreYouSoSad 2016-11-01 15:15:40 +08:00
@helloccav ....找人一个一分钱???录入时间?还是有一种很厉害的录入工具,识别脑电波啥的?
|
8
helloccav 2016-11-01 15:19:18 +08:00
@WhyAreYouSoSad 不是说笑的,真的有人肉打码的平台,打码的工钱按验证码的难度区分,好像是几分钱吧。
全国各地很多学生、家庭嘱咐、无业游民等守在电脑前抢着打码呢。 |
9
tumbzzc OP @helloccav 其实有个想法,假设我自己有个网站,然后当我用到验证码的时候,就随机给一个在线的网友强制打开验证码,让其输入之后才能继续浏览。。
当然,用户体验会变差 23333 |
10
WhyAreYouSoSad 2016-11-01 15:20:46 +08:00
@helloccav 看来我是有点何不食肉糜的感觉了
|
11
murmur 2016-11-01 15:23:06 +08:00
@WhyAreYouSoSad 手打码很成熟了 这个你真做不过专业的打手
某些网站的验证码我自己看 4 个能认出来一个就不错了。。你还想用软件识别 |
12
helloccav 2016-11-01 15:23:30 +08:00
@tumbzzc 据说 google 的验证码和你这个想法有点相似,话说 google 进行某个项目的 ocr 识别的时候有些图片用机器识别不清楚,所以就把这些图片作为邮箱登录等验证码让用户去识别……以上纯属听说。
|
13
ooxxcc 2016-11-01 15:23:51 +08:00
|
14
Sylv 2016-11-01 15:26:24 +08:00 via iPhone
@WhyAreYouSoSad 我之前用过一家,按他们的介绍所说,雇佣的打码员很多是不方便从事其它工作的残疾人士,还有网上兼职的学生,另外是和免费软件的开发者合作,提供 SDK 植入到免费软件中,用户每次使用软件需要输入验证码,其实就是在帮忙打码。
|
15
WhyAreYouSoSad 2016-11-01 15:27:56 +08:00
@helloccav 验证码识别 p2p 。。。。这个可以的。
|
16
skyworker 2016-11-01 15:32:12 +08:00
|
17
ihciah 2016-11-01 15:35:30 +08:00 via iPhone
去噪,投影切图,丢 svm 可解
|
18
hansnow 2016-11-01 15:56:57 +08:00
@helloccav 谷歌会把机器生成的验证码和自己的系统识别不了的图像(如谷歌街景之类的拍到的东西)拼接在一起让用户去输入,由于有前面一段机器生成的验证码做验证,后面一段图像的识别率就有了保证。相当于用户免费帮忙识别验证码了
|
19
boter 2016-11-01 15:59:03 +08:00 via iPhone
打码兔,听说年营收千万
撸羊毛的人很多用 |
20
chaichaichai 2016-11-01 16:07:39 +08:00
人工打码速度还行,价格也不贵
写一个神经网络的方轮子真不如找这种平台 |
21
mrlawrence 2016-11-01 16:08:14 +08:00
网赚项目里边,最稳定和基础的项目就是打码,其次是页游。
如果楼主需要一定的正确率和性价比,还是外包给打码平台吧。机器自学习也好,各种技术运用也罢。对于打码平台的肉眼熟练工来说,人肉打码都是最佳的。 就好像富士康用机器人代替人力一样,很多熟练工在低价的时候,就是优势。 |
22
tSQghkfhTtQt9mtd 2016-11-01 18:17:48 +08:00 via Android
|
23
GreatMartial 2016-11-01 19:02:28 +08:00
那应该做个人肉打码的平台呀...
分分钟走向人生巅峰 |
24
TaMud 2016-11-01 19:45:28 +08:00
打码兔太坑
打码兔识别率并不高 从其机制来看,举例,如果是 4 位的码 其应先机器认别,如果出来的结果是 4 位的,不管对错,他都会扣钱,他认为,他是对的,如果你纠正,会扣你的双倍钱,其纠错上面有说明 如果不是 4 位的,这时想是人工识别,正确率就很高。 如果是 ts 可以认别,并有很高的识别率,还是直接 ts 识别,打码兔会坑的很 |
27
windfarer 2016-11-01 19:55:13 +08:00
这个图简单啊,先 opencv 把噪点去掉,然后二值化并切分成单个字母,用 tesseract 逐个识别就行
|
28
YingJie 2016-11-01 23:03:46 +08:00
用过次世代验证码识别,其实最高效的还是用打码平台
|
29
maze1024 2016-11-01 23:38:50 +08:00 via Android 1
很早很早以前,互联网上流行一个软件,输一个验证码出一个不可描述的图片。。。
|
30
USCONAN 2016-11-02 02:57:51 +08:00
我就順路問問去年更新的這個 reCAPTCHA 黑科技是不是依然無解? |
31
txlty 2016-11-02 04:41:44 +08:00 1
楼主图里的验证码,可以完美识别。但不是什么 ocr 算法,而是专门针对此的验证码破解算法。这种简单的验证码,编写针对性的算法,准确率超过 90%,教程网上就有。
也有专业的软件用来生成算法。只要你会用,图里那种低级验证码都能搞定。 至于你想要的通用识别算法。。就是随便一个网站的验证码,不经任何处理,丢进去,然后就出精准的文字。。。这也是大家梦寐以求的。 等哪一天,这算法真的出现,而且开源免费发布,个人 PC 就跑得动。。。。 那时候网上也就看不到验证码了。 |
33
dai269619118 2016-11-02 09:24:35 +08:00
@txlty 求分享软件名
|
34
bobchengbin 2016-11-02 09:32:33 +08:00
|
35
rainysia 2016-11-02 09:34:55 +08:00
这.. 楼上都没玩过网游吗. 网游里面为了防挂机, 防刷作的验证的. 都有专门的外挂 配合识别软件.
大概按照识别难度和题量来收费的 比如四位汉字就比纯数字贵几倍 具体参考 火眼答题, 好爱答题... 全是人工的. |
36
likuku 2016-11-02 11:41:00 +08:00
|
37
likuku 2016-11-02 11:43:05 +08:00
记得亚马逊很早也推出过人力 API ,后段都是一群人来做事,就是针对当前机器解决不了的问题, API 使用价格也不是太贵。
|
38
shell233 2016-11-02 12:01:19 +08:00
题主如果想花点功夫的话办法倒是挺多。第一种前面也讲到了,降噪切割,上 svm 或者 netual network 。你这个验证码没有粘连也没有干扰线什么的还是比较好切的。第二种基于端对端的 ocr 识别,前面的楼层也讲到了找出生成这个验证码的算法,但是如果你可以找到生成验证码的算法还是推荐直接上 deep learing ,自动生成样本跑出 10W 的样本如果运气好一些收敛了还是能跑出模型的,识别率基本在 95%以上,见 https://zhuanlan.zhihu.com/p/21344595 。其实验证码复杂到一定程度再花时间和精力就得不偿失了,也许你花一个星期日了验证码,别人再花了两个星期改了验证码......这时候如果不是基于学习的目的的话,还是上打码平台算了,不然两方的程序员都会搞到吐血哈哈。
|