我想获取我可以访问的所有网址信息,原因:我所知道的网址都是通过各大网站推荐、搜索引擎找到、朋友推荐,这种形式获取的,但总有我未曾发现的非常好的网站,我想通过这种方式获取一些我感兴趣的新网站。(非黄)
我想尝试获取所有的可以正常访问的网址,并输出网址+标题。 通过搜索发现一篇文章《域名遍历搜索 python 实现》: https://blog.csdn.net/qq_33848737/article/details/77879841
但博主已经没有更新了,我尝试将他的程序跑起来,发现 domainqueue 在进程池中的协程中调用时为空,而主进程初始化时不为空。由于对 python、对多进程、多线程不够了解,尝试了两天,有些束手无策,但始终难以消除心中的这个想法。希望有大佬可以帮帮我。
1
Sylv 2019-04-05 09:09:34 +08:00 1
你这想法是大海捞针。
|
2
randyo 2019-04-05 09:15:46 +08:00 via Android 1
不如找找看哪里能查询到所有备案域名
|
3
1903372529 OP @Sylv 确实是大海捞针,但也许我捞的不是一根针呢?能捞多少捞多少呗。我的想法确实有些奇怪,我通过各种搜索引擎都没有搜到相关的资料,唯一找到一篇就是我在文中提到的哪章。
|
4
foskazs 2019-04-05 09:16:35 +08:00 via Android 1
太難實現了
|
5
1903372529 OP @randyo 我在想是不是可以通过遍历 IP 地址来实现?也许有些网站并没有域名?
|
6
1903372529 OP @foskazs 确实难以实现,不过我还是很渴望能做到这件事。
|
7
annoy1309 2019-04-05 09:20:54 +08:00 via Android 1
我觉得你需要科普一下具体定义
|
8
envylee 2019-04-05 09:23:21 +08:00
这不就是搜索引擎吗,不断抓取...
|
9
1903372529 OP @annoy1309 比如 www.baidu.com 和 www.v2ex.com ,在我不知道域名的情况下,我希望通过一个程序可以知道这些网址是可以访问的,并获取网站的标题。通过这种方式来发现一些新的网站,也许是我不知道的网站,也许是不出名的网站,也许是刚被搭建且没有做任何宣传的网站。
|
10
OscarUsingChen 2019-04-05 09:27:04 +08:00 1
|
11
1903372529 OP @envylee 大概是这个意思,想通过一个程序,列出一个列表,列表包含任何访问状态码为 200 的网站以及网站标题。
|
12
naiba 2019-04-05 09:28:33 +08:00 via Android
这个有的,有请楼下搞安全的大佬解答
|
13
1903372529 OP @OscarUsingChen 中国占有 7 亿,占有率很高呢。
|
16
binux 2019-04-05 09:49:33 +08:00 via Android
Google 只有不存在的网站搜索不到
|
17
blodside 2019-04-05 09:51:57 +08:00 via Android
比起去挨个爬不如直接解析 common crawl 的数据 dump
|
18
GeekCourse 2019-04-05 09:55:48 +08:00 via Android
谷歌都没有把全部网站给抓取下来。
如果按照域名遍历的话,你可以计算一下 5 位长度域名。 26 个字母+10 个数字+中横线=37 37 的 5 次方等于六千六百万 再乘以 200 个域名后缀,等于 138 亿 然后其他域名长度的要不要呢? 比如 6 位,7 位,8 位,9 位,10 位 你算算有多少个域名? |
19
inhzus 2019-04-05 09:57:53 +08:00 via Android
那假如你获取到了所有的网站了,你想到怎么才能找到自己感兴趣的网站了吗?
|
20
Hk4Fun 2019-04-05 09:58:16 +08:00 via Android 1
可以试一下 zmap,据说能在一个小时内扫描整个公共互联网
|
21
heyeshuang 2019-04-05 10:00:36 +08:00 via Android 5
想起了一篇科幻小说:《诗云》。我用里面的一首诗来回答你吧:
啊啊啊啊啊啊啊 啊啊啊啊啊啊啊 啊啊啊啊啊啊啊 啊啊啊啊啊啊嗷 |
23
tony601818 2019-04-05 10:04:36 +08:00
听说你想复制谷歌?
|
24
lzxgh621 2019-04-05 10:07:52 +08:00 via iPhone
域名最长 63 位 总共 63 个字符排列组合 遍历一遍
|
25
Ultraman 2019-04-05 10:08:55 +08:00 via Android
真找出来了你能一个一个看过去吗…?
|
26
nfroot 2019-04-05 10:09:39 +08:00 via Android 1
你要是觉得遍历 IP 肯定是行不通的,一个 IP 上面可能有一千个域名绑定了。
遍历域名更行不通,短域名有可能,稍微长一点的不现实。 不过并不是没有办法,每个域名后缀都有一个组织维护,你只需要找一批雇佣兵,一个个地点摸过去,让他们交出该后缀下所有域名。 也可以去找那些非权威 dns 服务器(就是类似 114.114.114.114 这种公共 dns,或者运营商 dns 服务器),他们也有列表,不过不是那么完整,不过一个个摸过去绝对可以得到大部分。 |
28
kerr92 2019-04-05 10:11:29 +08:00
咨询域名注册商?
|
29
nfroot 2019-04-05 10:11:46 +08:00 via Android 1
现在知道为什么谷歌要建立自己的公共 dns 服务器了吧?不管你是什么域名,都需要解析,只要经过了他家的 dns 服务器,就会留下记录,然后关门上爬虫。。。
|
30
nfroot 2019-04-05 10:13:57 +08:00 via Android 4
完成了第一步,接下来你就会遇到第二个问题。
选择困难症 这个也是谷歌的专业。。。 所以更简单的办法是,把谷歌收购了,你的问题全都解决了,这也是可行性最高的方式。 |
31
1903372529 OP @nfroot 你说的很有意思。
|
32
1903372529 OP @inhzus 确实是一个问题。
|
33
1903372529 OP @binux 你确定谷歌能搜索到所有的网站吗?
|
35
jadec0der 2019-04-05 11:07:38 +08:00 via iPhone
无力吐槽,真是缘木求鱼…为什么不相信推荐,要自己去发现?你买书会不相信媒体的书店的推荐,拿出版总署的书号目录一本一本看吗
|
37
foskazs 2019-04-05 11:34:48 +08:00 via Android
你是不是想开发个暗网……
|
38
qilishasha 2019-04-05 11:46:36 +08:00 1
可以通过 ip 为遍历基础,然后对每一个 ip 进行域名绑定反查,就可以有效的获得在用域名了。然后对每个域名的快照内容进行你感兴趣的筛选就可以了。
|
39
yingfengi 2019-04-05 12:12:12 +08:00 via Android
关键词:钟馗之眼
但是你也得有关键词啊。。。不然难道你遍历所有域名?那还有二级域名呢,你怎么办。 |
41
mayx 2019-04-05 12:28:51 +08:00 via Android
censys 可以扫描所有没设白名单的网站
|
42
jeffjade 2019-04-05 12:34:54 +08:00 1
如果你的初衷是:“希望能获取到自己目前不知道的,却是我感兴趣的,有价值的网站”
那么推荐关注下 https://nicelinks.site/ 这个网站,兴许对你有所帮助(尤其是在未来)。 |
43
io123 2019-04-05 12:46:29 +08:00 via Android 1
之前写过这种广度爬虫,每分钟抓取 1 万+网址(不重复)
|
44
lhx2008 2019-04-05 12:49:36 +08:00 via Android 1
楼主的意思就是建立一个分布式的网站推荐系统,这个确实没人做,不过难度也非常高
|
45
waacoo 2019-04-05 12:54:58 +08:00 via iPhone 1
Internet Archive is a non-profit digital library offering free universal access to books, movies & music, as well as 351 billion archived web pages.
你想的别人都缓存了,你唯一要做的就是爬它,然后列表出来。 archive.org |
46
1903372529 OP @jeffjade 感谢
|
47
1903372529 OP @io123 可以参考一下吗?
|
48
1903372529 OP @lhx2008 放大了讲确实是这个意思,不过目前只是想自己做个功能型工具玩儿。
|
49
Mutoo 2019-04-05 13:44:07 +08:00 1
互联网上 96% 的内容是在深网和暗网的,你爬也爬不到。
|
50
1903372529 OP @Mutoo 对这些网站也比较有好奇心,想知道如何能够爬取到
|
51
1903372529 OP @Mutoo 如果爬不到,那他们是怎么访问的呢?
|
52
Mutoo 2019-04-05 13:48:26 +08:00
@1903372529 会员制网站,学术数据库,Tor 网络上的军火商。
|
53
1903372529 OP @Mutoo 感谢科普
|
54
grimpil 2019-04-05 13:54:13 +08:00 via Android
庄子:吾生也有涯,而知也无涯,以有涯随无涯,殆已。
不如你先说说你都对啥感兴趣,v 站这么多大佬,给你推荐一些不就行了 |
55
1903372529 OP @grimpil 感谢你的建议
|
57
Mutoo 2019-04-05 14:39:28 +08:00
@binux 你理解的“全网可访问”是“所有人都能访问”,而我理解的是“在能访问公网的任意网络结点”都能访问,而前提是你要有登陆权限。
|
58
janus77 2019-04-05 14:52:30 +08:00
网址 url 的话,理论上应该是超级大的,因为可以有二级 三级 等域丨名的存在,而且其没有规律,基本上是想怎么起就怎么起。如果你是最简单粗暴的遍历,估计跑不完
|
59
evegod 2019-04-05 14:54:43 +08:00
说,你是想做什么?
|
60
vzev 2019-04-05 15:24:49 +08:00
肯定不是为了找感兴趣的网站,这个想法 5 年前就实现了,不过是用来做网赚的。
讲真,就算从一万个网站里面我估计你也挑不到几个感兴趣的网站。 |
61
BFDZ 2019-04-05 15:48:05 +08:00
首先明确你的兴趣方向,然后主要几个找圈内网站的方法:
1、搜索引擎:谷歌、百度等 2、找兴趣相关的论坛、贴吧,国外有 reddit 3、加 QQ 群、微信群、tg 群结识圈内人士 |
63
sigup 2019-04-05 17:50:37 +08:00
https://censys.io/data
这里有全球 80,443 端口的 http get 结果 |
64
sigup 2019-04-05 17:55:27 +08:00
censys 好像收费了,下面这个还没收费,而且更全一些
https://opendata.rapid7.com/sonar.http/ |
65
Moani 2019-04-05 20:32:51 +08:00
@1903372529 emmmmm,根据你的要求,在对对象一无所知的情况下,判断该域名是否可以访问?那你直接访问该域名根据返回结果就可以判断。
一种情况,你想对沙漠中的每一粒沙子都了解?(新开网站,新注册域名) 或者,你想知道,沙漠里与你相关的沙子?或者可能相关的沙子? 那么,大数据与人工智能?根据你的行为判断,而推送你想要的。 |
66
Mutoo 2019-04-05 20:46:44 +08:00
@nanaw 数据引用自 The Dark Net isn't what you think. It's actually key to our privacy | Alex Winter | TEDxMidAtlantic
&ab_channel=TEDxTalks 2 分 57 秒 |
67
iacyl 2019-04-05 21:06:57 +08:00
大家不要被楼主骗了,楼主其实是抓取全网消息来训练的人工智能。
|
68
qqor 2019-04-05 21:45:37 +08:00 via Android
@1903372529 都是小偷或者僵尸战
|
69
eluotao 2019-04-06 00:32:24 +08:00 via iPhone
告诉你一个最简单的,便利所有中文博客,还有 csdn,博客园,等个人网站的社区,抓取这些网站的所有文章,还有评论,从这些数据里就能筛选出基本全网所有已知,公开,有影响力的网站信息了!
比你遍历域名靠谱多了 |
70
eluotao 2019-04-06 00:33:32 +08:00 via iPhone
他们都有分享域名和链接,统统取得域名和标题。保存起来,去除重复
|
71
quake0day 2019-04-06 01:28:33 +08:00
当然是通过和你兴趣类似的人收藏的书签了
推荐试下 https://pinboard.in/ |
72
flynaj 2019-04-06 11:17:57 +08:00 via Android
想找什么东西直接 Google 就行,如果你找到东西经常在那个网站上,那个网站就是你感兴趣的
|
73
zhzbql 2019-04-06 11:50:40 +08:00
楼主你是多有钱,这么大量的数据光是买硬盘的钱都得上千万
|
74
Northxw 2019-04-06 20:54:40 +08:00
如果你有上亿美元,先买等价的云服务器,然后编写足够强健的爬虫,爬虫没日没夜爬取不下线...... 就这样,估计也搞不完,就算你的预期目标是中国版图内的 URL,你也得先剔除掉这些网页中的外网站点。 总之,虽然在理论上可以实现,但是现实不允许你这样做。因为真的真的真的真的没有资本...................
|
75
opengps 2019-04-06 21:15:04 +08:00 via Android
有些时候不太好,会把暗网各种不适合宣传的内容暴露出来
也有暴露不出来的网站,比如我的某个业务网站,域名只靠 hosts 解析使用来避免被公网工具扫描到 |