V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
kingmo888
V2EX  ›  Python

爬虫:如何获得这种类型的表单提交地址?求教。谢谢。

  •  
  •   kingmo888 · 2016-12-22 23:06:57 +08:00 · 4309 次点击
    这是一个创建于 2683 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想做个爬虫抓一些简单的数据,但是翻遍了源代码也没有找到他 FormQuery 方法指定的地址。雷死了。 PS:还是在小白的小白层面混。。。

    点查询后会打开新的页面,浏览器上 Ctrl+Shift+I 无法跟踪。 地址在这里: http://www.czce.com.cn/portal/jysj/tbcc/A091106index_1.htm

    PPS : 只有这么一个方法:点查询后,真实地址就出现了, “ http://www.czce.com.cn/portal/DFSStaticFiles/Future/2016/20161222/FutureDataTrdhedge.htm ” 在抓数据时,替换其时间变量 醉了。

    可有些钻牛角尖的我就想看看表单提交地址怎么发现 - -!

    21 条回复    2016-12-24 11:41:24 +08:00
    jugelizi
        1
    jugelizi  
       2016-12-22 23:24:13 +08:00
    302 跳转
    你 post 过去跟踪下 Location 就看到了
    siknet
        2
    siknet  
       2016-12-23 02:42:04 +08:00
    为什么那么麻烦?不就是个简单的日期型列表
    kingmo888
        3
    kingmo888  
    OP
       2016-12-23 08:08:55 +08:00
    @siknet 不是为了解决问题而问问题,是为了提升一下。
    kingmo888
        4
    kingmo888  
    OP
       2016-12-23 08:09:08 +08:00
    @jugelizi post 之后 502 - -!
    aogg
        5
    aogg  
       2016-12-23 08:48:26 +08:00   ❤️ 1
    ![snipaste20161223_084448.png]( https://ooo.0o0.ooo/2016/12/23/585c739657d3a.png)

    将 form 的 target="_blank"去掉即可
    monburan
        6
    monburan  
       2016-12-23 08:54:37 +08:00
    给你推荐个东西, Burpsuite 。网上版本很多这是现在能用的链接: https://pan.baidu.com/s/1jI0nABG 密码: wj5k ,要装 java 环境,装好 java 之后运行 BurpLoader.jar ,给设置代理 8080 然后你再点下那个页面的查询就在 burpsuite
    的 Proxy 里看到发送的请求了
    qaulau
        7
    qaulau  
       2016-12-23 09:11:26 +08:00
    这个很容易吧,连 POST 都不需要,需要查询哪天,直接改地址,而且 POST 之后也只是 302 跳转而已

    http://www.czce.com.cn/portal/DFSStaticFiles/Future/{年}/{年月日}/FutureDataTrdhedge.htm

    实例:

    http://www.czce.com.cn/portal/DFSStaticFiles/Future/2016/20161221/FutureDataTrdhedge.htm
    BBrother
        8
    BBrother  
       2016-12-23 09:28:23 +08:00
    function submitForm(formname,actionurl,target)
    {
    var absoluteurl = 'http://'+serverip+':'+serverport+actionurl;
    window.open(absoluteurl,target,winstyle);
    document.all(formname).submit();
    }

    var serverip ="www.czce.com.cn";
    var serverport ="80";

    js 里是这么写的
    kingmo888
        9
    kingmo888  
    OP
       2016-12-23 09:36:18 +08:00
    @qaulau 嗯,首先谢谢你。这种方式我会的。我想用其他的方式试试。
    kingmo888
        10
    kingmo888  
    OP
       2016-12-23 09:40:45 +08:00
    @aogg 已感谢。新技能 get !原来改代码还能运行。哈哈哈哈哈哈。
    kingmo888
        11
    kingmo888  
    OP
       2016-12-23 09:41:29 +08:00
    @monburan 好麻烦的感觉。还是 jar ,完全不懂 java 。只记得当年用诺基亚的手机时,下过 jar 格式的小说 - -!
    kingmo888
        12
    kingmo888  
    OP
       2016-12-23 09:41:55 +08:00
    @BBrother 谢谢
    monburan
        13
    monburan  
       2016-12-23 11:34:42 +08:00
    @kingmo888 装好 java 双击就可以了
    zerowxxyf
        14
    zerowxxyf  
       2016-12-23 13:23:06 +08:00
    写爬虫装个抓包工具先,所有请求都可以记录下来,然后是分析包就肯定能找到数据地址。试试 Fiddler2 吧。
    deyu260
        15
    deyu260  
       2016-12-23 13:43:59 +08:00
    @monburan 和 fiddler 比 有啥优点和缺点?
    domty
        16
    domty  
       2016-12-23 15:03:53 +08:00
    抓个 http 包就行了,用楼上说的 fiddler 就行。
    kingmo888
        17
    kingmo888  
    OP
       2016-12-23 16:29:11 +08:00
    @aogg 很抱歉又来麻烦你。

    请问为何这样的代码无法获取到数据呢?
    `
    url = 'http://www.czce.com.cn/cms/cmsface/czce/exchangefront/calendarnewquery.jsp'


    postDict = {
    'dataType':'TRADEHOLDING',
    'pubDate':'2016-12-23'
    }

    postDicDecoded=urllib.parse.urlencode(postDict).encode(encoding='utf-8')
    Request=urllib.request.Request(url, postDicDecoded);
    MyPage=urllib.request.urlopen(Request).read().decode("utf-8","ignore")

    `
    WildCat
        18
    WildCat  
       2016-12-23 16:32:46 +08:00
    没 cookie 吧,个人做爬虫主要是为了节约时间,他们的代码我根本不分析,直接运行:走 Phantom or Nightmare 。根本不管他怎么隐藏逻辑
    kingmo888
        19
    kingmo888  
    OP
       2016-12-23 16:36:00 +08:00
    kingmo888
        20
    kingmo888  
    OP
       2016-12-23 16:45:41 +08:00
    @WildCat 你说的对。果然需要构造 headers
    xiaohanqing
        21
    xiaohanqing  
       2016-12-24 11:41:24 +08:00 via Android
    preserve log 开关
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2680 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:30 · PVG 23:30 · LAX 08:30 · JFK 11:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.