# 将复制到 cookies 转换为字典，方便调用
raw_cookies = 'JSESSIONID=RZ13thOM1d   后面省略了，调式的话用自己的  '
cookie = SimpleCookie(raw_cookies)
cookies = {i.key: i.value for i in cookie.values()}

得到了 cookies，我们就能在登录状态下获取数据了。主要用到的是： requests 模块的 session 下面就看看 v1 版本的整体代码吧 整体代码：

'''
尝试登录支付宝
并获账单记录
'''

import requests
from http.cookies import SimpleCookie
from bs4 import BeautifulSoup


# 自定义 headers
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
    'Referer': 'https://consumeprod.alipay.com/record/advanced.htm',
    'Host': 'consumeprod.alipay.com',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Connection': 'keep-alive'
}


# 将复制到 cookies 转换为字典，方便调用
raw_cookies = 'JSESSIONID=RZ13thOM1dM5K05460101";     中间省略了     one=RZ250AATO/mr4CZ1cRnxgFmVR'
cookie = SimpleCookie(raw_cookies)
cookies = {i.key: i.value for i in cookie.values()}


# 尝试使用面向对象的方式来造爬虫
class Alipay_Bill_Info(object):
    '''支付宝账单信息'''

    def __init__(self, headers, cookies):
        '''
        类的初始化

        headers：请求头
        cookies: 持久化访问
        info_list: 存储账单信息的列表
        '''
        self.headers = headers
        self.cookies = cookies
        # 利用 requests 库构造持久化请求
        self.session = requests.Session()
        # 将请求头和 cookies 添加到缓存之中
        self.session.headers = self.headers
        self.session.cookies.update(self.cookies)
        self.info_list = []

    def login_status(self):
        '''判断登录状态'''
        status = self.session.get(
            'https://consumeprod.alipay.com/record/standard.htm', timeout=5, allow_redirects=False).status_code
        print(status)
        if status == 200:
            return True
        else:
            return False

    def get_data(self):
        '''
        利用 bs4 库解析 html
        并抓取数据，
        数据以字典格式保存在列表里
        '''
        status = self.login_status()
        url = 'https://consumeprod.alipay.com/record/standard.htm'
        if status:
            html = self.session.get(url).text
            soup = BeautifulSoup(html, 'lxml')
            # 抓取前五个交易记录
            trades = soup.find_all('tr', class_='J-item ')[:5]

            for trade in trades:
                # 做一个 try except 避免异常中断
                try:
                    # 分别找到账单的 时间 金额 以及流水号
                    time = trade.find('p', class_='text-muted').text.strip()
                    amount = trade.find(
                        'span', class_='amount-pay').text.strip()
                    code = trade.find(
                        'a', class_='J-tradeNo-copy J-tradeNo')['title']
                    self.info_list.append(
                        dict(time=time, amount=amount, code=code))
                except:
                    self.info_list.append({'error': '出现错误,请加站长支付宝好友获取充值码'})

        else:
            self.info_list.append({'error': '出现错误,请加站长支付宝好友获取充值码'})



# 测试一下：
test = Alipay_Bill_Info(HEADERS, cookies)
test.get_data()

print(test.info_list)

'''
OUT:

200
[{'time': '07:34', 'amount': '- 3.00', 'code': '2017081521001004100329637047'},
    {'time': '07:08', 'amount': '- 100.00', 'code': '2017081521001004100329622812'},
    {'time': '05:37', 'amount': '+ 0.14', 'code': '20170815344111650101'},
    {'time': '01:08', 'amount': '+ 10.00','code': '20170815200040011100040078948930'},
    {'time': '22:23', 'amount': '+ 10.00', 'code': '20170814200040011100060079678223'}]
'''

可以看到我需要的前 5 个订单记录的时间，流水，金额都已经出来了。来对比一下网页版截图：

订单查询 V2

上面那个爬虫虽然实现了爬取账单信息的功能，

但实际上，完全没有用有没有？

因为每次都得我们手动输入 cookies

那这个爬虫完全没有存在的 意义了！

当然，这是夸张的说法，通过上面那个爬虫，我们实践证明了爬取账单的可能性。

剩下的只需要想办法 自动获取 cookies 就行了！

如何自动获取 cookies 呢？

想出的一个比较笨的方法：

通过 selenium 模拟浏览器登录
获取并格式化 cookies
将 cookies 保存到本地，
将 cookies 传给 requests 库调用

说起来很简单有没有？

但实际上我整整调试了一个下午才成功啊！！！

你觉得是为啥呢？

当然是支付宝坑爹的认证机制：

你输入账号密码的时候不能过快
你输入账号密码的时候不能过慢
你点击找到按钮和点击按钮的间隔不能过大或过小
对 headers 的严格把控
...........

说多了都是辛酸泪,大家调试的时候，注意点就好。

下面给出获取 cookies 的代码片段

    def wait_input(self, ele, str):
        '''减慢账号密码的输入速度'''
        for i in str:
            ele.send_keys(i)
            time.sleep(0.5)

    def get_cookies(self):
        '''获取 cookies'''

        # 初始化浏览器对象
        sel = webdriver.PhantomJS()
        sel.maximize_window()
        sel.get(Login_Url)
        sel.implicitly_wait(3)
        # 找到用户名字输入框
        uname = sel.find_element_by_id('J-input-user')
        uname.clear()
        print('正在输入账号.....')
        self.wait_input(uname, self.user)
        time.sleep(1)
        # 找到密码输入框
        upass = sel.find_element_by_id('password_rsainput')
        upass.clear()
        print('正在输入密码....')
        self.wait_input(upass, self.passwd)
        # 截图查看
        # sel.save_screenshot('1.png')
        # 找到登录按钮
        butten = sel.find_element_by_id('J-login-btn')
        time.sleep(1)
        butten.click()

        # sel.save_screenshot('2.png')
        print(sel.current_url)
        # 跳转到账单页面
        print('正在跳转页面....')
        sel.get(Bill_Url)
        sel.implicitly_wait(3)
        # sel.save_screenshot('3.png')

        # 获取 cookies 并转换为字典类型
        cookies = sel.get_cookies()
        cookies_dict = {}
        for cookie in cookies:
            if 'name' in cookie and 'value' in cookie:
                cookies_dict[cookie['name']] = cookie['value']

        return cookies_dict

        # 关闭浏览器
        sel.close()

    def set_cookies(self):
        '''将获取到的 cookies 加入 session'''
        c = self.get_cookies()
        self.session.cookies.update(c)
        print(self.session.cookies)

这个部份主要是利用了 selenuim 模拟 PhanomJS 来模拟浏览器，登录支付宝账号密码最后获取 cookies，并格式化。

有详细的注释，详细都能看懂的吧！

对于浏览器模拟爬虫不熟悉的，可以看我以前写的文章：

效果图：

可以看到，我们已经可以完全自动化的查询账单信息了。

剩下的就是后台支付系统的把编写了，由于不涉及到爬虫的相关技术我就不 pull 上来啦~

最后附上全部代码：

'''
尝试登录支付宝
并获取账单记录

通过 seleium 登录支付宝，
获取 cookies
'''

import requests
from selenium import webdriver
from bs4 import BeautifulSoup
import time

# 登录 url
Login_Url = 'https://auth.alipay.com/login/index.htm?goto=https%3A%2F%2Fwww.alipay.com%2F'
# 账单 url
Bill_Url = 'https://consumeprod.alipay.com/record/standard.htm'


# 登录用户名和密码
USERNMAE = ''
PASSWD = ''

# 自定义 headers
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
    'Referer': 'https://consumeprod.alipay.com/record/advanced.htm',
    'Host': 'consumeprod.alipay.com',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Connection': 'keep-alive'
}


class Alipay_Bill_Info(object):
    '''支付宝账单信息'''

    def __init__(self, headers, user, passwd):
        '''
        类的初始化

        headers：请求头
        cookies: 持久化访问
        info_list: 存储账单信息的列表
        '''
        self.headers = headers
        # 初始化用户名和密码
        self.user = user
        self.passwd = passwd
        # 利用 requests 库构造持久化请求
        self.session = requests.Session()
        # 将请求头添加到缓存之中
        self.session.headers = self.headers
        # 初始化存储列表
        self.info_list = []

    def wait_input(self, ele, str):
        '''减慢账号密码的输入速度'''
        for i in str:
            ele.send_keys(i)
            time.sleep(0.5)

    def get_cookies(self):
        '''获取 cookies'''

        # 初始化浏览器对象
        sel = webdriver.PhantomJS()
        sel.maximize_window()
        sel.get(Login_Url)
        sel.implicitly_wait(3)
        # 找到用户名字输入框
        uname = sel.find_element_by_id('J-input-user')
        uname.clear()
        print('正在输入账号.....')
        self.wait_input(uname, self.user)
        time.sleep(1)
        # 找到密码输入框
        upass = sel.find_element_by_id('password_rsainput')
        upass.clear()
        print('正在输入密码....')
        self.wait_input(upass, self.passwd)
        # 截图查看
        # sel.save_screenshot('1.png')
        # 找到登录按钮
        butten = sel.find_element_by_id('J-login-btn')
        time.sleep(1)
        butten.click()

        # sel.save_screenshot('2.png')
        print(sel.current_url)
        # 跳转到账单页面
        print('正在跳转页面....')
        sel.get(Bill_Url)
        sel.implicitly_wait(3)
        # sel.save_screenshot('3.png')

        # 获取 cookies 并转换为字典类型
        cookies = sel.get_cookies()
        cookies_dict = {}
        for cookie in cookies:
            if 'name' in cookie and 'value' in cookie:
                cookies_dict[cookie['name']] = cookie['value']

        return cookies_dict

        # 关闭浏览器
        sel.close()

    def set_cookies(self):
        '''将获取到的 cookies 加入 session'''
        c = self.get_cookies()
        self.session.cookies.update(c)
        print(self.session.cookies)

    def login_status(self):
        '''判断登录状态'''
        # 添加 cookies
        self.set_cookies()
        status = self.session.get(
            Bill_Url, timeout=5, allow_redirects=False).status_code
        print(status)
        if status == 200:
            return True
        else:
            return False

    def get_data(self):
        '''
        利用 bs4 库解析 html
        并抓取数据，
        数据以字典格式保存在列表里
        '''
        status = self.login_status()
        if status:
            html = self.session.get(Bill_Url).text
            soup = BeautifulSoup(html, 'lxml')
            # 抓取前五个交易记录
            trades = soup.find_all('tr', class_='J-item ')[:5]

            for trade in trades:
                # 做一个 try except 避免异常中断
                try:
                    # 分别找到账单的 时间 金额 以及流水号
                    time = trade.find('p', class_='text-muted').text.strip()
                    amount = trade.find(
                        'span', class_='amount-pay').text.strip()
                    code = trade.find(
                        'a', class_='J-tradeNo-copy J-tradeNo')['title']
                    self.info_list.append(
                        dict(time=time, amount=amount, code=code))
                except:
                    self.info_list.append({'error': '出现错误,请加站长支付宝好友获取充值码'})

        else:
            self.info_list.append({'error': '出现错误,请加站长支付宝好友获取充值码'})
        return self.info_list



# test:
test = Alipay_Bill_Info(HEADERS, USERNMAE, PASSWD)

data = test.get_data()

print(data)

每天的学习记录都会同步更新到：微信公众号：findyourownway
知乎专栏： https://zhuanlan.zhihu.com/Ehco-python
blog：www.ehcoblog.ml
Github： https://github.com/Ehco1996/Python-crawler

self

Headers

79 条回复 • 2018-07-19 13:49:36 +08:00

just1

2017 年 8 月 15 日 via Android

什么叫做支付宝关闭了 POST。
还不是技术不到位

Ehco1996

2017 年 8 月 15 日 via iPhone

@just1
是的，技术是还不到位

麻烦你能不能给个 demo 试试 post 登陆？

6IbA2bj5ip3tK49j

2017 年 8 月 15 日

你要是之前开了当面付，就不用这么麻烦了。

ss098

2017 年 8 月 15 日

厉害，这应该是免签比较好的一个方案了。

Sanko

2017 年 8 月 15 日 via Android

思路不错

akira

2017 年 8 月 15 日

呃。。淘宝上面现成的系统应该是 30 块左右一套。

Ehco1996

2017 年 8 月 15 日 via iPhone

@xgfan

是的啊啊啊
错过那一波心好疼

Ehco1996

2017 年 8 月 15 日 via iPhone

@akira

请问关键词是什么呢？

能泡在 linux 服务器上么

FanWall

2017 年 8 月 15 日

现在支付宝的 POST 是相当有难度的(param ua)，起码我不大相信 1#能做到[doge]
楼主这种是业内实现成本最低也是最普遍的解决思路

mxjmxj929

2017 年 8 月 15 日

@Ehco1996 楼主咋解决支付宝安全验证机制的，比如实际浏览器登陆就要二次验证的。

brucewzp

2017 年 8 月 15 日

实际操作的时候如果太频繁，支付宝会刷验证码出来，而且有时候出现验证码的概率和你的 IP 有很大关系

akira

2017 年 8 月 15 日

@Ehco1996 以前看到的大部分都是 windows 下的。刚看了下淘宝，以前的关键字被屏蔽了。你可以试试谷歌关键字“免签约”，里面还是有提到的。

lzhr

2017 年 8 月 15 日

@FanWall #9

neoblackcap

2017 年 8 月 15 日

@Ehco1996 小心太快了账号被封，我以前也搞过，实在是太苦逼了。我的方案是用 headless browser，成功率还高那么一点点。楼主可以参考一下。不过支付宝还有风控系统，一旦他们觉得你异常（我是不知道具体的指标了），你的账号就会被封，小心点吧。

just1

2017 年 8 月 15 日 via Android

@FanWall 我当然做不到我就一吐槽

sola97

2017 年 8 月 15 日

感觉不会稳定的

580a388da131

2017 年 8 月 16 日

不给接入是因为个人备案号不能经营盈利性网站。

cszeus

2017 年 8 月 16 日

如果已经用 selenium 登录了，为什么不用 selenium 一口气搞完？再用 requests 有什么区别么。

XiaoFaye

2017 年 8 月 16 日

请个刚高考完的学生做，当暑假工，一个月下来也没多少钱。

Ehco1996

2017 年 8 月 16 日

@neoblackcap
好的，我去查查看谢谢

@580a388da131
政策问题

@cszeus
用 selenium 获取数据总觉得效率会差一点，当然这也是我的使用习惯。

@XiaoFaye
我也还是学生。也没多少钱

lifeintools

2017 年 8 月 16 日

mark 非常感兴趣谢谢 lz PS: 其实也可以写 chrome 插件来实现这个功能。

thundernet8

2017 年 8 月 16 日 via iPhone

我觉得你这个好费劲实际上支付宝的 cookies 可以持久很长时间有效的所以我做了这个脚本 https://github.com/thundernet8/AlipayOrdersSupervisor 唯一不好的是隔一段时间换下 cookie

Jasmine2016

2017 年 8 月 16 日

我想吐槽。。。登陆太快和太慢都不行，简直没人权

qq292382270

2017 年 8 月 16 日

我对个人支付宝的自动付款研究了两年. 已经有两三款很不错的成品,稳定几个月不掉线没问题.另外个人帐号实时数据功能也搞定了...
![Markdown]( http://i1.bvimg.com/606162/f78c742a04a38da2.png)

kikyous

2017 年 8 月 16 日

有一种思路是开个淘宝店，出售类似充值卡的东西，然后利用自动发卡平台发送卡号和密码

然后用户自己充入个人帐号

就是把支付环节转移到淘宝上面

est

2017 年 8 月 16 日

直接收支付宝的邮件即可。

youthdou

2017 年 8 月 16 日

mark 一下。

q409195961

2017 年 8 月 16 日

楼主写得 666，有些网站也是直接转账，然后输入流水号充值的。

另：button 不是 butten

audoe

2017 年 8 月 16 日

@est 这个思路可以，简单，稳定

Enivel

2017 年 8 月 16 日

楼主的方法,无法处理二次验证吧. 几年前图形验证码好过. 现在改成滑块,但终归也找到合适的方法绕过.
headless 效率较低其实登录完全可以接口形式完成,登录稳定还可以过二次验证

yangxin0

2017 年 8 月 16 日 via iPhone

@qq292382270 支付宝不是支持自动付款吗

734506700qq

2017 年 8 月 16 日

这个想法不错，可以试试

laoertongzhi

2017 年 8 月 16 日

@qq292382270

能看下你这边提供服务的网站么，很好奇

Ehco1996

2017 年 8 月 16 日

@thundernet8
原本我也想做持久化的，可是现在貌似出了啥验证机制，十几分钟 cookie 就挂了。

@audoe
@est
支付宝邮件提醒必须你没有绑定手机号，不然只会再 app 上或者短信提醒。我查到的资料是这样的，一开始我也想通过邮件来检测的

@LevineChen
是的二次验证不行，请问可以分享一下你的方法么

@qq292382270
膜拜大佬能分享一下么

Enivel

2017 年 8 月 16 日

@Ehco1996 我怕分享出来大家都没得用了

Ehco1996

2017 年 8 月 16 日 via iPhone

@LevineChen

好吧，那还是自己偷偷在地下用好了
嘿嘿嘿

Enivel

2017 年 8 月 16 日

@Ehco1996 既然有人可以实现,你就可以好好研究研究了呀.

qq292382270

2017 年 8 月 16 日

@yangxin0 这玩意的命名我一直都很纠结.. 功能就是获取到指定个人号的收款记录.并做成订单处理之类的一系列逻辑...
@laoertongzhi 本来是没有网站的.做出来的程序只是自己几个朋友私下的用..前一个月才开始打算正规做 .. 自己一个人撸网站和 app 的前后台,心力憔悴.. 所以问题来了,还没上线,一些细节问题没考虑好.. 不过最迟这周应该可以发布.. 但应该不会来 V2 这里宣传.. 这玩意有点违法
@Ehco1996 还差一点.. 这周应该可以发布..

zhuf

2017 年 8 月 16 日

@qq292382270 有没详细介绍的啊，最近刚好有这需求

qq292382270

2017 年 8 月 16 日

@zhuf 我直接手打好咯.. 网站还差一点才上线.. 核心功能是,实时监控支付宝个人号(微信号也支持的),有新到帐订单后,立刻取出订单号,付款名,备注等等信息. 发送到服务器里面. 延迟差不多在 1-3 秒左右.
流程: 服务器创建订单->生成二维码->用户扫码支付或转账->服务器收到监控程序发来的新订单数据 ->处理订单为支付成功.

zhuf

2017 年 8 月 16 日

@qq292382270 哦，网站上线了通知下哈，或者留个联系方式