V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Kobayashi  ›  全部回复第 12 页 / 共 56 页
回复总数  1102
1 ... 8  9  10  11  12  13  14  15  16  17 ... 56  
2022-04-20 09:05:53 +08:00
回复了 0o0O0o0O0o 创建的主题 Apple 海淘转运的苹果产品在国内直营店的保修具体是怎样的?
应该就是 HTML 文件不符合规范。可以在 tostring 时正确截断: etree.tostring(method='xml')

建议直接使用 html 而不是 etree 。from lxml import html, html.fromstring(), html.tostring()。

不确定有没有办法在 parse 时搞定,上面方法应该是在输出时作了校验。
2022-04-19 10:46:37 +08:00
回复了 longmeier90 创建的主题 Python web 开发有 Python 的 sanic 的异步框架还有必要转 go 吗
没有,曾经专注于 asyncio 研究了各种异步框架、事件循环代码。但后来入职才发现,很多时候没必要看的那么远,绝大多数的业务根本达不到那样的并发压力。面试的时候曾经面过 2 个做小说的,一个由 Python 转了 Go ,说是用户量大了。另一个就是老 Python 单体项目,缓存+限流,运营时间比前者长,业务流量也比前者大。这是从业务角度来看问题。除非你是什么大厂的主项目,一般都没有那么大的并发。

从技术角度,我觉得都行,吃透一个就够了。实际上大多数人对下边原理都不了解。我见过选 Sanic 调用接口触发模型训练的,觉得 Sanic 快,但根本没看清场景。捕蛇者说播客里,有个来自知乎主持人因为写不出 ASGI 中间件,就觉得 ASGI 协议有问题……

从钱的角度,可能是 Golang 。
2022-04-19 10:36:49 +08:00
回复了 l0wkey 创建的主题 问与答 pyspider 是弃坑了么..有啥类似的集成式的爬虫框架推荐不
嗯…… cookiecutter 配合 Scrapy 搭个脚手架,或者反过来配合 requests/httpx/aiohttp 搭个脚手架?
实话说,我尝试过的爬虫框架也不多,有时间你可以去尝试一些新框架。先帮你排个雷:ruia 。国人搞得自称 asyncio 版 scrapy ,读过二者源码,只能说借鉴了几个类名,框架运行逻辑完全不像,扩展程度天壤之别。
2022-04-19 05:49:38 +08:00
回复了 l0wkey 创建的主题 问与答 pyspider 是弃坑了么..有啥类似的集成式的爬虫框架推荐不
这还用选吗,当然是 Scrapy 。爬虫不需要可视化,这是伪需求,懂 XPath 和 CSS 选择器语法就够了。
说 requests 的可能是没写过大量爬虫,爬虫从来都不是一个 HTTP 下载+HTML 解析问题。当你做大量爬取时,你要考虑各种其他设计:
1. 队列,生成的待爬取 URL 越来越多,需要队列存储待爬
2. 队列是支持先入先出还是先入后出,直接对应深度优先爬取和广度优先爬取
3. 爬取中断了如何恢复,是支持队列固化还是使用 Redis 做队列
4. 如何针对被爬 URL 去重,同样去重指纹怎么固化
5. 避免频率过高爬取时,钱多直接上代理池,免费先做并发控制、人工时延。或者多开几台机器搞分布式。
6. 人工时延是针对 IP 还是 host ,要不要加随机抖动
7. 如果不考虑 IP 被封,高并发爬取是线程池还是异步。
8. 对于偶发的网络问题导致的 HTTP 请求失败,要不要加入自动重试。
9. 或者更扯淡一点,为了避免发散爬取时进入对方蜜罐爬取大量无用连接,耗尽连接池。如何做深度控制。
10. ……
还有各种各样的问题,Scrapy 和 Scrapy 插件提供了现成的解决方案。
2022-04-18 23:01:19 +08:00
回复了 rv54ntjwfm3ug8 创建的主题 Linux 为什么各国高校的 Linux 协会都这么热衷于搞镜像站?
前排都 TMD 喝多了,你从欧洲连美国试试。镜像站不就是把资源分布到离用户近的位置吗,顺带给学生们找点事儿干、练练手。
怎么舔的,求兄弟分享一下
2022-04-17 10:02:25 +08:00
回复了 hsfzxjy 创建的主题 分享发现 httpie 作者误将仓库设为私有导致丢失了 54k stars
@DiamondYuan 当时是删库,只是找回了仓库,star 没有恢复。
2022-04-15 18:15:34 +08:00
回复了 hsfzxjy 创建的主题 分享发现 httpie 作者误将仓库设为私有导致丢失了 54k stars
建议大家多读一读,学学如何用词,完美甩锅。
不要使用启动脚本,systemd 直接管理 daemon. 把 start 脚本里除去 nohup 的部分提取出来。
2022-04-14 08:24:13 +08:00
回复了 cherrysalo 创建的主题 macOS mac 怎样实现真全局代理
@vaf714172 @Hack3rHan
Clash X 普通模式就是 HTTP 、SOCKS 代理,增强模式是利用 TUN ,创建虚拟网卡改路由表优先走这块虚拟网卡。
而小火箭使用的是 Network Extension API ,这个 API 支持自定义 VPN 协议,实现更强大的功能。
在 iOS 上实现分流全局代理必须要 Network extension ,但 Mac 下没有 iOS 那么多限制,用 tun 也能解决,而且方便跨平台。况且 Network extension 需要灵活开发者账号(付费),还要特殊申请这个 API 的使用权限。
另外,由于苹果在 iOS 上的限制,通过 Network Extension 实现的全局分流 VPN 不支持进程名规则,一定情况下可以通过 User Agent 替代。

在 Network Extension 在 Mac 上出现之前,苹果官方支持的方式是 Kernel Extension 来全局分流。目前知道 AdGuard 和 Proxifier 使用过。不过非常不推荐 Proxifier ,由于作者没体验过 GFW ,它没有考虑 DNS 污染问题,在国内环境分流是有问题的,需要使用一个无污染 DNS 才行。
鸟个私房菜、ArchLinux Wiki ,好教程有的是。感觉你的真正需求是
好一点的教程❌
半小时的教程✅
2022-04-12 23:21:46 +08:00
回复了 shawnliu03 创建的主题 问与答 有没有离线版的 Notion 可用?
@shawnliu03 根本就没有这计划吧,先画个饼。引入真离线需要搞类似 Evernote 那样的本地远程数据库同步。完全颠覆了现有的模式。
再说,即便 Notion 不加离线功能业务也不断在增长,估值百亿。
我看不出 Notion 有加入离线模式的必要。还是不要抱什么期待的好。
2022-04-11 17:29:03 +08:00
回复了 Casey18 创建的主题 问与答 vscode 在 mac 重启后无法于合理的时间内解析 shell 环境
网络问题?禁止 oh-my-zsh 自动更新。
export DISABLE_AUTO_UPDATE=true
2022-04-04 23:17:06 +08:00
回复了 FreshOldMan 创建的主题 Alfred 为啥 alfred 不搞内置一个插件市场,感觉好可惜
https://www.packal.org/
https://www.alfredworkflows.store/

有,但都不是官方的,提交和更新都是问题。也许是作者不擅长 Web 开发没做?反正我现在的需求基本完全迁移到 raycast 了。
直营店不需要发票。直营店早上 10 点开门,9 点半就去排着,可以跳过预约。当然,你不着急也可以电话预约。

不好意思没看清,过保了就不要去了。直接去中关村吧。打开淘宝,搜索 MacBook 维修,区域筛选北京,然后一家一家点进去看有没有实体店地址,有的话基本都在中关村。先都问一边,让他们报个价,然后挑一家最便宜的。
Epub 还是多看吧。桌面端不知道哪个好点。Koodo 就算了,那 epub 支持非常渣。
竟然真有人用 Fn 切换输入法!
Ctrl-Up, Ctrl-Down 默认被 Mission Control 占用
1 ... 8  9  10  11  12  13  14  15  16  17 ... 56  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1161 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 42ms · UTC 22:59 · PVG 06:59 · LAX 15:59 · JFK 18:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.