V2EX › URL2io 的所有回复 › 第 1 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3

❮

❯

2019-10-09 14:33:01 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

www.url2io.com 备用地址:

http://url2io.applinzi.com

api.url2io.com 备用地址:

http://url2api.applinzi.com/article

2017-04-25 08:55:15 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@qsnow6 可以，但别用大并发^_^

2017-04-02 23:35:15 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@dreamcog 加 QQ 群吧 341180183 小窗聊

2017-03-10 19:52:21 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@dreamcog 目前不收费的哈，会一直做下去的，请放心使用。^_^

2016-11-20 20:24:13 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下

2016-11-06 21:41:38 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@ ldehai 不知道该说什么好……

2016-10-31 15:59:30 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@soulmine 感谢使用！

1. 验证外链是否失效不会出现在正文提取阶段，所以对于外链失效就要自己想办法了，毕竟还有 src 在。
2. 这次发布是 URL2Article ，顾名思义适用范围是新闻，博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务，那它返回的字段肯定完全不同，比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题，还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的，所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果，可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了，而且严重依赖原站的 CSS 设计，所以如果不能提取出第 2 条所说的那些字段，要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项，只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊？

2016-10-30 01:40:29 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@ghosrt 不做语义分析，要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了，哈哈

2016-10-13 11:48:09 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@nicoljiang 可以的啊， blog 是托管在 github 上的，这两天习惯性抽风，要多刷几次 -_-

2016-10-11 12:56:08 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@Youen 撸种子？？ How ？？

2016-10-11 12:55:00 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@Yeoman (¯﹃¯)

2016-10-11 12:46:12 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@jeremaihloo 恩，速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块，这是一大优点。不过因此也带来了一些限制。因为使用行分块，所以提取前要去除 html tag ，这样就只能提取出文字内容了，顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难，因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。

2016-10-10 21:45:13 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@typcn 和 import 没法比啊，它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能，让大家可以集成到自己的软件系统中（或许也可以集成到 import 中）。两者的关系更像是框架与库的关系。

目前有关 js 动态渲染的东西都不支持，不过图片 lazyload 之后会支持的……

方便贴一下“列表页面第一项被识别成标题”的网址吗？目前在对正文提取做优化，十分需要这种提取效果不好的样本……

2016-10-10 14:03:16 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持，要渲染 js 的开销太大了。虽然它的接口

https://zhuanlan.zhihu.com/api/posts/21454432

还是挺好找的，不过现在还没有找到一种高效、普适的方法，就没有处理这种情况。

PS ：看完你推荐的这个网页，我内心涌起了想要为知乎日报做特殊处理的冲动 -_-

2016-10-10 13:44:37 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@ljcarsenal 已经解决，感谢反馈！

2016-10-08 17:00:29 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@olbb 可以的，请求时带上 next 参数，在返回的数据中就会包含当前网页的下一页链接（如果有的话）。

* 具体文档可以看 http://www.url2io.com/docs
* 具体示例可以看 pageless ，它就利用了这个特性，实现持续地加载分页中的正文内容

其实帖子中都写了的…… -_-

2016-10-07 17:00:43 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@HanSonJ 是有点…… -_- ，哈哈偷懒了

2016-10-07 14:10:12 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@HanSonJ 其中有什么不妥的地方吗？

2016-10-06 15:43:02 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@v9ox 墙太高不好翻啊 (⇀‸↼‶)

2016-10-05 23:12:01 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@jqw1992
@Warder 感谢支持！

1 2 3

❮

❯