发现一个很 awesome 的网站 - V2EX

Home Sign Up Sign In

This topic created in 3141 days ago, the information mentioned may be changed or developed.

https://mercury.postlight.com/web-parser/

号称可以直接拉到 HTML 的文章内容正文的数据，测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式，所以应该用的算法之类的实现。

大家有相关的资料可以参考下吗？对这个非常感兴趣

5 replies • 2017-10-12 09:22:41 +08:00

1

cubelate

Oct 11, 2017

有意思，可能是通过判断位置，z-index，大小之类吧。把自己当做浏览器，分析最前面最大块的内容。

2

airycanon

Oct 11, 2017

1

@kenshin 感觉简悦可以借鉴一下，处理不在支持列表中的网站。

3

ygger

Oct 11, 2017

这是我的一个正文提取器： http://kandouban.top/extractor

4

ygger

Oct 11, 2017

一些正文提取算法参考： https://code.google.com/p/cx-extractor/
http://www.cnblogs.com/jasondan/p/3497757.html#!comments

5

kenshin

Oct 12, 2017 via iPhone

@airycanon
之前有参考过这个，但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。

About · Help · Advertise · Blog · API · FAQ · Solana · 984 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 29ms · UTC 19:34 · PVG 03:34 · LAX 12:34 · JFK 15:34
♥ Do have faith in what you're doing.