SCWS 如何优化多条内容分词的词频统计捏？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2956 天前的主题，其中的信息可能已经有所发展或是发生改变。

有个小项目，有大约 15w 条数据，里面有两个纯文本字段需要做分词提取词频数据，我就贸贸然自己动手了。

现在我是这么样尝试的：一，把 15w 条数据中的纯文本拼接出来，丢到 SCWS 去做分词，因为拼接后的文本长度超过 2000w ，基本都是挂的；二，在上条中把 15w 条数据的纯文本拼接出来，按照文本长度为 2w 切割成数组，然后遍历数组，逐个丢到 SCWS 去做分词，对分词结果分别处理，前面有的就叠加，没有的就新建。
但是怎么来都觉得不舒服啊。

求 v2er 指教，该如何优化？

目前尚无回复

分词文本 scws 词频