网页文本处理ETL工具集(1):Teleport、Html2Text、UltraReplace、TXT文本合并器

经常会遇到希望下载一个完整的文本文件,但是看到的是一个网页目录,有的还被分成几十个章节,以前做主页的时候,曾用Delphi写过一个集成化的工具,可以针对这种场景提供各种工具集。可惜时间久远,也顾不上维护了。后来折腾了一段时间,发现了一个很有效的工具套件,可以实现类似的功能:但是有些不够全自动,需要人工较多的干预,但是应该说,非常便利,效果也很好,20-30分钟就可以把一个索引网页转换为一个单一的文本文件,这样就可以放到手机上或者电脑上阅读了!

Step1、Teleport:经典的网站镜像工具,shareware,https://teleport-pro.en.softonic.com/ 用来根据不同深度抓取网站的内容,这是有技巧的,需要配置好才能仅抓取需要的内容

Step2、Html2Text:国产小工具,freeware,种类很多,例如这个,https://www.cr173.com/soft/40783.html,简单易用,去除所有的HTML标签,由于没有做DOM Tree分析,当然会留下很多丑陋的文本,于是就要替换一下~

Step3、UltraReplace:国产小工具,freeware,下载点很多,例如这个,http://www.yestudio.cn/bbs/,反复多替换几次,很快就可以把文本清洗的差不多干净,如果想要彻底清洗干净,那么还需要使用正则表达式,这个就麻烦一些

Step4、Txt文本合并器:国产小工具,freeware,工具和下载点很多,例如这个,http://www.pc6.com/pc/wenbenhebinq/,如果熟悉DOS or shell命令,不用工具就可以,很简单的一行命令。


image

image

image

网页文本处理ETL工具集(1):Teleport、Html2Text、UltraReplace、TXT文本合并器》有4个想法

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注