» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[其他] 咨询一下 怎么批量保存网页为TXT格式

RT
有的TXT只有在线看 没有打包下载的 一个个的复制粘贴累死了
比如这个http://www.shuku.net/novels/zhentan/dygwzpj/dygwzpj.html 东野圭吾作品集 别处打包没有比它全的
努力了2天已经完成一半了
每天重复这样的运动:开网页 建立新文本 复制 粘贴 删去无用文字 下一章 继续.....


TOP

posted by wap, platform: Android

反正无聊,等下我做个Python脚本玩玩帮你抓试试看



TOP

posted by wap, platform: Chrome

你需要一个整站下载器,批量下载html文件
然后再用工具批量转html为txt
最后用工具批量使用文本首行重命名文件

txt工具我推荐老马的作品 好像叫textforever来着


TOP

posted by wap, platform: Chrome

我看了一下那页面,似乎你还得用工具,替换掉文本内单个的换行
这一步需要使用正则批量替换文件,textforever仍然可以做到

TOP

posted by wap, platform: Android

抓完了,这鸟站居然访问太多会封IP,测试的时候访问太多了,后来开了代理才解决,程序加注释空格之类的一共也就30来行而已。

总共20M大,743个文件,按照:书名_章节.txt 来命名的,压缩成rar有4.xM大,上传到百度网盘去了,自己下吧,地址PM给你

TOP

posted by wap, platform: GALAXY S III

什么书,贱兔脸红。。。

TOP

posted by wap, platform: GALAXY NOTE II

楼上上好人

TOP

引用:
原帖由 黑暗骑士巫妖王 于 2013-5-5 21:24 发表
posted by wap, platform: Android

抓完了,这鸟站居然访问太多会封IP,测试的时候访问太多了,后来开了代理才解决,程序加注释空格之类的一共也就30来行而已。

总共20M大,743个文件,按照:书名_章节.txt 来命 ...
访问太频繁的原因吧……为了防止采集。
采慢点就行了。

TOP

posted by wap, platform: Nexus 7
引用:
原帖由 @刘泪  于 2013-5-6 08:33 发表
访问太频繁的原因吧……为了防止采集。
采慢点就行了。
这个站比较恶心,开始用国内的IP采集就经常连不上,改成IE、Firefox之类的agent也不行,换国外的IP怎么采都顺畅死了

TOP

下好了 非常感谢诸位神人
表情没了

TOP

发新话题
     
官方公众号及微博