如何下载多页帖子中的文本内容?

比如搜狐论坛上有个帖子,多页,爬楼太累,很想直接转文本下载下来,在没有网络的情况下也能看,有推荐的软件么?
范例连接:http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/p1

1 个赞

你是想要只看楼主功能?

当年有一款 楼主跟我走2 – 豆瓣、天涯、百度贴吧脱水神器

但并不支持你说的搜狐…

有恶意软件的链接已删除

这里有个软件,可以试试。

我没有测试,只是搜索到的。

你可以使用 搜狐论坛 脱水 之类的关键词搜索。

1 个赞

我来试试看这个软件,我那天搜到了一个软件是个浏览器插件,可惜安装了以后电脑白安了5个莫名其妙的软件,只好杀毒杀了好久,完全没有用。

  1. 随便用一个支持批量下载的下载软件,网址填你那个网址(把最后那个数字1替换成通配符,那是页码),然后设置步进为1,初始值为1,最大值为最后一页的页数。
  2. 下载到一个文件夹里,在这文件夹里进入命令行,用copy * all.txt合并成一个单一的txt
  3. 找一个支持正则表达式的文本编辑器,将html格式替换掉。不懂的话也可能手动选择+替换全部(毕竟是同一帖子不同页面,相同内容很多)

另:稍微用wget试了下,似乎sohu有限制递归的样子,和OFFLINE EXPLORER一样只能得到index。但直接下单页没问题,弄个列表再wget应该行得通。等晚上再试试看。

1 个赞

谢谢谢谢!
为啥觉得手机网页干净多了啊?
我说下我的步骤,你看看对不对?
1.运行MakeBAT.vbs并按照提示输入参数
----这步里面,我还是用了手机版网页:http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=1 ,把末尾的1按照提示改成了###,从1-2386,运行上一步生成的down.bat,卡死在第139页,
因为手机版网页用了只看楼主了网址变成:http://m.club.sohu.com/licai/thread/[email protected] ,第2,3,4,…末页都是这个网址,我找不到page页码改###

  • 手机版一般是干净很多的(我电脑就没装过weibo客户端,都是用m.weibo.cn)
  • 卡死的话直接记下页数,关掉命令行窗口,然后再重新生成一个bat(如139-2386)
  • 手机版只看楼主一样有页面的,不在末尾而已,翻到二页再看网址
    http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=2&[email protected]
    ?号后面的pagect=2就是页码

不过你提醒了我,搜狐那个论坛不让收藏帖子,你是怎么找出手机版的网址呀?我用Safari打开了网页,但是浏览器不显示网址,本来想用sceenshot存成整个网页的PDF,但是老是只能存当前视图,只好用将PDF存储到Ibooks里面去,就是要操作648次,然后再发邮件给我自己,把648个PDF给合并到一起,我也是醉了。

大多数论坛和网站都有手机版入口的,在网站首页查找手机版一般都有,实在找不到的就用搜索引擎
手机版的网址大多是
m.example.com
wap.example.com
www.example.com/wap/xxx
www.example.com/mobile/xxx

想整页截图的话,有专用的浏览器插件
要截成PDF,不如用在线转换服务(搜web2pdfhtml2pdf
如: https://cloudconvert.com/
这类网站必要时还能充当翻墙的应急梯子

1 个赞

我现在转换到728页网页啦,转出来的网页我挑了几个试过,都正常,哇咔咔,后续准备搜索批量转成PDF,然后合并一整个PDF,然后前几天在论坛里看到PDF转成TXT的办法,真是曲线救国啊。。。

对了safari底部是有个插件的叫:将PDF存储到IBOOK里,然后就直接把网页转成完整的PDF了,就是不支持批量改名字,批量发邮件到自己的邮箱。
那个网页我试过了,注册一下就可以用,谢谢谢谢啦!学到好多知识啊!
还有好几个帖子也都可以用这个办法转一下,自从我以前上论坛看过的帖子总由于这样那样的原因看不了了,好帖子我就有强迫症要存到自己电脑上。

大量收藏可以用Wiz、Evernote或者OneNote这种跨平台软件啊(收集+整理+管理+批注)

1 个赞

我的电脑太旧了,用OneNote超级占硬盘,Evernote倒是一直在用,关联了各个网页,一键存很方便。Wiz没用过,我试试看。
汇报一下已存2300页,真好用呀,这个批量存的软件,我要备份一下
最后的这个all.txt居然有98M啊,记事本根本打不开,我试试notepad,打开是网页编码,如果修改了我能打开txt吗?看晕了。
最后的TXT存到百度网盘了,我上传了这里:百度网盘-链接不存在

小老虎也需要这样的一个工具,每次在论坛里看到心水的小说,就像存成txt保存下来,可是自己一段段的复制太痛苦了。

小说比帖子好搞,小说名字去微博搜,好多人会发百度云的链接,以前我用派派下还要派币,另外直接在用胖次(www.panc.cc)搜小说名,只要对方没屏蔽设成私人的,都能下载。

这个行么? 我自己写的.

可以可以,到哪里下载呀?allor教了我一种方法,你这个我也试试看!

图片另存为,改名为exe即可.

1 个赞

你这个木有一个介绍页面么?

这种太简单的小工具,没弄介绍页面.