如何下载多页帖子中的文本内容?

比如搜狐论坛上有个帖子,多页,爬楼太累,很想直接转文本下载下来,在没有网络的情况下也能看,有推荐的软件么? 范例连接:http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/p1

1赞

你是想要只看楼主功能?

你好,谢谢你回复我的问题,“只看楼主”帖子自身是有这个功能的,我是想用“只看楼主”,把楼主的所有发言都下载下来,存成文本。 如果能把楼主和其他人的发言呢都存成文本就更好了。

我也去知乎搜过这个问题,看到别人提过的方法,一般这种连接没有FEED,我也是小白,看到人家推荐的FEED34也不会用,那种只是建立个RSS链接,也未必能存的下来帖子。 有人回答说OFFLINE EXPLORER,我也去安装了一下,下载下来有照片有网页,但是坑爹的是只有第一页。 一个帖子几千页,我只想要保存帖子里的文本内容,能在离线状态下看,仅看楼主的也可以,一页一页复制黏贴太坑爹了。 不知道有什么抓取器能抓取楼主的回答吗? 或者是能把几千页存成PDF,再转成TXT?

当年有一款 楼主跟我走2 – 豆瓣、天涯、百度贴吧脱水神器

但并不支持你说的搜狐…

想要搜狐的,还有别的办法么?5555555555555555.那个帖子我能发这儿吗?版主觉得不合适就删掉吧。 http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/p1

有恶意软件的链接已删除

这里有个软件,可以试试。

我没有测试,只是搜索到的。

你可以使用 搜狐论坛 脱水 之类的关键词搜索。

1赞

我来试试看这个软件,我那天搜到了一个软件是个浏览器插件,可惜安装了以后电脑白安了5个莫名其妙的软件,只好杀毒杀了好久,完全没有用。

这个软件用不了了。 之前逛知乎的时候,deney gol建议说 "在网页网址的最后数字就是帖子的ID,在后面加上:“-all-1”,可以在一页显示所有的回帖了." 我试过了,可惜加了数字网页打不开,就不知道怎么搞了。 对网页知识也不懂啊

  1. 随便用一个支持批量下载的下载软件,网址填你那个网址(把最后那个数字1替换成通配符,那是页码),然后设置步进为1,初始值为1,最大值为最后一页的页数。
  2. 下载到一个文件夹里,在这文件夹里进入命令行,用copy * all.txt合并成一个单一的txt
  3. 找一个支持正则表达式的文本编辑器,将html格式替换掉。不懂的话也可能手动选择+替换全部(毕竟是同一帖子不同页面,相同内容很多)

另:稍微用wget试了下,似乎sohu有限制递归的样子,和OFFLINE EXPLORER一样只能得到index。但直接下单页没问题,弄个列表再wget应该行得通。等晚上再试试看。

1赞

谢谢,批量下载我只会迅雷,通配符(百度了下是或者?么),那网址是只改1还是要把P1都改掉啊,: 1.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/P 2.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/(), 搞不懂哪个才对啊?后面还要加网页的后缀么?就是.html 我看迅雷那个教程是把http://www.a.com/01.zip 当中的01改掉成了(),变http://www.a.com/(*).zip

这个括号里面有个*的,不知道我编辑了好多次都显示不出来。

步进没看到选项,初始值选,了从1到999(迅雷下载说输入值必须小于999),通配符长度选了3.

帖子本身有2385页,如果我用了只看楼主功能,就缩减到648页,那么网址后面的数字就变了,每一页都是http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b?uid=e47e4410af5d40a,会不会更适合用批量下载功能?

我还去下了几个绿色的采集器,但是存在两个问题,1.采集出来的文件不完整,只有第一页;2.导出来只能是数据库。 wegt我百度了下说是个什么命令,小白不懂啊。。。 文本编辑器我搜出来一个Notepad2 。 真的是你说一个我搜一下啊。。。

前言:

  1. 试了下,别指望普通下载软件的批量下载了,搜狐通过网址限制了批量
    abc/p1这种没有具体文件的路径会让下载软件自动跳转到index.html
  2. wget也无法直接批量(wget -i list),但可以准确的下到每个单页,弄个批处理就能实现批量下载了
  3. 但搜狐在页面里又搞了一下,页面正文内容是由Javascript动态解码输出显示的,原文正文全是\uxxxx
    下好的文件只能拖到浏览器里看,没法用当txt看

说真的,要不是搜狐爱搞怪我都懒得弄了……

解决办法:
使用手机版网页(只看楼主的具体链接点击只看楼主后获得)
http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=1

批量下载工具: http://pan.baidu.com/s/1dDWXnAL

使用说明:
1.运行MakeBAT.vbs并按照提示输入参数
2.运行上一步生成的down.bat
3.处理下载到的文件

具体处理方式
a.不处理,直接浏览器查看(不支持翻页)
b.手动\软件批量(如果有的话)修改每个文件的下一页上一页链接指向本地html文件(支持翻页)
c.找相关的html2txt转换软件转为txt(效果未知)
d.手动删除合并后的all.txt里面的多余内容(notepad2的替换全部+压缩空格+移除空行+正则表达式<[^>]*>)

1赞

谢谢谢谢! 为啥觉得手机网页干净多了啊? 我说下我的步骤,你看看对不对? 1.运行MakeBAT.vbs并按照提示输入参数 ----这步里面,我还是用了手机版网页:http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=1 ,把末尾的1按照提示改成了###,从1-2386,运行上一步生成的down.bat,卡死在第139页, 因为手机版网页用了只看楼主了网址变成:http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?starter=april99@sogou.com ,第2,3,4,…末页都是这个网址,我找不到page页码改###

  • 手机版一般是干净很多的(我电脑就没装过weibo客户端,都是用m.weibo.cn)
  • 卡死的话直接记下页数,关掉命令行窗口,然后再重新生成一个bat(如139-2386)
  • 手机版只看楼主一样有页面的,不在末尾而已,翻到二页再看网址 http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=2&starter=april99@sogou.com
    ?号后面的pagect=2就是页码

不过你提醒了我,搜狐那个论坛不让收藏帖子,你是怎么找出手机版的网址呀?我用Safari打开了网页,但是浏览器不显示网址,本来想用sceenshot存成整个网页的PDF,但是老是只能存当前视图,只好用将PDF存储到Ibooks里面去,就是要操作648次,然后再发邮件给我自己,把648个PDF给合并到一起,我也是醉了。

大多数论坛和网站都有手机版入口的,在网站首页查找手机版一般都有,实在找不到的就用搜索引擎
手机版的网址大多是
m.example.com
wap.example.com
www.example.com/wap/xxx
www.example.com/mobile/xxx

想整页截图的话,有专用的浏览器插件
要截成PDF,不如用在线转换服务(搜web2pdfhtml2pdf
如: https://cloudconvert.com/
这类网站必要时还能充当翻墙的应急梯子

1赞

我现在转换到728页网页啦,转出来的网页我挑了几个试过,都正常,哇咔咔,后续准备搜索批量转成PDF,然后合并一整个PDF,然后前几天在论坛里看到PDF转成TXT的办法,真是曲线救国啊。。。

对了safari底部是有个插件的叫:将PDF存储到IBOOK里,然后就直接把网页转成完整的PDF了,就是不支持批量改名字,批量发邮件到自己的邮箱。 那个网页我试过了,注册一下就可以用,谢谢谢谢啦!学到好多知识啊! 还有好几个帖子也都可以用这个办法转一下,自从我以前上论坛看过的帖子总由于这样那样的原因看不了了,好帖子我就有强迫症要存到自己电脑上。

大量收藏可以用Wiz、Evernote或者OneNote这种跨平台软件啊(收集+整理+管理+批注)

1赞

我的电脑太旧了,用OneNote超级占硬盘,Evernote倒是一直在用,关联了各个网页,一键存很方便。Wiz没用过,我试试看。 汇报一下已存2300页,真好用呀,这个批量存的软件,我要备份一下 最后的这个all.txt居然有98M啊,记事本根本打不开,我试试notepad,打开是网页编码,如果修改了我能打开txt吗?看晕了。 最后的TXT存到百度网盘了,我上传了这里:http://pan.baidu.com/s/1i4aTtdV

小老虎也需要这样的一个工具,每次在论坛里看到心水的小说,就像存成txt保存下来,可是自己一段段的复制太痛苦了。