如何下载多页帖子中的文本内容?

你新开一个帖子嘛,我也好介绍一下。

你好,谢谢你回复我的问题,“只看楼主”帖子自身是有这个功能的,我是想用“只看楼主”,把楼主的所有发言都下载下来,存成文本。
如果能把楼主和其他人的发言呢都存成文本就更好了。

我也去知乎搜过这个问题,看到别人提过的方法,一般这种连接没有FEED,我也是小白,看到人家推荐的FEED34也不会用,那种只是建立个RSS链接,也未必能存的下来帖子。
有人回答说OFFLINE EXPLORER,我也去安装了一下,下载下来有照片有网页,但是坑爹的是只有第一页。
一个帖子几千页,我只想要保存帖子里的文本内容,能在离线状态下看,仅看楼主的也可以,一页一页复制黏贴太坑爹了。
不知道有什么抓取器能抓取楼主的回答吗?
或者是能把几千页存成PDF,再转成TXT?

想要搜狐的,还有别的办法么?5555555555555555.那个帖子我能发这儿吗?版主觉得不合适就删掉吧。
http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/p1

这个软件用不了了。
之前逛知乎的时候,deney gol建议说
“在网页网址的最后数字就是帖子的ID,在后面加上:“-all-1”,可以在一页显示所有的回帖了.”
我试过了,可惜加了数字网页打不开,就不知道怎么搞了。
对网页知识也不懂啊

前言:

  1. 试了下,别指望普通下载软件的批量下载了,搜狐通过网址限制了批量
    abc/p1这种没有具体文件的路径会让下载软件自动跳转到index.html
  2. wget也无法直接批量(wget -i list),但可以准确的下到每个单页,弄个批处理就能实现批量下载了
  3. 但搜狐在页面里又搞了一下,页面正文内容是由Javascript动态解码输出显示的,原文正文全是\uxxxx
    下好的文件只能拖到浏览器里看,没法用当txt看

说真的,要不是搜狐爱搞怪我都懒得弄了……

解决办法:
使用手机版网页(只看楼主的具体链接点击只看楼主后获得)
http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=1

批量下载工具: sohu.zip_免费高速下载|百度网盘-分享无限制

使用说明:
1.运行MakeBAT.vbs并按照提示输入参数
2.运行上一步生成的down.bat
3.处理下载到的文件

具体处理方式
a.不处理,直接浏览器查看(不支持翻页)
b.手动\软件批量(如果有的话)修改每个文件的下一页上一页链接指向本地html文件(支持翻页)
c.找相关的html2txt转换软件转为txt(效果未知)
d.手动删除合并后的all.txt里面的多余内容(notepad2的替换全部+压缩空格+移除空行+正则表达式<[^>]*>)

1 个赞

5 个…:joy: 真不是有意的…

谢谢,批量下载我只会迅雷,通配符(百度了下是或者?么),那网址是只改1还是要把P1都改掉啊,:
1.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/P

2.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/(),
搞不懂哪个才对啊?后面还要加网页的后缀么?就是.html
我看迅雷那个教程是把http://www.a.com/01.zip 当中的01改掉成了(
),变http://www.a.com/(*).zip

这个括号里面有个*的,不知道我编辑了好多次都显示不出来。

步进没看到选项,初始值选,了从1到999(迅雷下载说输入值必须小于999),通配符长度选了3.

帖子本身有2385页,如果我用了只看楼主功能,就缩减到648页,那么网址后面的数字就变了,每一页都是http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b?uid=e47e4410af5d40a,会不会更适合用批量下载功能?

我还去下了几个绿色的采集器,但是存在两个问题,1.采集出来的文件不完整,只有第一页;2.导出来只能是数据库。
wegt我百度了下说是个什么命令,小白不懂啊。。。
文本编辑器我搜出来一个Notepad2 。
真的是你说一个我搜一下啊。。。