你新开一个帖子嘛,我也好介绍一下。
你好,谢谢你回复我的问题,“只看楼主”帖子自身是有这个功能的,我是想用“只看楼主”,把楼主的所有发言都下载下来,存成文本。
如果能把楼主和其他人的发言呢都存成文本就更好了。
我也去知乎搜过这个问题,看到别人提过的方法,一般这种连接没有FEED,我也是小白,看到人家推荐的FEED34也不会用,那种只是建立个RSS链接,也未必能存的下来帖子。
有人回答说OFFLINE EXPLORER,我也去安装了一下,下载下来有照片有网页,但是坑爹的是只有第一页。
一个帖子几千页,我只想要保存帖子里的文本内容,能在离线状态下看,仅看楼主的也可以,一页一页复制黏贴太坑爹了。
不知道有什么抓取器能抓取楼主的回答吗?
或者是能把几千页存成PDF,再转成TXT?
想要搜狐的,还有别的办法么?5555555555555555.那个帖子我能发这儿吗?版主觉得不合适就删掉吧。
http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/p1
这个软件用不了了。
之前逛知乎的时候,deney gol建议说
“在网页网址的最后数字就是帖子的ID,在后面加上:“-all-1”,可以在一页显示所有的回帖了.”
我试过了,可惜加了数字网页打不开,就不知道怎么搞了。
对网页知识也不懂啊
前言:
- 试了下,别指望普通下载软件的批量下载了,搜狐通过网址限制了批量
abc/p1
这种没有具体文件的路径会让下载软件自动跳转到index.html
- wget也无法直接批量(
wget -i list
),但可以准确的下到每个单页,弄个批处理就能实现批量下载了 - 但搜狐在页面里又搞了一下,页面正文内容是由Javascript动态解码输出显示的,原文正文全是
\uxxxx
下好的文件只能拖到浏览器里看,没法用当txt看
说真的,要不是搜狐爱搞怪我都懒得弄了……
解决办法:
使用手机版网页(只看楼主
的具体链接点击只看楼主
后获得)
http://m.club.sohu.com/licai/thread/!91555f1389fdfa2b?pagect=1
批量下载工具: sohu.zip_免费高速下载|百度网盘-分享无限制
使用说明:
1.运行MakeBAT.vbs
并按照提示输入参数
2.运行上一步生成的down.bat
3.处理下载到的文件
具体处理方式
a.不处理,直接浏览器查看(不支持翻页)
b.手动\软件批量(如果有的话)修改每个文件的下一页
、上一页
链接指向本地html文件(支持翻页)
c.找相关的html2txt
转换软件转为txt(效果未知)
d.手动删除合并后的all.txt
里面的多余内容(notepad2的替换全部+压缩空格
+移除空行
+正则表达式<[^>]*>
)
5 个… 真不是有意的…
谢谢,批量下载我只会迅雷,通配符(百度了下是或者?么),那网址是只改1还是要把P1都改掉啊,:
1.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/P
2.http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b/(),
搞不懂哪个才对啊?后面还要加网页的后缀么?就是.html
我看迅雷那个教程是把http://www.a.com/01.zip 当中的01改掉成了(),变http://www.a.com/(*).zip
这个括号里面有个*的,不知道我编辑了好多次都显示不出来。
步进没看到选项,初始值选,了从1到999(迅雷下载说输入值必须小于999),通配符长度选了3.
帖子本身有2385页,如果我用了只看楼主功能,就缩减到648页,那么网址后面的数字就变了,每一页都是http://money.club.sohu.com/licai/thread/!91555f1389fdfa2b?uid=e47e4410af5d40a,会不会更适合用批量下载功能?
我还去下了几个绿色的采集器,但是存在两个问题,1.采集出来的文件不完整,只有第一页;2.导出来只能是数据库。
wegt我百度了下说是个什么命令,小白不懂啊。。。
文本编辑器我搜出来一个Notepad2 。
真的是你说一个我搜一下啊。。。