nayana
1
原始的保存网页的方式,就不必说了,这个不用请教,大家也都会。这里想请教的是:经过整理、脱水后的备份方式
网上搜索,只找到三种方法:
-
豆瓣备份 – 导出电影与读书列表 - 小众软件
→已经失效,会提示“Cann’t connect to Douban or user does not exist.”
-
Wildog/douban-exporter: An online service to export 豆瓣 (douban) data to Excel files. → 在requirements依赖都表示齐全的情况下,Win7下报错,提示“NameError: global name ‘count_lock’ is not defined”
-
豆瓣离线备份-Shell脚本 | 冰蓝记录思考的地方 →shell是在linux下用的吧,我没linux环境,win下强行运行会提示“SyntaxError: invalid syntax”
简单说,就是试了,都用不了。不知道有没有正常、能用的方法?谢谢^_^
dms
4
用造数的话,应该十分钟搞定(但我没试验过,部分网站可能因为一些因素抓不全)。
Web Scraper 其实好用,但可能需要二次抓取,第一次生成网址列表,第二次进行抓取。熟练的话也就十分钟以内的操作(抓取时间额外计算),但是学习成本略高一点。
我日常需要抓点什么东西的话,也是这个选择的,同样懒得自己写。
nayana
3
谢谢alay推荐。其实本意是希望有现成的,这个需求,很多豆瓣用户都有吧。
如果实在没现成的,只能干脆保存网页了
爬虫什么的,现在不像20岁时,那么热衷折腾了,花几个小时写的代码,1年就用个1次,边际收益很不值得
nayana
5
大概看了下,造数申请试用,好像还要以公司名义?也可能看错了,中午休息时间宝贵,没太细看
不过已经解决啦。v站有个兄弟,用他自用的爬虫帮我爬了:[求助] 有能用的豆瓣备份工具吗? - V2EX