如何下载这个网页目录下的文件？

775405984 · 2020 年7 月 20 日 15:18

上面的网页本身不能访问，但是该【产科】目录下面的文件可以下载，还被Google收录，如:

请教各位大佬，我想下载该目录下的所有文件，该如何操作？谢谢～

archonxp · 2020 年7 月 21 日 02:44

应该不行吧，除非能想办法找到索引，要不把网站黑了得到文件列表？
这个问题有点像ftp里没有list权限，又想根据一个文件地址来下载其他文件

tim1103 · 2020 年7 月 21 日 02:48

可以试试暴力枚举？

Rabbit · 2020 年7 月 21 日 03:05

http://211.103.242.133:8080

直接访问这个页面疾病数据库找到你要的科室有能下载的地方这里你就自由发挥吧

是爬虫还是怎么自己搞吧我没这技术

ddos · 2020 年7 月 21 日 03:05

这个索引可以通过前面的网站，查询到名称，但是他的翻页是JS控制，不好爬。。。而且，有的疾病没有对应的下载文件。。。

我觉得 http://211.103.242.133:8080/ziyuan/CDDPdf/dis/ 20111125 /产科/妊娠剧吐.pdf
这个日期部分不是唯一的

dms · 2020 年7 月 21 日 06:18

Google 收录了的话，就用 Google 好了。应该如果网站上有链接到的文件都会有，孤立文件就不好说了。

但二百多个结果应该可以让楼主满意吧。

dms · 2020 年7 月 21 日 08:50

yeehonglee · 2020 年7 月 22 日 02:39

我的思路：

以上仅供学习探讨之用

775405984 · 2020 年7 月 24 日 03:49

小哥哥，步骤四是干嘛用的？看不懂

yeehonglee · 2020 年7 月 24 日 06:06

步骤4是页面翻页请求，其中两个关键参数我圈出来了，注意是有cookie的，这个需要写爬虫的时候测一下请求页面翻页数据，我看到这懒得试了大概原理就这样，试试看就知道了

775405984 · 2020 年7 月 22 日 01:59

could you please elaborate？

775405984 · 2020 年7 月 21 日 02:57

可是Google是怎么能索引到的？

ddos · 2020 年7 月 21 日 08:33

Google 不全，应该只收集了，这两个地址的，

但是还有一些病不在这2个地址下：比如妊娠合并炎性肠病（在第9页）

我觉得可以从20111125穷举到 20140930 ,要是没结果，我觉得可能就没希望了

xiaokonglong · 2020 年7 月 22 日 01:35

google是根据外部url索引的啊.不是通过枚举目录.

775405984 · 2020 年7 月 22 日 01:54

外部url索引? 我也可以吗？

话题		回复	浏览量
知乎已经完全禁止谷歌和必应搜索抓取其内容闲聊灌水	64	3478	2024 年9 月 4 日
怎样获取 Google 搜索结果里的完整摘要？或类似缓存快照？问题求助❓	8	4273	2019 年2 月 23 日
【自荐】探索者小舒，强大快捷的搜索切换工具发现频道 🔎 chrome	8	1798	2022 年3 月 5 日
如何看待百度贴吧屏蔽谷歌必应? 讨论分享	7	308	2024 年10 月 22 日
为了看公众号小众软件的历史文章，我抓取了2013年到2022年的3000多篇文章讨论分享 chrome	0	447	2022 年10 月 4 日