跳转至

谭邵杰的计算机奇妙之旅

WebCrawler first try

元数据
- 2021年7月25日
- 分类于 network
- 需要 1 分钟阅读时间

WebCrawler first try

常见的仿站软件尝试¶

wget -c -r -np -k -L -p 递归下载
webCopy
WinHTTrack
Octoparse
Teleport pro

遇到的问题¶

尝试后下载了一些html\css\js文件。但是没有达到我的要求。

我猜测的爬取原理，根据网站返回的index.html以及文件里指向的新文件路径进行递归下载。

这样的问题有：

无法对json文件里指向的材质包路径进行递归下载
无法读取指定网站文件夹的目录，导致不知道文件夹里有什么文件
假如有ftp://可能可以

需要进一步的研究学习¶

通过python实现对json文件里指向的材质包路径进行递归下载(感觉只能半自动)
读取指定网站文件夹的目录

开题缘由、总结、反思、吐槽~~¶

在找live2d模型的时候找到了 https://github.com/Eikanya/Live2d-model ，然后其中有个HSO的demo网站https://l2d.alg-wiki.com/。

然后一开始我想在自己页面做一个仿站，后来了解后只想把他里面的live2d的材质数据、贴图等爬下来。但是遇到了几个问题。

参考文献¶

https://www.shuzhiduo.com/A/E35pV9EAzv/