WebCrawler first try
常见的仿站软件尝试¶
- wget -c -r -np -k -L -p 递归下载
- webCopy
- WinHTTrack
- Octoparse
- Teleport pro
遇到的问题¶
尝试后下载了一些html\css\js文件。但是没有达到我的要求。
我猜测的爬取原理,根据网站返回的index.html以及文件里指向的新文件路径进行递归下载。
这样的问题有:
- 无法对json文件里指向的材质包路径进行递归下载
- 无法读取指定网站文件夹的目录,导致不知道文件夹里有什么文件
- 假如有ftp://可能可以
需要进一步的研究学习¶
- 通过python实现对json文件里指向的材质包路径进行递归下载(感觉只能半自动)
- 读取指定网站文件夹的目录
开题缘由、总结、反思、吐槽~~¶
在找live2d模型的时候找到了 https://github.com/Eikanya/Live2d-model ,然后其中有个HSO的demo网站https://l2d.alg-wiki.com/。
然后一开始我想在自己页面做一个仿站,后来了解后只想把他里面的live2d的材质数据、贴图等爬下来。但是遇到了几个问题。
参考文献¶
https://www.shuzhiduo.com/A/E35pV9EAzv/