Calibre and its Pugins for e-hentai Books
导言
在经过实际使用和比较之后,我从众多的阅读器中选择了kavita,并且发现了其读取文件的局限性。我现在需要一个类似tmm
或者AVDC
的元数据刮削器来实现文件夹的重构和元数据的处理。
冲浪了一小时后,calibre + ehentai 1应该是可行的解决办法。
LANraragi 使用 nhentai刮削也行。
calibre安装¶
本体¶
使用calibre docker的lscr.io/linuxserver/calibre
- 配置 -
-v /path/to/data:/config
内部数据库,需要可读写 8080
是VNC下的配置窗口3,在/config
下创建数据库- 之后
8080
网页就可以进行基本操作了。
Skip: 可视化界面来阅读¶
使用 calibre-web 安装在UGREEN Nas上。
配置:
- -v /path/to/data:/config
内部数据库
- -v /path/to/calibre/library:/books
因为calibre-web
镜像是不带数据库的,这个时候我们需要用calibre本地版的数据库或者原始数据库metadata.db
来引导。拖拽到刚刚创建的docker/calibre/books
中即可。5
数据库必须提前安装,或者calibre生成
否则会docker logs
报错
默认端口8083
, 管理员密码 Username: admin
Password: admin123
基本操作¶
加入本子¶
会自动改名成英文的CBZ
文件(插件变成中文名),同步到数据库,按照作者名/作品格式
组织。相当于读取并复制一边数据,相当缓慢。
cbz
漫画
类型,直接导入。
zip
包, 包内单行本作品名/xxx.png
- 单个导入:选择单个
zip
压缩包 - 批量导入: 选择
从文件夹导入数据
,点击No
(因为是独立的单行本,不是系列) - 对于复杂的文件夹
2020年4月/*.zip OR /短篇集 OR /前传
, calibre会将每个zip作为单独的作品列出。
- 单个导入:选择单个
作品名/第xxx话/xxx.png
- Calibre原生只支持zip格式的文件
- 太麻烦
- 不可取:暴力全部压缩为一个zip再识别。会被kavita识别为一个未分卷的超大文件
- 手动分卷?: https://github.com/eesxy/ComicPacker
- 那还不如写个脚本重命名呢?
- 按照kavita的规则,简单的重命名一个文件夹来维持文件结构,刮削就不需要了。
刮削元数据¶
导入初始刮削¶
在加入本子时,通过正则表达式识别元数据
- 主要是识别作者和标题,去除作者名称
- 操作:打开Calbire的
Preferences-Adding books
或者加入书本的设定
界面,在Regular expression
栏中填入下方的正则表达式。4
(?P<comments>.*?\[(?P<author>(?:(?!汉化|漢化|CE家族|天鵝之戀)[^\[\]])*)\](?:\s*(?:\[[^\(\)]+\]|\([^\[\]\(\)]+\))\s*)*(?P<title>[^\[\]\(\)]+).*)
自带刮削器¶
calibre自带刮削,但是有几个问题:
- 国外Google等刮削源,无法访问
- 之前网上都是用豆瓣的api,但是听说用不了了。
- 传统刮削源,没有收录本子和韩漫的元数据
漫画元数据的格式
我是接触到m-team的toptoon分享6,才开始思考这个问题的。
漫画作品分享并无标准格式,我想制定某种形式存储元数据,以达到想影视作品一样可刮削识别的效果. 因此本次分享漫画通过顶通(toptoon.net)获取元数据,包括
1.漫画封面 2.漫画作者 3.网站评分 4.上架时间 5.角色简介 6.精彩剧照 7.章节标题 8.章节封面(2), 9.标签*信息
资源以章节分割,zip压缩.
请注意 1.资源以年份为文件划分漫画,但是年份的标准是完结日期而不是发布日期. 2.资源以爬虫方式来自各站,可能会有来自网站的二次水印,并非完美资源. 3.资源为个人整理,难免会有缺页,章节错乱等问题,如有发现请联系发布者,在下个版本更正. 4.此合集包为初代版本,截止到2022年,因为23年还未结束,仍有漫画在更新中,可能会在本年度完结. 5.此包为完结韩漫,未完结作品并不收录. 6.此资源元数据来自顶通,但韩漫网站并非只此一家,其他网站的资源暂无收录.
待整理的数据¶
目标的文件结构¶
插件¶
calibre自带插件设置¶
- 标签映射器: 移除不必要前缀
女性:黑丝
- 重复文件检索插件
- 本子元数据写入插件
- (展望功能):将calibre刮取到的元数据直接写入压缩包供其他软件读取
外部插件¶
github
- 从ehentai扒本子元数据
- calibre 备份文件。命名使用中文而不是英文,为了其余软件读取的拓展性