跳转至

Calibre and its Pugins for e-hentai Books

导言

在经过实际使用和比较之后,我从众多的阅读器中选择了kavita,并且发现了其读取文件的局限性。我现在需要一个类似tmm或者AVDC的元数据刮削器来实现文件夹的重构和元数据的处理。

冲浪了一小时后,calibre + ehentai 1应该是可行的解决办法。

LANraragi 使用 nhentai刮削也行。

calibre安装

本体

使用calibre dockerlscr.io/linuxserver/calibre

  • 配置 - -v /path/to/data:/config 内部数据库,需要可读写
  • 8080是VNC下的配置窗口3,在/config下创建数据库
  • 之后8080网页就可以进行基本操作了。

Skip: 可视化界面来阅读

使用 calibre-web 安装在UGREEN Nas上。

# 安装
linuxserver/calibre-web

配置: - -v /path/to/data:/config 内部数据库 - -v /path/to/calibre/library:/books 因为calibre-web镜像是不带数据库的,这个时候我们需要用calibre本地版的数据库或者原始数据库metadata.db来引导。拖拽到刚刚创建的docker/calibre/books中即可。5

数据库必须提前安装,或者calibre生成

否则会docker logs报错

sqlalchemy.exc.OperationalError: (sqlite3.OperationalError) unable to open database file

默认端口8083, 管理员密码 Username: admin Password: admin123

基本操作

加入本子

会自动改名成英文的CBZ文件(插件变成中文名),同步到数据库,按照作者名/作品格式组织。相当于读取并复制一边数据,相当缓慢。

  • cbz
    • 漫画类型,直接导入。
  • zip包, 包内单行本作品名/xxx.png
    • 单个导入:选择单个zip压缩包
    • 批量导入: 选择从文件夹导入数据,点击No(因为是独立的单行本,不是系列)
    • 对于复杂的文件夹2020年4月/*.zip OR /短篇集 OR /前传, calibre会将每个zip作为单独的作品列出。
  • 作品名/第xxx话/xxx.png
    • Calibre原生只支持zip格式的文件
    • 太麻烦
    • 不可取:暴力全部压缩为一个zip再识别。会被kavita识别为一个未分卷的超大文件
    • 手动分卷?: https://github.com/eesxy/ComicPacker
    • 那还不如写个脚本重命名呢?
    • 按照kavita的规则,简单的重命名一个文件夹来维持文件结构,刮削就不需要了。

刮削元数据

导入初始刮削

在加入本子时,通过正则表达式识别元数据

  1. 主要是识别作者和标题,去除作者名称
  2. 操作:打开Calbire的 Preferences-Adding books或者加入书本的设定 界面,在 Regular expression 栏中填入下方的正则表达式。4
(?P<comments>.*?\[(?P<author>(?:(?!汉化|漢化|CE家族|天鵝之戀)[^\[\]])*)\](?:\s*(?:\[[^\(\)]+\]|\([^\[\]\(\)]+\))\s*)*(?P<title>[^\[\]\(\)]+).*)

自带刮削器

calibre自带刮削,但是有几个问题:

  1. 国外Google等刮削源,无法访问
    1. 之前网上都是用豆瓣的api,但是听说用不了了。
  2. 传统刮削源,没有收录本子和韩漫的元数据
    1. 本子可以基于 e-hentai(需要ex-hentai的账号cookies) 并且结合英文tag翻译中文的插件
    2. 韩漫可以基于 toptoon。但是还没有类似的github。
漫画元数据的格式

我是接触到m-team的toptoon分享6,才开始思考这个问题的。

漫画作品分享并无标准格式,我想制定某种形式存储元数据,以达到想影视作品一样可刮削识别的效果. 因此本次分享漫画通过顶通(toptoon.net)获取元数据,包括

1.漫画封面 2.漫画作者 3.网站评分 4.上架时间 5.角色简介 6.精彩剧照 7.章节标题 8.章节封面(2), 9.标签*信息

资源以章节分割,zip压缩.

请注意 1.资源以年份为文件划分漫画,但是年份的标准是完结日期而不是发布日期. 2.资源以爬虫方式来自各站,可能会有来自网站的二次水印,并非完美资源. 3.资源为个人整理,难免会有缺页,章节错乱等问题,如有发现请联系发布者,在下个版本更正. 4.此合集包为初代版本,截止到2022年,因为23年还未结束,仍有漫画在更新中,可能会在本年度完结. 5.此包为完结韩漫,未完结作品并不收录. 6.此资源元数据来自顶通,但韩漫网站并非只此一家,其他网站的资源暂无收录.

待整理的数据

目标的文件结构

插件

calibre自带插件设置

  1. 标签映射器: 移除不必要前缀女性:黑丝
  2. 重复文件检索插件
  3. 本子元数据写入插件
  4. (展望功能):将calibre刮取到的元数据直接写入压缩包供其他软件读取

外部插件

github

  1. 从ehentai扒本子元数据
  2. calibre 备份文件。命名使用中文而不是英文,为了其余软件读取的拓展性

参考文献

评论