2026年02月24日00点22分24秒
大过年的还在训练模型
这次使用了2026年1月发布的YOLO26作为训练对象
因为换了模型所以版本号也进化到2.0 作为区分
然后这次使用了原图模式数据增强
画师CG本来一本就好几百百页
以正数100页为例 水平标签图以64划分 100张图里有40张图会被进行数据增强如图
增强的图直接是替换原图而不是额外增加数据增强的个例 水平图会以反转 反色噪点 扫描线 等 随机多种样式进行数据增强
关于OBB数据 因为本子里实在难找倾斜文字 所以使用了 旋转增强
以46划分 100张图里 会有60张被随机旋转角度 同时 反色 噪点 扫描线 等随机效果进行原图替换数据增强
然后这次使用了更大的尺寸1600 去训练 而不是640 或者1024
同时数据量是 YOLOV11 1.1和1.2的 2倍和4倍
虽然去掉了NMS 但是面对超长图 还是不太行
下一个模型打算用用RFDETR
最近RFDETR支持了直接使用YOLO数据集来进行训练
https://github.com/roboflow/rf-detr
不要在没有旋转 文字的页面运行OBB模型
会出现灾难
OBB的正确用法
在有旋转文字的页面 执行过滤标签检测 只检测 旋转标签
gemini 让漫画翻译进入是3.0时代
而NSFW 目前还在2.0时代
期待YOLO2026的表现
首先感谢大佬给开的这个仓库
本仓库模型使用 https://github.com/ultralytics/ultralytics yoloV11
采集E站 数千画廊 由 淫叔馆 https://t.me/yinshuguan 馆长
https://github.com/lhj5426/YSG 训练的漫画文本检测模型
另外对电商图片 韩国长条漫画 英文漫画 也有不错的识别效果
2025年11月17日12点48分48秒
为自训练模型开发魔改了专用检测工具
https://github.com/lhj5426/X-AnyLabeling
推荐使用本模型专用的配套工具进行检测
并在检测完调整检查完之后导出对应的漫画软件的项目文件
目前支持 专用工具支持 免费开源的漫画软件 和付费图片翻译器
2款翻译软件的 项目文件导入和导出
2025年10月18日14点06分59秒
这次换了模型支持了全角度 目前还处于1.0早期阶段
新模型换了新的标签更容易理解
balloon 气泡外的文字
qipao 气泡内的文字
shuqing 竖斜 竖着的气泡内和气泡外的倾斜文字
changfangtiao 长方条 横向文字不区分气泡或者矩形框内外的全部文字
hengxie 横斜 长方条的上位版 所有横着的倾斜文字
other 框体 气泡和 任意包含文字的垂直水平框体
本身就是从小白自己一点点学习的
开始的标签 我自己都有点看不懂
反正都换模型了从0开始训练
干脆标签也换成自己能理解的
2025年08月21日21点10分34秒
模型版本1.1
这次对比上次增加了对文字气泡本泡的识别 主要是把1代模型一个气泡=一个框 拆分生了一条文字一个框 只针对全彩CG类图片进行训练 方形图 长方形宽屏图
对于黑白效果表现不佳
不推荐黑白长条漫画使用此模型
同样尽可能排除拟声词
2025年06月03日03点39分02秒
自己用了 一段时间 发现 其他模型 都是多余的了
已经删除
主要推荐使用 ysgyolo_S150best.pt
遇到 超长条的可以试着使用
比如这种 贯穿整页的 超长文字对话
横向或者纵向的
这种 DERT模型 比yolo 效果相对要好一些
ysgyolo_rtdetr_0190.pt
(此话仅限针对E站全彩CG画师 https://exhentai.org/tag/group:nanohana+jam?next=3306887)








