分享
【文字识别与定位】MiniCPM-Llama3-V 2.5
输入“/”快速插入内容
【文字识别与定位】MiniCPM-Llama3-V 2.5
用户309
用户309
2024年10月9日修改
6061
🙌
b站配套视频:
www.xxxxx.com
模型地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
官方地址:
https://github.com/OpenBMB/MiniCPM-V/tree/main
项目地址:
https://github.com/OpenBMB/MiniCPM-CookBook.git
适合人员:能够根据python脚本做基本的数据处理,能使用最基本的bash语言
代码使用(2.6版本使用方法相似):
应广大用户朋友的要求,笔者决定离开舒适区,开发了本次项目。仅使用了900张手写汉字数据,在领域内获得了惊喜的效果,另外在计算机文字上居然也有较好的泛化,测试集效果图如下
如果你想无脑用这个代码请看:
本demo仅适用于横向文本,且定位框为矩形或者近似为矩形(数据所限,非模型能力问题)
1.
获取demo代码
代码块
Bash
git clone https://github.com/OpenBMB/MiniCPM-CookBook.git
# 您的star是我更新的动力
2.
数据集处理
代码块
Bash
cd /root/ld/ld_project/MiniCPM-CookBook/OCR_VG
3.
按照MiniCPM-CookBook/OCR_VG/data_demo/img_gt.json格式处理数据
代码块
Plain Text
{"data": {
#下面的行是图片的绝对地址
"/root/ld/ld_project/MiniCPM-CookBook/OCR_VG/data_demo/img/000001.jpg": {
#"gt"代表这个图片对应的标注,可能存在多条,所以是一个列表
"gt": [
{
# polygan时定位框的信息,分别为左上,右上,右下,左下的x,y坐标
"polygon": [
[
404.0, 33.0
],
[
485.0, 33.0
],
[
485.0, 103.0
],
[
404.0, 103.0
]
],
# text对应上面这个定位框中的文字
"text": "猫趴在桌子上"
},
.....
# 这里是图片绝对路径
"image_path": "/root/ld/ld_project/MiniCPM-CookBook/OCR_VG/data_demo/img/000001.jpg"
},
.......
}