【文字识别与定位】MiniCPM-Llama3-V 2.5

用户309

2024年10月9日修改

6061

🙌

b站配套视频：www.xxxxx.com

模型地址：https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

官方地址: https://github.com/OpenBMB/MiniCPM-V/tree/main

项目地址：https://github.com/OpenBMB/MiniCPM-CookBook.git

适合人员：能够根据python脚本做基本的数据处理，能使用最基本的bash语言​

代码使用（2.6版本使用方法相似）：

应广大用户朋友的要求，笔者决定离开舒适区，开发了本次项目。仅使用了900张手写汉字数据，在领域内获得了惊喜的效果，另外在计算机文字上居然也有较好的泛化，测试集效果图如下​

common.docs_name - LarkCCM_Docs_Menu_Image

如果你想无脑用这个代码请看：

本demo仅适用于横向文本，且定位框为矩形或者近似为矩形（数据所限，非模型能力问题)​

1.
获取demo代码​

代码块

git clone https://github.com/OpenBMB/MiniCPM-CookBook.git​
# 您的star是我更新的动力​

2.
数据集处理​

代码块

cd /root/ld/ld_project/MiniCPM-CookBook/OCR_VG

3.
按照MiniCPM-CookBook/OCR_VG/data_demo/img_gt.json格式处理数据​

代码块

{"data": {​
​
        #下面的行是图片的绝对地址​
        "/root/ld/ld_project/MiniCPM-CookBook/OCR_VG/data_demo/img/000001.jpg": {​
            #"gt"代表这个图片对应的标注，可能存在多条，所以是一个列表​
            "gt": [​
                {​
                    # polygan时定位框的信息，分别为左上，右上，右下，左下的x，y坐标​
                    "polygon": [​
                        [​
                            404.0, 33.0​
                        ],​
                        [​
                            485.0,    33.0​
                        ],​
                        [​
                            485.0,    103.0​
                        ],​
                        [​
                            404.0, 103.0​
                        ]​
                    ],​
                    # text对应上面这个定位框中的文字​
                    "text": "猫趴在桌子上"​
                },​
                .....​
                # 这里是图片绝对路径​
                "image_path": "/root/ld/ld_project/MiniCPM-CookBook/OCR_VG/data_demo/img/000001.jpg" ​
        },​
        .......​
}​

【文字识别与定位】MiniCPM-Llama3-V 2.5​

【文字识别与定位】MiniCPM-Llama3-V 2.5