【技术报告】MiniCPM2.0

用户6987

用户309

2024年9月5日修改

📌

作者：MiniCPM 团队

Github: OpenBMB/MiniCPM: MiniCPM-2B: An end-side LLM outperforms Llama2-13B. (github.com)

💥 论文已在Arxiv平台公开！[2404.06395] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (arxiv.org)

一、简介

MiniCPM是一系列端侧语言大模型，主体语言模型MiniCPM-2B具有2.4B的非词嵌入参数量。在综合性榜单上与Mistral-7B相近（中文、数学、代码能力更优），整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。在当前最接近用户体感的榜单MTBench上，MiniCPM-2B也超越了Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha等众多代表性开源大模型。​

我们将完全开源MiniCPM-2B的模型参数供学术研究和有限商用，以及训练过程中的所有Checkpoint和大部分非专有数据(需要一定时间准备）给模型机理研究。​

具体而言，目前我们已开源以下模型：

•
基于MiniCPM-2B的指令微调与人类偏好对齐的MiniCPM-2B-SFT/DPO。​

•
基于MiniCPM-2B的多模态模型MiniCPM-V，能力超越基于Phi-2的同参数级别多模态模型**。**​

•
MiniCPM-2B-SFT/DPO的Int4量化版MiniCPM-2B-SFT/DPO-Int4。​

•
基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序，文本及多模态模型均可在手机端进行推理。​

模型整体性能：

局限性：

•
受限于模型规模，模型可能出现幻觉性问题。其中由于DPO模型生成的回复内容更长，更容易出现幻觉。我们也将持续进行MiniCPM模型的迭代改进；​

•
为了保证在学术研究用途上模型的通用性，我们未对模型进行任何身份认同训练。同时由于我们用ShareGPT开源语料作为部分训练数据，模型可能会输出类似GPT系列模型的身份认同信息；​

•
受限于模型规模，模型的输出受到提示词（prompt）的影响较大，可能多次尝试产生不一致的结果；​

•
受限于模型容量，模型的知识记忆较不准确，后续我们将结合RAG方法来增强模型的知识记忆能力。​

二、模型沙盒实验（Model Sandbox)

大模型的实验成本高昂，难以在不进行配置调优的情况下得到最优秀的大模型性能。​

借鉴

等优秀的前人工作，我们提出在小模型上进行广泛的实验，通过可迁移的配置，获得大模型的最优训练方法。MiniCPM本身，即为模型沙盒实验的成果。

我们进行了Hyper-parameters、Batch size、Learning Rate、Learning Rate Scheduler、Data Strategy 五个方面的模型沙盒研究。​

1.
超参稳定的模型规模扩增​

超参数对模型的性能具有重大影响，在传统训练方法中，需要对每个模型进行超参数调整，这对于大模型并不现实。借鉴$\mu P$的方法，我们对模型的各参数模块之间进行了连接权重的调整、以及对模型初始化的调整。部分调整接近Cerebras-GPT。

整体方案如下：

上述操作的具体参数由近400次在0.009B模型规模上的贝叶斯参数搜索得到。​

2.
最优Batchsize​

Batchsize决定了模型的收敛速度和消耗计算资源的平衡。Batchsize过大，达到一定的损失消耗的数据量和计算量都会很大，而batchsize过小，则需要消耗过多的训练步数，且有可能损失函数下降有限。在2020年OpenAI的开山之作中，OpenAI研究了损失函数随token数变化的规律。在他们的实验中，他们将认为消耗更多的步数等价于消耗更多的时间，在这种假设下，OpenAI定义了临界Batchsize（Critical Batchsize），使得达到一定的损失，既不消耗过多step，也不消耗过多token。然而我们观察到在利用当前以A100为主的计算资源，结合gradient checkpointing策略进行训练时，通常计算速度（而不是显存）是瓶颈，这意味着在相同机器数量下，多一倍Batchsize几乎等同于慢一倍的单步时间。基于这个观察，我们取消了对“不消耗过多step”的追求，而转向追求用最少的token量达到最低的loss。

我们在0.009B，0.036B，0.17B的模型上分别进行了6个batchsize的训练实验，将结果记录如图下。​

我们观察到了最优batchsize随着C4数据集上的loss的偏移规律（图中的红线）。​

common.docs_name - LarkCCM_Docs_Menu_Image

【技术报告】MiniCPM2.0​

【技术报告】MiniCPM2.0