场景介绍
Llama2(Large Language Model Meta AI)是由Meta AI发布的新一代大语言系列模型,上下文长度由Llama的2048扩展到了4096,可以理解和生成更长的文本。
本文档以Llama2-13B为例,利用PyTorch训练框架和华为自研昇腾Snt9b硬件,为用户提供了开箱即用的预训练和全量微调方案。同时利用vLLM框架和华为自研昇腾Snt9b硬件,为用户提供了开箱即用的推理部署方案,包括推理的性能和精度测试等,为用户提供端到端的大模型解决方案,帮助用户使能大模型业务。
方案概览
本方案介绍了在ModelArts的Standard上使用昇腾计算资源开展Llama2-13B模型的训练、微调、推理部署的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买资源。
本方案目前仅适用于企业客户。
操作流程
阶段 |
任务 |
说明 |
---|---|---|
准备工作 |
准备资源 |
本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。 |
准备数据 |
准备训练数据,可以用Alpaca数据集,也可以使用自己准备的数据集。 |
|
准备权重 |
准备分词器Tokenizer和推理代码。 |
|
准备代码 |
准备AscendSpeed训练代码。 |
|
准备镜像 |
准备训练和推理模型适用的容器镜像。 |
|
配置ModelArts IDE插件 |
本案例采用VS Code插件完成大语言模型预训练、微调以及权重的合并转化。 |
|
预训练 |
预训练 |
介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、断点续训及性能查看。 |
微调训练 |
增量预训练 |
介绍如何进行增量预训练。 |
LoRA微调训练 |
介绍如何进行LoRA微调训练。 |
|
推理前的权重转换 (二选一) |
训练权重合并及转换 |
推理前,需要将预训练或增量预训练产生的多个权重文件合并为一个,并转换为HuggingFace格式。 |
LoRA权重合并及转换 |
推理前,需要将LoRA微调训练产生的多个权重文件合并为一个,并转换为HuggingFace格式。 |
|
推理部署 |
部署推理服务 |
介绍如何部署并启动推理服务。 |
推理性能测试 |
介绍如何验证推理性能,包括静态和动态benchmark。 |
|
推理精度测试 |
介绍如何测试推理精度,并获取评测结果。 |