更新时间:2024-04-30 GMT+08:00
分享

场景介绍

Llama2(Large Language Model Meta AI)是由Meta AI发布的新一代大语言系列模型,上下文长度由Llama的2048扩展到了4096,可以理解和生成更长的文本。

本文档以Llama2-13B为例,利用PyTorch训练框架和华为自研昇腾Snt9b硬件,为用户提供了开箱即用的预训练和全量微调方案。同时利用vLLM框架和华为自研昇腾Snt9b硬件,为用户提供了开箱即用的推理部署方案,包括推理的性能和精度测试等,为用户提供端到端的大模型解决方案,帮助用户使能大模型业务。

方案概览

本方案介绍了在ModelArts的Standard上使用昇腾计算资源开展Llama2-13B模型的训练、微调、推理部署的详细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买资源。

本方案目前仅适用于企业客户。

操作流程

图1 操作流程图
表1 操作任务流程说明

阶段

任务

说明

准备工作

准备资源

本教程案例是基于ModelArts Standard运行的,需要购买并开通ModelArts专属资源池和OBS桶。

准备数据

准备训练数据,可以用Alpaca数据集,也可以使用自己准备的数据集。

准备权重

准备分词器Tokenizer和推理代码。

准备代码

准备AscendSpeed训练代码。

准备镜像

准备训练和推理模型适用的容器镜像。

配置ModelArts IDE插件

本案例采用VS Code插件完成大语言模型预训练、微调以及权重的合并转化。

预训练

预训练

介绍如何进行预训练,包括训练数据处理、超参配置、训练任务、断点续训及性能查看。

微调训练

增量预训练

介绍如何进行增量预训练。

LoRA微调训练

介绍如何进行LoRA微调训练。

推理前的权重转换

(二选一)

训练权重合并及转换

推理前,需要将预训练或增量预训练产生的多个权重文件合并为一个,并转换为HuggingFace格式。

LoRA权重合并及转换

推理前,需要将LoRA微调训练产生的多个权重文件合并为一个,并转换为HuggingFace格式。

推理部署

部署推理服务

介绍如何部署并启动推理服务。

推理性能测试

介绍如何验证推理性能,包括静态和动态benchmark。

推理精度测试

介绍如何测试推理精度,并获取评测结果。

分享:

    相关文档

    相关产品