文档首页/ AI开发平台ModelArts/ 快速入门/ 使用ModelArts Studio的Llama3.1-8B模型框架实现对话问答
更新时间:2024-11-14 GMT+08:00
分享

使用ModelArts Studio的Llama3.1-8B模型框架实现对话问答

  • 仅“华东二”区域支持使用ModelArts Studio大模型即服务平台(MaaS)。
  • MaaS是白名单功能,如果有试用需求,请先申请权限

场景描述

本案例用于指导用户使用ModelArts Studio大模型即服务平台(下面简称为MaaS)的Llama3.1-8B模型框架,创建并部署一个模型服务,实现对话问答。通过学习本案例,您可以快速了解如何在MaaS服务上的创建和部署模型。更多MaaS服务的使用指导请参见用户指南

操作流程

开始使用如下样例前,请务必按准备工作指导完成必要操作。

  1. 步骤1:创建我的模型:使用模型广场的模型框架创建自定义模型。
  2. 步骤2:部署模型服务:使用创建成功的自定义模型部署模型服务。
  3. 步骤3:在模型体验使用模型服务:在模型体验页面,体验部署的模型服务,进行对话问答。

准备工作

  • 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。
  • 配置委托访问授权
    ModelArts使用过程中涉及到与OBS、SWR等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。
    1. 使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。
    2. 在弹出的“访问授权”窗口中,

      授权对象类型所有用户(或根据实际情况配置)

      委托选择新增委托

      权限配置普通用户

      选择完成后勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。
      图1 配置委托访问授权
    3. 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。
      图2 查看委托配置信息

步骤1:创建我的模型

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。
  3. 在ModelArts Studio左侧导航栏中,选择“模型广场”进入模型广场。
  4. 在模型广场搜索“Llama3.1-8B”,单击“立即使用”进入模型详情页。
  5. 在模型详情页,单击“创建模型”弹出创建模型页面。
  6. 在创建模型页面,配置参数。
    图3 创建模型
    表1 创建模型

    参数

    说明

    取值样例

    来源模型

    当从“模型广场”进入创建模型页面时,此处默认呈现选择的模型。

    Llama3.1-8B

    模型名称

    自定义模型名称。

    llama3.1

    描述

    模型简介。

    -

    权重设置与词表

    默认选择“使用推荐权重”,支持选择“自定义权重”

    使用平台推荐的权重文件,可提高模型的训练、压缩、部署和调优等服务的使用效率。

    权重文件指的是模型的参数集合。

    使用推荐权重

  7. 参数配置完成后,单击“创建”,创建自定义模型。
  8. 在模型列表,单击模型名称可以进入详情页查看模型详细信息和任务。
    当模型“状态”变成“创建成功”时,表示模型创建完成。
    图4 查看我的模型状态

步骤2:部署模型服务

  1. “llama3.1”模型创建成功后,在我的模型列表,单击操作列的“部署”,进入部署模型服务页面。
  2. 在部署模型服务页面,完成创建配置。
    图5 资源设置
    表2 部署模型服务

    参数

    说明

    取值样例

    服务设置

    服务名称

    自定义模型服务的名称。

    service-llama3

    描述

    部署模型服务的简介。

    -

    模型设置

    部署模型

    当从“我的模型”进入部署模型服务页面时,此处默认呈现选择的模型。

    llama3.1

    资源设置

    资源池类型

    资源池分为公共资源池与专属资源池。

    • 公共资源池供所有租户共享使用。
    • 专属资源池需单独创建,不与其他租户共享。

    公共资源池

    实例规格

    选择实例规格,规格中描述了服务器类型、型号等信息。

    xxx

    流量限制(QPS)

    设置待部署模型的流量限制QPS。

    3

    实例数

    设置服务器个数。

    推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制

    1

    更多选项

    事件通知

    选择是否打开“事件通知”开关。

    • 开关关闭(默认关闭):表示不启用消息通知服务。
    • 开关打开:表示订阅消息通知服务,当任务发生特定事件(如任务状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
      • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
      • “事件”:选择要订阅的事件类型。例如“创建中”“已完成”“运行失败”等。

    关闭

    自动停止

    当使用付费资源时,可以选择是否打开“自动停止”开关。

    • 开关关闭(默认关闭):表示任务将一直运行。
    • 开关打开:表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”。启用该参数并设置时间后,运行时长到期后将会自动终止任务,准备排队等状态不扣除运行时长。

    关闭

  3. 参数配置完成后,单击“提交”,创建部署任务。

    在任务列表,当模型“状态”变成“运行中”时,表示模型部署完成。

步骤3:在模型体验使用模型服务

  1. 在ModelArts Studio左侧导航栏中,选择“模型部署”进入服务列表。
  2. 在服务列表选择模型服务“service-llama3”,单击操作列“更多 > 体验”,进入体验页面。
  3. 在模型体验页面,单击“请选择服务”“立即选择”,在模型列表中选择模型服务“service-llama3”,单击“确定”
    图6 选择模型服务
  4. 在参数设置页面,拖动或直接输入数值配置推理参数。单击“恢复默认”可以将参数值调回默认值。
    图7 设置推理参数
    表3 参数设置

    参数

    说明

    取值样例

    温度/Temperature

    设置推理温度。

    • 数值较高,输出结果更加随机。
    • 数值较低,输出结果更加集中和确定。

    1

    核采样/top_p

    设置推理核采样。调整输出文本的多样性,数值越大,生成文本的多样性就越高。

    1

    top_k

    选择在模型的输出结果中选择概率最高的前K个结果。

    20

  5. 在对话框中输入问题,查看返回结果,在线体验对话问答。
    图8 体验模型服务

后续操作

如果不再需要使用此模型服务,建议清除相关资源,避免产生不必要的费用。
  • 在MaaS服务的“模型部署”页面,选择模型服务“service-llama3”,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除服务。
  • 在MaaS服务的“我的模型”页面,选择模型“llama3.1”,单击操作列的“更多 > 删除”,在弹窗中输入“DELETE”,单击“确定”,删除模型。
  • 进入OBS控制台,删除本示例使用的OBS桶及文件夹。

相关文档