弹性云服务器 ECS

 

弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境,确保服务持久稳定运行,提升运维效率

 
 

    tp正在连接云服务器 更多内容
  • 修改云服务器信息

    修改 云服务器 信息 功能介绍 修改 服务器 信息,包括云服务器会话路数。调用该接口进行云服务器会话路数更新时,会自动重启云服务器后生效。 URI PUT /v2/cvr/servers/{server_id} 该接口需要使用global终端节点调用。 表1 路径参数 参数 是否必选 参数类型

    来自:帮助中心

    查看更多 →

  • 获取云服务器列表

    String 设备与云服务器的连接状态。 cluster_id String 集群ID。 name String 云服务器名称。 id String 云服务器ID。 publicip String 云服务器绑定的公网IP。 region_id String 云服务器所在的区域。 status

    来自:帮助中心

    查看更多 →

  • 训练中的权重转换说明

    --loader:选择对应加载模型脚本的名称。 --saver:选择模型保存脚本的名称。 --tensor-model-parallel-size:${TP}张量并行数,需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size:${PP}流水线并行数,需要与训练脚本中的PP值配置一样。

    来自:帮助中心

    查看更多 →

  • LoRA微调训练

    --lora-alpha 32 LoRA微调训练的计算量要小于预训练,可以适当增加MBS的值,这里建议: 对于7B:TP=4 PP=1 MBS=2 对于14B:TP=8 PP=1 MBS=4 对于72B:TP=8 PP=5 MBS=1 Step4 启动训练脚本 请根据表1修改超参值后,再启动训练脚本。

    来自:帮助中心

    查看更多 →

  • SFT全参微调任务

    input/BaiChuan2-13B/converted_weights TRAIN_ITERS=300 MBS=1 GBS=16 TP=8 PP=1 WORK_DIR=/home/ma-user/ws sh scripts/baichuan2/baichuan2.sh 其中

    来自:帮助中心

    查看更多 →

  • 预训练任务

    batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 默认值1。单机建议为1,双机建议为2。 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。默认值64。单机建议为64,双机建议为128。 TP 2 非必填。表示张量并行。默认值为2。

    来自:帮助中心

    查看更多 →

  • SFT微调训练任务

    非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。取值建议如下: Qwen-14B:2 Qwen-7B:2 Qwen-72B:1

    来自:帮助中心

    查看更多 →

  • SFT全参微调任务

    多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 建议值单机1,双机2。 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 建议值单机64,双机128。 TP 2 非必填。表示张量并行。默认值为2。

    来自:帮助中心

    查看更多 →

  • 预训练任务

    非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。取值建议如下: Qwen-14B:2 Qwen-7B:2 Qwen-72B:1

    来自:帮助中心

    查看更多 →

  • 可用性

    用性。 API的TP99响应时长<3s 本条规则是MUST类型的基本规则,可保障API的高可用性。 要求从API网关到后端服务的API调用,99%的调用响应时长<3s,TP99响应时长就是满足百分之九十九的网络请求所需要的最低耗时。 TP99响应时长达标率=TP99响应时间符合要

    来自:帮助中心

    查看更多 →

  • LoRA微调训练

    cro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 默认值为1。单机建议值为1,双机为2。 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 建议值单机64,双机128。 TP 2 非必填。表示张量并行。默认值为2。

    来自:帮助中心

    查看更多 →

  • LoRA微调训练

    cro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 默认值1。建议值单机1,双机2。 GBS 16 非必填。默认值:16;训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长,建议值单机16,双机32。 TP 8 非必填。张量并行。默认值为8。

    来自:帮助中心

    查看更多 →

  • 断点续训练

    ir_for_ma_output/Llama2-70B/pretrain TRAIN_ITERS=300 MBS=2 GBS=1024 TP=8 PP=8 WORK_DIR=/home/ma-user/ws sh scripts/llama2/llama2.sh # 第二台节点

    来自:帮助中心

    查看更多 →

  • SFT全参微调任务

    非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。取值建议如下: Llama2-7B:4 Llama2-13B:4 Llama2-70B:2

    来自:帮助中心

    查看更多 →

  • 基本概念

    义阈值。 TP99时延 TP99时延=完成99%的网络请求所需要的最短耗时。在APM中,所有的时延都是指TP99时延。 举例:假设总请求数为100个,它们的请求耗时分别为1s、2s、3s、4s……98s、99s、100s。若要完成99%的请求,我们至少需要99s,故TP99为99s。

    来自:帮助中心

    查看更多 →

  • 预训练任务

    非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。取值默认值如下: Llama2-7B:4 Llama2-13B:4 Llama2-70B:2

    来自:帮助中心

    查看更多 →

  • 断点续训练

    ed_dir_for_ma_output/Qwen-14B/pretrain TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh

    来自:帮助中心

    查看更多 →

  • 用户本地电脑如何连接VPN?

    用户本地电脑如何连接VPN? 普通家庭宽带路由器、个人的移动终端设备、Windows主机自带的VPN服务(如L2TP)无法与云进行VPN对接。 与云下对接需要对端有支持标准IPsec协议的设备。 父主题: 组网与使用场景

    来自:帮助中心

    查看更多 →

  • 用户本地电脑如何连接云上VPN?

    用户本地电脑如何连接云上VPN? 普通家庭宽带路由器、个人的移动终端设备、Windows主机自带的VPN服务(如L2TP)无法与云进行VPN对接。 与云下对接需要对端有支持标准IPsec协议的设备。 父主题: 组网与使用场景

    来自:帮助中心

    查看更多 →

  • LoRA微调训练

    非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。默认值为2。取值建议如下: Llama2-7B:4 Llama2-13B:4 Llama2-70B:2

    来自:帮助中心

    查看更多 →

  • 断点续训练

    r_for_ma_output/BaiChuan2-13B/pretrain TRAIN_ITERS=300 MBS=1 GBS=16 TP=8 PP=1 sh scripts/baichuan2/baichuan2.sh 多机启动 以baichuan2-13b为例,多台机器

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了