配置云资源
本文档中涉及到的资源如下,请提前准备。
资源要求
|
准备项 |
是否可选 |
说明 |
操作指导 |
|---|---|---|---|
|
ModelArts算力资源 |
必选 |
推荐使用ModelArts专属资源池中的Snt9b资源。 专属资源池需要提前创建,同时要求专属资源池打通VPC可以访问外网。 |
具体请参考创建ModelArts专属资源池。 |
|
OBS桶 |
必选 |
由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。 |
请参考准备OBS桶。 |
准备OBS桶
由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。具体创建操作请参考创建OBS桶。
|——{OBS桶} # OBS桶名,可自定义名称,例如:veomni
|──{veomni-a2} # OBS文件夹,可自定义名称,例如:veomni-a2
|──{models} # OBS文件夹,存放各类模型,可自定义名称,例如:models
|──{Qwen3-8B} # OBS文件夹,用于存放模型,可自定义名称,例如:Qwen3-8B
|──{Qwen3-30B-A3B} # OBS文件夹,用于存放模型,可自定义名称,例如:Qwen3-30B-A3B
|──{Qwen3-32B} # OBS文件夹,用于存放模型,可自定义名称,例如:Qwen3-32B
|──{Qwen3-VL-8B} # OBS文件夹,用于存放模型,可自定义名称,例如:Qwen3-VL-8B
|──{input} # OBS文件夹,存放训练脚本,可自定义名称,例如:input
|──train.sh # OBS文件夹,存放训练脚本
|──train_moe.sh # OBS文件夹,存放训练脚本
|──train_vl.sh # OBS文件夹,存放训练脚本
|──{dataset}/ # OBS文件夹,用于存放各类数据集,可自定义名称,例如:dataset
|──{tulu-first2000.parquet}/ # OBS文件夹,存放训练数据集tulu-first2000.parquet
|──{sharegpt4v_instruct_gpt4-vision_cap100k_coco.json}/ # OBS文件夹,用于存放训练数据集sharegpt4v_instruct_gpt4-vision_cap100k_coco.json
|──coco # OBS文件夹,用于存放 COCO2017 数据集
|──train2017
|──{output} # OBS文件夹,用于存放最终训练输出 ,可自定义名称
用户可通过OBS Browser+、obsutil等工具访问和管理OBS桶,上传下载文件和数据。