全部文档
AI开发平台ModelArtsAI开发平台ModelArts
- 最新动态
- 功能总览
- 产品介绍
- 准备工作
- 快速入门
- 自动学习
- 开发工具
- 数据准备与分析
- 数据处理
- 数据标注
- 模型开发
- 模型封装
- 推理部署
- AI Gallery
- 最佳实践
-
AI工程师用户指南
- AI工程师如何使用ModelArts
- 免费体验ModelArts
- 数据管理(New)
- 数据管理(旧版即将下线)
- 开发环境(New)
- 开发环境(旧版即将下线)
- 训练管理(New)
- 训练管理(旧版即将下线)
- AI应用管理(即将下线)
- 部署服务(即将下线)
- 资源池
- 使用自定义镜像
- 模型包规范(即将下线)
- 模型模板(即将下线)
- 自定义脚本代码示例
- 权限管理
- 监控
- 审计日志
- 建议反馈
- 将MLS业务迁移至ModelArts
- 修订记录
- 工具指南
- MoXing开发指南
- SDK参考
- API参考
-
常见问题
-
一般性问题
- 什么是ModelArts
- ModelArts与其他服务的关系
- ModelArts与DLS服务的区别?
- ModelArts与MLS服务的区别?
- 如何购买或开通ModelArts?
- 支持哪些型号的Ascend芯片?
- 如何获取访问密钥?
- 如何上传数据至OBS?
- 提示“上传的AK/SK不可用”,如何解决?
- 使用ModelArts时提示“权限不足”,如何解决?
- 如何用ModelArts训练基于结构化数据的模型?
- 什么是区域、可用区?
- 如何查看ModelArts与OBS桶是否在同一区域?
- 在ModelArts中如何查看OBS目录下的所有文件?
- ModelArts数据集保存到容器的哪里?
- ModelArts支持哪些AI框架?
- ModelArts训练和推理分别对应哪些功能?
- MindSpore相关问题如何解决?
- 如何查看帐号ID和IAM用户ID
- ModelArts AI识别可以单独针对一个标签识别吗?
- 计费相关
- 自动学习
- 数据管理
- Notebook
- 训练作业
- 模型管理
- 部署上线
- 资源池
- AI Gallery
- API/SDK
- 修订记录
-
一般性问题
-
故障排除
- 自动学习
- 开发环境
-
训练作业
-
OBS操作相关故障
- 读取文件报错,如何正确读取文件?
- TensorFlow-1.8作业连接OBS时反复出现提示错误
- TensorFlow在OBS写入TensorBoard到达5GB时停止
- 保存模型时出现Unable to connect to endpoint错误
- 训练作业日志中提示“No such file or directory”,如何解决?
- OBS拷贝过程中提示“BrokenPipeError: Broken pipe”
- 日志提示“ValueError: Invalid endpoint: obs.xxxx.com”
- 日志提示“errorMessage:The specified bucket does not exist”
-
云上迁移适配故障
- 无法导入模块
- 训练作业日志中提示“No module named .*”
- 如何安装第三方包,安装报错的处理方法
- 下载代码目录失败
- 训练作业日志中提示“No such file or directory”
- 训练过程中无法找到so文件
- 无法解析参数,日志报错
- 训练输出路径被其他作业使用
- 使用自定义镜像创建训练作业,找不到启动文件
- Pytorch1.0引擎提示“RuntimeError: std::exception”
- MindSpore日志提示“ retCode=0x91, [the model stream execute failed]”
- 使用moxing适配OBS路径,pandas读取文件报错
- 日志提示“Please upgrade numpy to >= xxx to use this pandas version”
- 重装的包与镜像装CUDA版本不匹配
- 创建训练作业提示错误码ModelArts.2763
- 内存限制故障
- 外网访问限制
- 权限问题
- GPU相关问题
-
业务代码问题
- 日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields”
- 日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”
- 训练作业失败,返回错误码139
- 训练作业失败,如何使用云上环境调试训练代码?
- 日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key”
- 日志报错“DataFrame.dtypes for data must be int, float or bool”
- 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ”
- 日志提示“Out of bounds nanosecond timestamp”
- 日志提示“Unexpected keyword argument passed to optimizer”
- 日志提示“no socket interface found”
- 分布式Tensorflow无法使用“tf.variable”
- MXNet创建kvstore时程序被阻塞,无报错
- 日志出现ECC错误,导致训练作业失败
- 超过最大递归深度导致训练作业失败
- 使用预置算法训练时,训练失败,报“bndbox”错误
- 训练作业状态显示“审核作业初始化”
- 训练作业进程异常退出
- 训练作业进程被kill
-
OBS操作相关故障
- 模型管理
- MoXing
- 修订记录
- 视频帮助
- 文档下载
更新时间:2022-04-12 GMT+08:00
链接复制成功!
训练模型时引用依赖包,如何创建训练作业?
在训练代码目录下放置 pip-requirements.txt 文件。
pip-requirements.txt文件命名支持以下4种格式,文档中以pip-requirements为例说明。
- pip-requirement.txt
- pip-requirements.txt
- requirement.txt
- requirements.txt
在训练启动文件被执行前,系统会执行如下命令,以安装用户指定的 Python Packages。
pip install -r pip-requirements.txt
- 代码目录位置请参考在代码目录下提供安装文件。
- pip-requirements文件写法请参考安装文件规范。
安装文件规范
请根据依赖包的类型,在代码目录下放置对应文件:
- 依赖包为开源安装包时
暂时不支持直接从github的源码中安装。
在“代码目录”中创建一个命名为“pip-requirements.txt”的文件,并且在文件中写明依赖包的包名及其版本号,格式为“包名==版本号”。
例如,“代码目录”对应的OBS路径下,包含模型文件,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示:
|---模型启动文件所在OBS文件夹 |---model.py #模型启动文件。 |---pip-requirements.txt #定义的配置文件,用于指定依赖包的包名及版本号。“pip-requirements.txt”文件内容如下所示:
alembic==0.8.6 bleach==1.4.3 click==6.6
- 依赖包为whl包时
如果训练后台不支持下载开源安装包或者使用用户编译的whl包时,由于系统无法自动下载并安装,因此需要在“代码目录”放置此whl包,同时创建一个命名为“pip-requirements.txt”的文件,并且在文件中指定此whl包的包名。依赖包必须为“.whl”格式的文件。
例如,“代码目录”对应的OBS路径下,包含模型文件、whl包,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示:
|---模型启动文件所在OBS文件夹 |---model.py #模型启动文件。 |---XXX.whl #依赖包。依赖多个时,此处放置多个。 |---pip-requirements.txt #定义的配置文件,用于指定依赖包的包名。“pip-requirements.txt”文件内容如下所示:
numpy-1.15.4-cp36-cp36m-manylinux1_x86_64.whl tensorflow-1.8.0-cp36-cp36m-manylinux1_x86_64.whl
父主题: 编写训练代码
编写训练代码 所有常见问题
more

