更新时间:2023-10-13 GMT+08:00

管理可视化作业

当前,您管理的ModelArts可视化作业支持创建TensorBoard类型和MindInsight两种类型。

TensorBoard和MindInsight能够有效地展示训练作业在运行过程中的变化趋势以及训练中使用到的数据信息。

  • TensorBoard

    TensorBoard是一个可视化工具,能够有效地展示TensorFlow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息。TensorBoard当前只支持基于TensorFlow和MXNet引擎的训练作业。TensorBoard相关概念请参考TensorBoard官网

  • MindInsight

    MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息,同时提供训练看板、模型溯源、数据溯源、性能调试等功能,帮助您在更高效地训练调试模型。MindInsight当前支持基于MindSpore引擎的训练作业。MindInsight相关概念请参考MindSpore官网

您可以使用模型训练时产生的Summary文件来创建可视化作业。

前提条件

为了保证训练结果中输出Summary文件,在编写训练脚本时,您需要在代码中添加Summary相关代码。

  • 使用TensorFlow引擎编写程序时

    使用基于TensorFlow的MoXing时,需要将“mox.run”中设置参数“save_summary_steps>0”,并且超参“summary_verbosity≥1”

    如果您想显示其他指标,可以在“model_fn”的返回值类型“mox.ModelSpec”“log_info”中添加张量(仅支持0阶张量,即标量),添加的张量会被写入到Summary文件中。如果您希望在Summary文件中写入更高阶的张量,只需要在“model_fn”中使用TensorFlow原生的“tf.summary”的方式添加即可。

  • 使用MindSpore引擎编写程序时

    MindSpore支持将数据信息保存到Summary日志文件中,并通过可视化界面进行展示。将数据记录到Summary日志文件中的具体方式请参考收集Summary数据

  • 使用MXNet引擎编写程序时

    需要在代码里添加Summary相关代码,代码内容如下所示:

    batch_end_callbacks.append(mx.contrib.tensorboard.LogMetricsCallback('OBS路径'))

注意事项

  • 运行中的可视化作业会一直按需计费,当您不需要使用时,建议停止可视化作业,避免产生不必要的费用。可视化作业支持自动停止功能,即在指定时间后停止可视化作业,为避免产生不必要的费用,推荐启用此功能。
  • 默认使用CPU资源运行可视化作业,且不支持修改为其他资源池。
  • 确保您使用的OBS目录与ModelArts在同一区域。

创建可视化作业

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“训练作业”,然后单击“可视化作业”页签。
  2. 在可视化作业列表中,单击左上方“创建”,进入“创建可视化作业”界面。
  3. 其中,“计费模式”设置为“按需计费”“作业类型”“TensorBoard”“MindInsight”两种类型。请根据实际情况填写可视化作业“名称”“描述”,设置“训练输出位置”“自动停止”参数。
    • “训练输出位置”:选择创建训练作业时的“训练输出位置”
    • “自动停止”:设置是否开启自动停止功能。由于运行中的可视化作业会一直计费,为避免产生不必要的费用,您可以开启自动停止功能,在指定时间后自动停止可视化作业。目前支持设置为“1小时后”“2小时后”“4小时后”“6小时后”“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。
    图1 创建可视化作业
  4. 参数填写完成后,单击“下一步”进行规格确认。
  5. 规格确认无误后,单击“立即创建”,完成可视化作业的创建。

    在可视化作业列表中,当状态变为“运行中”时,表示可视化作业已创建完成。您可以单击可视化作业名称进入查看详情。

打开可视化作业

在可视化作业列表中,单击可视化作业名称,即可打开可视化显示界面。只有“运行中”状态的可视化作业支持打开。

图2 TensorBoard界面
图3 MindInsight界面

运行或停止可视化作业

  • 停止可视化作业:由于“运行中”的可视化作业将一直按需计费,在不需要使用时,您可以停止可视化作业停止计费。在可视化作业列表中,单击“操作”列的“停止”,即可停止可视化作业。
  • 运行可视化作业:对于“已取消”状态的可视化作业,您可以重新运行并使用可视化作业。在可视化作业列表中,单击“操作”列的“运行”,即可运行可视化作业。

删除可视化作业

如果您的可视化作业不再使用,您可以删除可视化作业释放资源。在可视化作业列表中,单击“操作”列的“删除”,即可删除可视化作业。

可视化作业删除后不可恢复,需重新创建可视化作业。请谨慎操作。