测试在线服务
访问同步在线服务地址
在ModelArts管理控制台左侧导航栏中选择“模型推理 > 在线推理”,默认进入“在线推理”列表,单击目标服务的操作列的“服务调用”,查看调用信息。
也可单击目标服务名称,进入服务详情页,在“网络配置”获取调用信息。
| 类型 | URL格式 | URL示例 |
|---|---|---|
| 公网调用URL | https://{公网调用地址}/v2/infer/{服务ID} | https://100.XX.XXX.XXX/v2/infer/testxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx |
使用预测功能测试在线服务
服务部署成功后,可以进入服务详情页面的预测页面,做简单的业务功能验证。服务预测页面提供简易的rest客户端功能,用户可以选择自己服务指定的请求方法,填写自己的预测路径。
在Body栏中,选择对应的数据格式raw | binary | stream | fromData
- raw:用于发送原始文本数据,如 JSON、XML 或纯文本。
- binary:用于上传二进制文件,如图片、音频、视频或模型文件。
- stream:支持分块流式传输,适用于实时或连续输入数据的场景。
- fromData:以表单形式(multipart/form-data)提交数据,支持同时上传文件和填写其他文本字段。
在Headers中可以填写Header信息,比如api-key鉴权信息,将{API Key}替换为自己的API Key等。单击“预测”发送对应的预测请求。
如果删除Authorization 键值对,系统将自动切换为 IAM Token 认证。
预测页面的Body和请求头填写可参考ModelArts在线服务处于运行中时,如何填写request header和request body。
使用示例:
以Ascend-vLLM框架一键部署Qwen3-32B模型为例,测试其对话接口,参数如下:
- 请求方式:POST
- 请求路径:https://***/v2/infer/***/v1/chat/completions
- 请求体:
{
"model": "qwen3_32b",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你好"}
]
}
使用CloudShell调试在线服务实例容器
允许用户使用ModelArts控制台提供的CloudShell登录运行中在线服务实例容器。
只支持专属资源池部署的在线服务使用CloudShell访问容器。
- 登录ModelArts控制台,左侧菜单选择“模型推理 > 在线推理”。
- 在线服务列表页面单击“名称/ID”,进入在线服务详情页面。
- 单击CloudShell页签,选择部署、实例和Pod节点,当连接状态变为连接成功时,即登录实例容器成功。 部分用户登录Cloud Shell界面时,可能会出现路径显示异常情况,此时在Cloud Shell中单击回车键即可恢复正常。图4 路径异常
- 登录实例容器成功后,在容器的终端环境执行所需的调试命令。例如:
以下仅为示例,实际日志路径和服务状态检查方法和服务配置有关,以镜像和容器启动命令为准。
查看日志:
tail -f /var/log/app.log
检查服务状态:
systemctl status app
执行自定义脚本:
./debug_script.sh
- 完成调试后,使用以下命令退出容器:
exit
返回CloudShell终端后,您可以查看调试结果或日志文件。
实时比对
部署后的服务支持和其他服务进行推理效果的实时对比。仅支持服务类型为文本生成的在线服务进行实时对比。在线服务状态为运行中、告警、升级中才能进行实时对比。
- 在ModelArts管理控制台“模型推理 > 在线推理”的服务列表页,单击右侧操作列的“实时比对”,进入“实时比对”页面。
- 图5 实时比对
- 此时可以在实时比对页面体验问答服务效果。
输入问题,查看模型的回答效果。
实时比对的更多功能介绍请参见文档《实时比对》。

