测试在线服务

访问同步在线服务地址

在ModelArts管理控制台左侧导航栏中选择“模型推理 > 在线推理”，默认进入“在线推理”列表，单击目标服务的操作列的“服务调用”，查看调用信息。

也可单击目标服务名称，进入服务详情页，在“网络配置”获取调用信息。

表1 同步在线服务调用信息
类型	URL格式	URL示例
公网调用URL	https://{公网调用地址}/v2/infer/{服务ID}	https://100.XX.XXX.XXX/v2/infer/testxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

使用预测功能测试在线服务

服务部署成功后，可以进入服务详情页面的预测页面，做简单的业务功能验证。服务预测页面提供简易的rest客户端功能，用户可以选择自己服务指定的请求方法，填写自己的预测路径。

在Body栏中，选择对应的数据格式raw | binary | stream | fromData

raw：用于发送原始文本数据，如 JSON、XML 或纯文本。
binary：用于上传二进制文件，如图片、音频、视频或模型文件。
stream：支持分块流式传输，适用于实时或连续输入数据的场景。
fromData：以表单形式（multipart/form-data）提交数据，支持同时上传文件和填写其他文本字段。

在Headers中可以填写Header信息，比如api-key鉴权信息，将{API Key}替换为自己的API Key等。单击“预测”发送对应的预测请求。

如果删除Authorization键值对，系统将自动切换为IAM Token认证。

预测页面的Body和请求头填写可参考ModelArts在线服务处于运行中时，如何填写request header和request body。

使用示例：

以Ascend-vLLM框架一键部署Qwen3-32B模型为例，测试其对话接口，参数如下：

请求方式：POST
请求路径：https://***/v2/infer/***/v1/chat/completions
请求体：

{
    "model": "qwen3_32b",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好"}
    ]
}

图1 预测在线服务示例

图2 Headers填写示例

使用CloudShell调试在线服务实例容器

允许用户使用ModelArts控制台提供的CloudShell登录运行中在线服务实例容器。

只支持专属资源池部署的在线服务使用CloudShell访问容器。

登录ModelArts控制台，左侧菜单选择“模型推理 > 在线推理”。
在线服务列表页面单击“名称/ID”，进入在线服务详情页面。
单击CloudShell页签，选择部署、实例和Pod节点，当连接状态变为连接成功时，即登录实例容器成功。
如果遇到异常情况服务器主动断开或超过10分钟未操作自动断开，此时可单击“重新连接”重新登录实例容器。
图3 CloudShell界面

部分用户登录Cloud Shell界面时，可能会出现路径显示异常情况，此时在Cloud Shell中单击回车键即可恢复正常。
图4 路径异常
登录实例容器成功后，在容器的终端环境执行所需的调试命令。例如：

以下仅为示例，实际日志路径和服务状态检查方法和服务配置有关，以镜像和容器启动命令为准。

查看日志：
```
tail -f /var/log/app.log
```
检查服务状态：
```
systemctl status app
```
执行自定义脚本：
```
./debug_script.sh
```
完成调试后，使用以下命令退出容器：
```
exit
```
返回CloudShell终端后，您可以查看调试结果或日志文件。

实时比对

部署后的服务支持和其他服务进行推理效果的实时对比。仅支持服务类型为文本生成的在线服务进行实时对比。在线服务状态为运行中、告警、升级中才能进行实时对比。

在ModelArts管理控制台“模型推理 > 在线推理”的服务列表页，单击右侧操作列的“实时比对”，进入“实时比对”页面。
图5 实时比对
此时可以在实时比对页面体验问答服务效果。
如果需要比对多个模型效果，在实时比对页面的右上角单击“服务对比”，勾选要对比的服务，单击“确定”。当前仅支持文本生成类服务对比。需要先部署服务才能选择。
图6 实时比对

输入问题，查看模型的回答效果。