运营运维介绍
在AI应用的开发与部署过程中,由于请求调用链错综复杂,系统行为的追踪和分析面临巨大挑战。运维运营功能通过追踪并记录组件之间的调用顺序,提供清晰的调用路径和时间戳,帮助开发者快速定位问题,还能优化性能。从而显著提升系统的可维护性和运行效率。
基础概念
Versatile的运维功能为开发者提供了完整的链路请求调用记录的可视化展示,具体包括以下部分:
- Trace:是对一次完整请求的详细记录,它完整地呈现了从请求发起到最终返回输出的全生命周期。
- Span:在Trace中,每一个独立的操作步骤称为一个Span,比如一次模型调用或一个函数调用。Trace中的第一个Span被称为Root Span,它记录着整个请求的开始和结束。而Root Span下的子Span,则用于记录请求执行过程中更具体、更细粒度的操作信息,帮助了解整个流程的详细上下文。
下图是一次请求的完整数据记录,从请求输入到最终返回结果,Trace会记录每一个环节的处理信息。

应用场景
模型调用链路优化
- 示例问题:调型调用链路中存在多个耗时环节,导致整体响应时间过长。
- 解决思路:分析调用链路,发现耗时环节。优化API调用逻辑,减少不必要的请求。或增加API缓存机制,减少重复请求。
- 处理结果:模型调用链路响应时间缩短,用户体验提升。
模型输出质量观察
通过Trace追踪计算过程,定位到模型生成的参数与应用预期不符的问题,优化模型后成功解决问题,同时确保了数据处理的安全性和合规性。
- 示例问题:通过旅游智能助手查询南京的博物馆信息,模型调用博物馆推荐工具,但助手返回“未找到该类型景点”。
- 解决思路:通过观测模型节点处理的详细信息,发现模型生成的attraction_type参数为“博物馆”,而博物馆推荐应用预期的入参是“文化机构”,导致应用查询返回异常。
- 处理结果:优化模型Prompt,调整参数名称为“文化机构”,应用调用成功,返回正确博物馆推荐信息。