图像理解在线体验
在日常工作中,当您需要快速理解图像内容时(如分析产品设计图、解读活动现场照片等),通常会遇到人工处理耗时耗力、细节遗漏和专业门槛等问题。如何高效解决这些问题?MaaS提供图像理解功能,帮助您快速准确地分析图像内容,提高工作效率。
约束限制
- 该功能仅支持“西南-贵阳一”区域。
- 单次对话一次只能发送一张图片,且必须携带文字。图片大小不能超过1MB,图片格式为jpg、jpeg、png或webp。
计费说明
前提条件
- 使用预置服务:在页签,已开通图像理解模型的预置服务。具体操作,请参见在预置服务中开通商用服务。
- 使用我的服务:在页签,服务列表存在运行中、更新中或升级中的图像理解模型服务。具体操作,请参见部署模型服务。
- 使用自定义接入点:在页签,已创建图像理解模型的自定义接入点。具体操作,请参见在预置服务中创建自定义接入点。
体验图像理解
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏中选择目标区域。
- 任选以下方式体验图像理解。
- 方式一
- 在左侧导航栏中,选择。
- 在“图像理解”页面左上角单击“请选择模型服务”,或者在页面中间单击“选择模型”,在“预置服务”、“我的服务”或“自定义接入点”页签,选择要体验的模型服务,单击“确定”。
- “预置服务”页签:选择目标服务版本进行体验。
- “我的服务”页签:单击已部署的模型服务进行体验。
- “自定义接入点”页签:单击使用中的自定义接入点。
- 方式二
- 在左侧导航栏中,选择。
- 在“在线推理”页面,任选以下方式进入“图像理解”页面。
- 在“预置服务”页签,单击图像理解模型服务操作列的“在线体验”,按需选择版本,进入“图像理解”页面。
- 在“我的服务”页签,单击图像理解模型服务操作列的“更多 > 在线体验”,进入“图像理解”页面。
- 在“自定义接入点”页签:单击图像理解模型服务操作列的“在线体验”,进入“图像理解”页面。
- 方式一
- (可选)在“图像理解”页面左上方,单击“模型参数”,按需拖动或直接输入数值配置推理参数,获得更好的模型推理效果。单击“恢复默认”可以将参数值调回默认值。
图1 设置推理参数
表1 参数设置 参数
说明
温度/Temperature
设置推理温度,用于控制生成文本的随机性和创造性,Temperature数值越大随机性越大。
- 数值较低,输出结果更加集中和确定。
- 数值较高,输出结果更加随机,更有创意性。
取值范围:0~2
默认值:不同模型的默认值不同,请以实际环境为准。
核采样/top_p
设置推理核采样,用于调整输出文本的多样性。top_p数值越大,生成文本的多样性就越高。
- 数值较低,输出可选的tokens类型越少,更有确定性。
- 数值较高,输出可选的tokens类型越多,更有多样性。
取值范围:0.1~1
默认值:不同模型的默认值不同,请以实际环境为准。
详细解释:top_p可以设置tokens候选列表的大小,将可能性之和刚好超过设定值P的top tokens列入候选名单,然后从候选名单中随机采样,生成一个token。
top_k
用于控制输出tokens的多样性。top_k值越大输出的tokens类型越丰富。选择在模型的输出结果中选择概率最高的前K个结果。
- 数值较低,输出可选的tokens类型越少,更有确定性。
- 数值较高,输出可选的tokens类型越多,更有多样性。
取值范围:1~1000
默认值:20
详细解释:top_k可以设置保留概率最高的前K个tokens,从中随机抽取一个token作为最终输出。这种方法可以限制输出序列的长度,并仍然保持样本的一定多样性。
- 在“图像理解”页面下方,单击
图标,上传图片(新上传图片将替换原有图片)并输入问题,或者直接使用控制台提供的示例图片,然后单击
图标发送。
图2 图像理解示例
在模型回答过程中,您可以在对话框单击
图标,停止模型回答,停止后该对话不产生计费。当模型回答后,您可以单击模型对话框中的
图标复制回答,也可以单击
图标重新生成回答。图像理解支持多轮对话。如果您需要开启新的对话,可以在页面右上角单击“开启新对话”,在“开启新对话”对话框中单击“确定”。开启新对话将清除全部对话,无法保留对话记录。
相关文档
您可以使用API调用图像理解模型服务。关于参数说明,请参见对话Chat/Post。