更新时间:2025-09-12 GMT+08:00
分享

在ModelArts Studio(MaaS)体验图像理解

当您需要快速理解图像内容时(如分析产品设计图、解读活动现场照片等),人工处理不仅耗时耗力,还存在细节遗漏和专业门槛等问题。MaaS提供图像理解功能,帮助您高效解决图像相关问题。

计费说明

按Token后付费:统计模型进行实时推理服务时消耗的Token数量,按量后付费,详情请参见ModelArts Studio(MaaS)图像理解模型计费

约束限制

一次只能发送一张图片,且必须携带文字。图片大小不能超过1MB,图片格式为jpg、jpeg、png或webp。

前提条件

体验图像理解

  1. 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
  2. 任选以下方式进行体验图像理解。
    • 方式一
      1. 在左侧导航栏中,选择模型体验 > 图像理解
      2. “图像理解”页面,单击“请选择模型服务”,在“预置服务”“我的服务”页签,选择要体验的模型服务,单击“确定”
        • “预置服务”页签:按需单击“商用服务”“自定义接入点”页签,选择目标服务进行体验。商用服务支持按需选择版本。
        • “我的服务”页签:单击已部署的模型服务进行体验。
    • 方式二
      1. 在左侧导航栏中,选择模型推理 > 在线推理
      2. “在线推理”页面,任选以下方式进入“图像理解”页面。
        • “预置服务”页签,按需单击“商用服务”“自定义接入点”页签,单击图像理解模型服务操作列的“在线体验”,进入“图像理解”页面。商用服务支持按需选择版本。
        • “我的服务”页签,单击图像理解模型服务操作列的“更多 > 在线体验”,进入“图像理解”页面。
  3. (可选)在“图像理解”页面右上角,单击“参数设置”,按需拖动或直接输入数值配置推理参数。单击“恢复默认”可以将参数值调回默认值。
    图1 设置推理参数
    表1 参数设置

    参数

    说明

    温度/Temperature

    设置推理温度,用于控制生成文本的随机性和创造性,Temperature数值越大随机性越大。

    • 数值较低,输出结果更加集中和确定。
    • 数值较高,输出结果更加随机,更有创意性。

    取值范围:0~2

    默认值:不同模型的默认值不同,请以实际环境为准。

    核采样/top_p

    设置推理核采样,用于调整输出文本的多样性。top_p数值越大,生成文本的多样性就越高。

    • 数值较低,输出可选的tokens类型越少,更有确定性。
    • 数值较高,输出可选的tokens类型越多,更有多样性。

    取值范围:0.1~1

    默认值:不同模型的默认值不同,请以实际环境为准。

    详细解释:top_p可以设置tokens候选列表的大小,将可能性之和刚好超过设定值P的top tokens列入候选名单,然后从候选名单中随机采样,生成一个token。

    top_k

    用于控制输出tokens的多样性。top_k值越大输出的tokens类型越丰富。选择在模型的输出结果中选择概率最高的前K个结果。

    • 数值较低,输出可选的tokens类型越少,更有确定性。
    • 数值较高,输出可选的tokens类型越多,更有多样性。

    取值范围:1~1000

    默认值:20

    详细解释:top_k可以设置保留概率最高的前K个tokens,从中随机抽取一个token作为最终输出。这种方法可以限制输出序列的长度,并仍然保持样本的一定多样性。

  4. “图像理解”页面下方,单击图标,上传图片(新上传图片将替换原有图片),输入问题,然后单击图标发送。
    图2 图像理解示例

    您可以单击对话框中的图标,复制回答,也可以单击图标重新生成回答。如果您需要开启新的对话,可以在页面右上角单击“开启新对话”

相关文档