更新时间:2025-07-04 GMT+08:00

内容审核

内容审核连接器用于对接华为云内容审核云服务。

内容审核(Content Moderation),基于图像、文本、视频审核技术,可自动进行涉黄、广告、涉暴等内容检测,帮助客户降低业务违规风险。

创建内容审核连接

  1. 登录新版ROMA Connect控制台。
  2. 在左侧导航栏选择“连接器”,在连接器页面单击“新建连接”。
  3. 选择“内容审核“连接器。
  4. 在弹窗中配置连接信息,完成后单击“确定“。

    参数

    说明

    连接名称

    填写连接器实例名称。

    访问密钥ID

    当前账号的AK(Access Key ID)。请参考访问密钥获取AK,如果已生成过AK/SK,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。

    秘密访问密钥

    当前账号的SK(Secret Access Key)。请参考访问密钥获取SK,如果已生成过AK/SK,找到原来已下载的AK/SK文件,文件名一般为credentials.csv。

    描述

    填写连接器的描述信息,用于识别不同的连接器。

支持的动作

  • 语音内容审核
  • 任务提交
  • 任务列表查询
  • 处理结果查询
  • 图像内容审核
  • 文本内容审核

配置参数

表1 语音内容审核

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

data

与url参数二选一。

语音文件Base64编码字符串。要求base64编码后大小不超过4M。语音时长不超过1分钟。

url

与data参数二选一。

语音的URL路径,目前支持对服务授权访问华为云上OBS的URL,华为云上OBS提供的临时授权访问的URL和匿名公开授权的URL。 OBS服务的访问权限设置请参见配置OBS访问权限。 出于安全的考虑,当前服务不支持从公网上任意URL读取数据。

config

语音文件配置信息。

format

支持的语音格式。

  • pcm16k16bit
  • pcm8k16bit
  • ulaw16k8bit
  • ulaw8k8bit
  • alaw16k8bit
  • alaw8k8bit
  • mp3
  • aac
  • wav
  • amr
  • amrwb

property

所使用的模型特征串。通常是 “语种_采样率_领域”的形式。 采样率需要与音频采样率保持一致。

当前支持如下模型特征串: chinese_8k_common chinese_16k_common。

categories

审核场景。 当前支持的场景有默认场景和用户自定义场景:

  • 默认场景为:politics:涉政;porn:涉黄;ad:广告 ;abuse:辱骂;contraband:违禁品 。
  • 用户自定义场景为:自定义词库。
表2 任务提交

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

urls

图片的URL路径,目前支持:

  • 公网HTTP/HTTPS URL
  • 华为云OBS提供的URL,使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权。详请参见配置OBS访问权限

图片的URL路径列表最多支持500个URL地址。接口响应时间依赖图片的下载时间,如果图片下载时间过长,会返回接口调用失败。请保证被检测图片所在的存储服务稳定可靠,建议您使用华为云OBS存储。

categories

检测场景。

  • politics:是否涉及政治人物的检测。
  • terrorism:是否包含涉政敏感人物、涉政暴恐元素的检测。
  • porn:是否包含涉黄内容元素的检测。

可通过配置上述场景,来完成对应场景元素的检测。

为空或无此参数时默认检测politics和terrorism(不包含porn)。

moderation_rule

图像审核规则名称,默认使用default规则。

ad_categories

图文审核检测场景。当categories包含ad时,该参数生效。

当前支持的场景有系统场景和用户自定义场景:

  • 系统场景为:
    • qr_code:二维码
    • politics:涉政
    • porn:涉黄
    • ad:广告
    • abuse:辱骂
    • contraband:违禁品
  • 用户自定义场景为:自定义黑名单词库。

show_ocr_text

是否返回ocr识别的结果。

  • true :返回ocr识别的结果。
  • false:不返回ocr识别的结果。
表3 任务查询列表

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

status

图像内容审核任务处理状态如下:

  • created 已创建
  • running 正在处理
  • finish 已完成
  • failed 处理失败

offset

偏移量, 默认为0。

limit

指定每一页返回的最大条目数,默认为符合查询条件的总任务数量。

表4 处理结果查询

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

job_id

任务标识。

表5 图像内容审核

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

urls

与image参数二选一。

图片的URL路径,目前支持:

  • 公网HTTP/HTTPS URL
  • 华为云OBS提供的URL,使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权。详请参见配置OBS访问权限

接口响应时间依赖图片的下载时间,如果图片下载时间过长,会返回接口调用失败。请保证被检测图片所在的存储服务稳定可靠,建议您使用华为云OBS存储。

image

与url参数二选一。

图片文件Base64编码字符串。要求base64编码后大小不超过10M。

政治人物检测人脸部分不小于50*50像素。

支持JPEG/PNG/BMP/WEBP/GIF格式。

moderation_rule

图像审核规则名称,默认使用default规则。

categories

检测场景:

  • politics:是否涉及政治人物的检测。
  • terrorism:是否包含涉政暴恐元素的检测。
  • porn:是否包含涉黄内容元素的检测。
  • ad:是否包含广告的检测(公测特性)。
  • all:包含politics、terrorism和porn三种场景的检测。

可通过配置上述场景,来完对应场景元素的检测。

为空或无此参数表示politics和terrorism都检测,但不包含porn场景。

每个检测场景的检测次数会分类统计。

ad_categories

图文审核检测场景。当categories包含ad时,该参数生效。

当前支持的场景有系统场景和用户自定义场景:

  • 系统场景为:
    • qr_code:二维码
    • politics:涉政
    • porn:涉黄
    • ad:广告
    • abuse:辱骂
    • contraband:违禁品
  • 用户自定义场景为:自定义黑名单词库。

threshold

  • 结果过滤门限,只有置信度不低于此门限的结果才会呈现在detail的列表中,取值范围 0-1,当未设置此值时各个检测场景会使用各自的默认值。
  • politics检测场景的默认值为0.95。
  • terrorism检测场景的默认值为0。
  • ad检测场景的默认值为0。
  • 无特殊需求直接不传此参数或像示例中一样值设为空字符串即可。
  • 如果检测场景中的最高置信度也未达到threshold,则结果列表为空;反之threshold过小,则会使结果列表中内容过多。
  • threshold参数不支持porn场景筛选。
  • threshold参数不会影响响应中的suggestion。

show_ocr_text

是否返回ocr识别的结果,默认为false。

  • true :返回ocr识别的结果。
  • false:不返回ocr识别的结果。
表6 文本内容审核

参数

说明

project_id

项目ID,用于资源隔离。

region_id

区域ID。

categories

检测场景。

当前支持的场景有默认场景和用户自定义场景:

  • 默认场景为:
    • politics:涉政
    • porn:涉黄
    • ad:广告
    • abuse:辱骂
    • contraband:违禁品
    • flood:灌水
  • 用户自定义场景为:自定义黑名单词库。flood场景不支持使用自定义白名单词库。

white_glossaries

启用的白名单列表。当前白名单使用规则为:

  • 不传参数white_glossaries:表示默认使用2022-09-02 16:00:00之前创建的白名单词库
  • 传参数white_glossaries:
    • 参数为空时不使用任何白名单词库。
    • 参数不为空时使用传入的白名单词库。

items

待检测的文本列表,目前暂时每次只支持传一个item。

text

待检测文本,编码格式为“utf-8”,限定5000个字符以内,文本长度超过5000个字符时,只检测前5000个字符。

type

文本类型,默认为“content”,即正文内容,当前只支持“content”类型,未来会扩大支持类型范围。