文本分类综述_创建标注任务-华为云

创建标注任务

标注任务的名称。 task_type 是 Integer 标注任务的类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组 200：声音分类 201：语音内容 202：语音分割 400：表格数据集 600：视频标注 900：自由格式

来自：帮助中心

查看更多 →
企业级AI应用开发专业套件 ModelArts Pro

自然语言处理套件 OBS 2.0支持通用文本分类工作流自然语言处理套件提供文本分类项目的通用工作流，仅适用于中文文本的分类场景，支持单标签分类和多标签分类。已发布北京四区域通用文本分类工作流 OBS 2.0支持多语种文本分类工作流自然语言处理套件提供多语种文本分类项目的通用工作流，支持包

来自：帮助中心

查看更多 →
团队标注使用流程

ts提供了团队标注功能，可以由多人组成一个标注团队，针对同一个数据集进行标注管理。团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。针对启用团队标注功能的数据标注任务，支持创建团队标注任务，将标注任务指派给

来自：帮助中心

查看更多 →
自动学习的每个项目对数据有哪些要求？

标注质量对于最终的模型精度有极大的影响，标注过程中尽量不要出现误标情况。文本分类对数据集的要求文件格式要求为txt或者csv，文件大小不能超过8MB。以换行符作为分隔符，每行数据代表一个标注对象。文本分类目前只支持中文。父主题：准备数据

来自：帮助中心

查看更多 →
数据集版本不合格

不满足要求，不在此环节出现故障信息。声音分类：用于训练的音频，至少有2种以上的分类（即2种以上的标签），每种分类的音频数不少于5个。文本分类：用于训练的文本，至少有2种以上的分类（即2种以上的标签），每种分类的文本数不少于20个。父主题：准备数据

来自：帮助中心

查看更多 →
应用场景

应用场景本节介绍ModelArts服务的主要应用场景。大模型支持三方开源大模型，实现智能回答、聊天机器人、自动摘要、机器翻译、文本分类等任务。 AIGC 提供AIGC场景化解决方案，辅助创作文案、图像、音视频等数字内容。自动驾驶实现车辆自主感知环境、规划路径和控制行驶。

来自：帮助中心

查看更多 →
发布数据集

头的命令时，为了安全考虑，ModelArts会自动加上Tab键，并对双引号进行转义处理。 “数据切分” 仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。默认不启用。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区

来自：帮助中心

查看更多 →
功能介绍

献摘要生成、搜索结果片段生成、商品评论摘要等场景中。语言理解（Language Understanding，简称LU），为用户提供包括文本分类、情感分析等语言理解相关的API，可用于情感分析、内容检测、广告识别等场景中。机器翻译（Machine Translation，简称M

来自：帮助中心

查看更多 →
创建数据集版本

label_task_type 否 Integer 版本数据对应的标注类型。可选值如下： 0：图像分类 1：物体检测 3：图像分割 100：文本分类 101：命名实体 102：文本三元组 200：声音分类 201：语音内容 202：语音分割 400：表格数据集 600：视频标注 900：自由格式

来自：帮助中心

查看更多 →
查看技能详情

的应用设置成新的版本，详情请见更新应用版本。图2 开发新版本查看应用资产在“应用资产”页签下，可以查看当前应用的资产信息，比如通用文本分类工作流中的资产信息就是训练数据集，您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“标签总数”、“创建时间”和“操作”，其

来自：帮助中心

查看更多 →
上传数据集失败如何处理？

上的数据。多语种文本分类工作流仅支持对单语种的文本分类，当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。针对未标注数据，将待标注的内容放在一个文本文件内。针对已标注数据，文本分类的标注对象和标签在一

来自：帮助中心

查看更多 →
查看应用详情

、“F1值”、“更新时间”和可执行的“操作”。图1 历史版本查看应用资产在“应用资产”页签下，可以查看当前应用的资产信息，比如通用文本分类工作流中的资产信息就是训练数据集，您可以查看“数据集名称”、“描述”、“数据量”、“标注进度”、“标签总数”、“创建时间”和“操作”，其

来自：帮助中心

查看更多 →
按标签名称删除标签及仅包含此标签的文件

false：不删除样本源文件（默认值） label_type 否 Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注

来自：帮助中心

查看更多 →
创建导入任务

导入的OBS路径或manifest路径。导入manifest时，path必须精确到具体manifest文件。导入为目录时，目前仅支持数据集类型为图片分类、物体检测、文本分类、声音分类。 import_samples 否 Boolean 是否导入样本。可选值如下： true：导入样本（默认值） false：不导入样本

来自：帮助中心

查看更多 →
查询数据集列表

dataset_type 否 Integer 根据数据集类型查询数据集列表，默认为空。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组 200：声音分类 201：语音内容 202：语音分割 400：表格数据集 600：视频标注 900：自由格式

来自：帮助中心

查看更多 →
创建数据集

数据集名称。 dataset_type 否 Integer 数据集类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组 200：声音分类 201：语音内容 202：语音分割 400：表格数据集 600：视频标注 900：自由格式

来自：帮助中心

查看更多 →
更新应用版本

型效果。每修改一次，更新成一个版本，不同的作业版本之间，能快速进行对比，获得对比结果。前提条件已在自然语言处理套件控制台选择“通用文本分类工作流”新建应用，详情请见新建应用。更新应用版本登录 ModelArts Pro 管理控制台，单击“自然语言处理”套件卡片的“进入套件”。

来自：帮助中心

查看更多 →
管理数据集版本

在于对应的OBS目录下。但是，执行删除操作后，无法在ModelArts Po管理控制台清晰的管理数据集版本，请谨慎操作。父主题：通用文本分类工作流

来自：帮助中心

查看更多 →
按标签名称更新单个标签

是否必选参数类型描述 label_type 否 Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注

来自：帮助中心

查看更多 →
自动学习训练作业失败

作业运行失败，排查方式如下：首次出现请检查您的账户是否欠费。如果账号状态正常。请针对不同类型的作业进行排查。针对图像分类、声音分类、文本分类的作业，排查思路请参见确保OBS中的数据存在、检查OBS的访问权限、检查图片是否符合要求。针对物体检测作业，排查思路请参见确保OBS中

来自：帮助中心

查看更多 →
自然语言处理服务支持哪几种语言？

文本摘要（领域版）中文（zh）诗歌生成中文（zh）语言理解接口情感分析（基础版）中文（zh）、英文（en）情感分析（领域版）中文（zh）文本分类中文（zh）属性级情感分析中文（zh）属性级情感分析（高级版）中文（zh）实体级情感分析中文（zh）意图理解中文（zh）

来自：帮助中心

查看更多 →