准备数据
在使用多语种文本分类工作流开发应用之前,您需要提前准备用于模型训练的数据,上传至OBS服务中。
设计分类标签
首先需要确定好文本分类的标签,即希望识别出文本的一种结果。例如分类用户对商品的评论,则可以以“positive”、“neutral”、“negative”等作为用户对某商品评论的分类标签,可以设计为“positive”和“negative”两类标签,也可以设计为“positive”、“neutral”、“negative”等多类标签。
数据集要求
- 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
- txt文件编码保存为“UTF-8”格式:
- 打开txt文件。
- 单击左上角的“文件”,选择“另存为”。
- “编码”选择“UTF-8”格式。
- csv文件编码保存为“UTF-8”格式:
- 右键单击csv文件,“打开方式”选择“记事本”。
- 单击左上角的“文件”,选择“另存为”。
- “编码”选择“UTF-8”格式。
- txt文件编码保存为“UTF-8”格式:
- 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
- 文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
- 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。
- 针对未标注数据,将待标注的内容放在一个文本文件内。
- 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
It feels very good, and the reaction speed is very fast. positive I bought one three months ago and used it very well and decisively replaced the old phone. positive How can the power become hot even if the battery is not charged for a while? negative The headphones are great. Some subwoofers feel very tight in the ears and won’t fall off. positive
上传数据至OBS
使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。
- 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。
- 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。
- 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。
- 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。
- 建议根据业务情况及使用习惯,选择OBS使用方法。
- 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。
- 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。
- 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。
上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。