文档首页> AI开发平台ModelArts> 开发环境> ML Studio> 预置算子说明> 输入输出> 输入> 读CSV文件

更新时间：2024-05-27 GMT+08:00

读CSV文件

概述

读CSV文件支持从LOCAL、OBS、HDFS读取CSV类型的文件数据。

输入

无

输出

表1
参数	子参数	参数说明
output	output_port_1	output为字典类型，output_port_1为pyspark中的DataFrame类型对象，为算子读取的结果。

参数说明

参数名称	是否必选	参数说明	默认值
schema_str	是	非空字符串 schema：配置每一列对应的数据类型，格式为colname0 coltype0[, colname1 coltype1[, ...]]。例如：f0 string,f1 bigint,f2 double。注意：配置的数据类型需要与CSV文件每一列的数据类型保持一致，否则该列内容会读取失败。	无
local_file_path	否	本地文件路径非必须，可通过文件夹选取；仅当file_source为LOCAL时，该路径有效。	无
file_path	否	读取CSV文件的路径当文件来源选择OBS时，支持输入OBS文件路径,此时路径必须以OBS://开头。当文件来源选择OTHERS时，支持输入HDFS文件路径。	无
file_source	否	支持LOCAL、OBS和OTHERS。范围：['LOCAL','OBS','OTHERS']	LOCAL
field_delimiter	否	字段分隔符；如果输入则必须为字符	,
handle_invalid_method	否	处理无效值的方法(无效值表示schema_str中设置的数据类型和csv中的不符)，取值如下： 1.ERROR：抛出异常 2.SKIP：使用csv中的格式替换	ERROR
ignore_first_line	否	是否忽略第一行的数据。如果原表中已有表头，则需要开启此开关，否则会报错。	FALSE
quote_string	否	引号字符，设置用于转义引号值的单个字符。	"
row_delimiter	否	行分隔符。	\n
skip_blank_line	否	是否忽略空行。如果为True，该行数据全空时忽略；否则不忽略。	TRUE

1. schema_str这个参数，相当于增加列名（如果csv没有列名，则增加列名，ignore_first_line需置为False）或重命名列名（如果csv有列名，可以改列名，ignore_first_line需置为True）。

2. 只支持string，bigint，double类型，之后如果是想改变数据类型，需使用新算子做类型转换；其中tinyint、smallint、int均为bigint类型，char、varchar、date等其他类型均为string类型。

3. 该算子默认以"\n"作为行分隔符，如果某一字段内部存在"\n",需要提前处理；例如；将"\n"提前替换为空格，防止读取失败。示例如下：

import pandas as pd
df = pd.read_csv("test.csv",index_col=0)
df = df.replace(to_replace=r'[\n\r]', value=' ', regex=True, inplace=True)
df.to_csv("output.csv")

样例

数据样本

5.1,3.5,1.4,0.2,Iris-setosa
5.0,2.0,3.5,1.0,Iris-versicolor
5.1,3.7,1.5,0.4,Iris-setosa
6.4,2.8,5.6,2.2,Iris-virginica
6.0,2.9,4.5,1.5,Iris-versicolor
4.9,3.0,1.4,0.2,Iris-setosa
5.7,2.6,3.5,1.0,Iris-versicolor
4.6,3.6,1.0,0.2,Iris-setosa
5.9,3.0,4.2,1.5,Iris-versicolor
6.3,2.8,5.1,1.5,Iris-virginica
4.7,3.2,1.3,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
5.5,2.4,3.8,1.1,Iris-versicolor

配置流程

运行流程

算法参数设置

schema_str: sepal_length double, sepal_width double, petal_length double, petal_width double, category string

查看结果

点击放大

父主题： 输入

上一篇：读取文本数据

下一篇：输出

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

读CSV文件

概述

输入

输出

参数说明

样例

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线