文档首页/
MapReduce服务 MRS/
开发指南(LTS版)/
Spark2x开发指南(安全模式)/
开发Spark应用/
Spark Core样例程序/
Spark Core样例程序(Scala)
更新时间:2024-06-27 GMT+08:00
Spark Core样例程序(Scala)
功能简介
统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。
代码样例
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection:
val spark = SparkSession .builder() .appName("CollectFemaleInfo") .config("spark.some.config.option", "some-value") .getOrCreate() //读取数据。其是传入参数args(0)指定数据路径 val text = spark.sparkContext.textFile(args(0)) //筛选女性网民上网时间数据信息 val data = text.filter(_.contains("female")) //汇总每个女性上网时间 val femaleData:RDD[(String,Int)] = data.map{line => val t= line.split(',') (t(0),t(2).toInt) }.reduceByKey(_ + _) //筛选出时间大于两个小时的女性网民信息,并输出 val result = femaleData.filter(line => line._2 > 120) result.collect().map(x => x._1 + ',' + x._2).foreach(println) spark.stop()
父主题: Spark Core样例程序