文档首页/ 数据湖探索 DLI/ 开发指南/ Spark Jar作业开发指南/ 使用Spark作业跨源访问数据源/ 对接OpenTSDB/ pyspark样例代码

更新时间：2024-11-14 GMT+08:00

pyspark样例代码

开发说明

支持对接CloudTable的OpenTSDB和MRS的OpenTSDB。

前提条件
 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。

认证用的password硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。

代码实现详解

import相关依赖包

        
             from __future__ import print_function
from pyspark.sql.types import StructType, StructField, StringType, LongType, DoubleType
from pyspark.sql import SparkSession

创建会话

        
             sparkSession = SparkSession.builder.appName("datasource-opentsdb").getOrCreate()

创建DLI跨源访问 OpenTSDB的关联表

        
             sparkSession.sql("create table opentsdb_test using opentsdb options(
  'Host'='opentsdb-3xcl8dir15m58z3.cloudtable.com:4242',
  'metric'='ct_opentsdb',
  'tags'='city,location')")

Host、metric、tags三个参数详情讲解可参考表1。

通过SQL API访问

插入数据

sparkSession.sql("insert into opentsdb_test values('aaa', 'abc', '2021-06-30 18:00:00', 30.0)")

查询数据

result = sparkSession.sql("SELECT * FROM opentsdb_test")

通过DataFrame API 访问

构造schema

        
             schema = StructType([StructField("location", StringType()),\                     
                     StructField("name", StringType()), \                   
                     StructField("timestamp", LongType()),\                  
                     StructField("value", DoubleType())])

设置数据

        
             dataList = sparkSession.sparkContext.parallelize([("aaa", "abc", 123456L, 30.0)])

创建DataFrame

        
             dataFrame = sparkSession.createDataFrame(dataList, schema)

导入数据到OpenTSDB

        
             dataFrame.write.insertInto("opentsdb_test")

读取OpenTSDB上的数据

        
             jdbdDF = sparkSession.read
    .format("opentsdb")\
    .option("Host","opentsdb-3xcl8dir15m58z3.cloudtable.com:4242")\
    .option("metric","ctopentsdb")\
    .option("tags","city,location")\
    .load()
jdbdDF.show()

操作结果

提交Spark作业
1. 将写好的python代码文件上传至DLI中。
  控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。
2. 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。
  控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
  如果选择spark版本为2.3.2（即将下线）或2.4.5提交作业时，需要指定Module模块，名称为：sys.datasource.opentsdb。
  
  如果选择Spark版本为3.1.1时，无需选择Module模块，需在 'Spark参数（--conf)' 配置
   spark.driver.extraClassPath=/usr/share/extension/dli/spark-jar/datasource/opentsdb/*
  
  spark.executor.extraClassPath=/usr/share/extension/dli/spark-jar/datasource/opentsdb/*
  
  通过控制台提交作业请参考《数据湖探索用户指南》中的“选择依赖资源参数说明”。
  
  通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。

完整示例代码

通过SQL API访问MRS的OpenTSDB

# _*_ coding: utf-8 _*_
from __future__ import print_function
from pyspark.sql.types import StructType, StructField, StringType, LongType, DoubleType
from pyspark.sql import SparkSession

if __name__ == "__main__":
  # Create a SparkSession session.    
  sparkSession = SparkSession.builder.appName("datasource-opentsdb").getOrCreate()


  # Create a DLI cross-source association opentsdb data table    
  sparkSession.sql(\
    "create table opentsdb_test using opentsdb options(\
    'Host'='10.0.0.171:4242',\
    'metric'='cts_opentsdb',\
    'tags'='city,location')")

  sparkSession.sql("insert into opentsdb_test values('aaa', 'abc', '2021-06-30 18:00:00', 30.0)")

  result = sparkSession.sql("SELECT * FROM opentsdb_test")
  result.show()

  # close session 
  sparkSession.stop()

通过DataFrame API访问OpenTSDB

# _*_ coding: utf-8 _*_
from __future__ import print_function
from pyspark.sql.types import StructType, StructField, StringType, LongType, DoubleType
from pyspark.sql import SparkSession

if __name__ == "__main__":
  # Create a SparkSession session.    
  sparkSession = SparkSession.builder.appName("datasource-opentsdb").getOrCreate()

  # Create a DLI cross-source association opentsdb data table    
  sparkSession.sql(
    "create table opentsdb_test using opentsdb options(\
    'Host'='opentsdb-3xcl8dir15m58z3.cloudtable.com:4242',\
    'metric'='ct_opentsdb',\
    'tags'='city,location')")

  # Create a DataFrame and initialize the DataFrame data.    
  dataList = sparkSession.sparkContext.parallelize([("aaa", "abc", 123456L, 30.0)])

  # Setting schema   
  schema = StructType([StructField("location", StringType()),\                 
                       StructField("name", StringType()),\                
                       StructField("timestamp", LongType()),\               
                       StructField("value", DoubleType())])

  # Create a DataFrame from RDD and schema   
  dataFrame = sparkSession.createDataFrame(dataList, schema)

  # Set cross-source connection parameters   
  metric = "ctopentsdb"   
  tags = "city,location"  
  Host = "opentsdb-3xcl8dir15m58z3.cloudtable.com:4242"

  # Write data to the cloudtable-opentsdb   
  dataFrame.write.insertInto("opentsdb_test")
  # ******* Opentsdb does not currently implement the ctas method to save data, so the save() method cannot be used.*******   
  # dataFrame.write.format("opentsdb").option("Host", Host).option("metric", metric).option("tags", tags).mode("Overwrite").save()   

  # Read data on CloudTable-OpenTSDB  
  jdbdDF = sparkSession.read\       
      .format("opentsdb")\      
      .option("Host",Host)\     
      .option("metric",metric)\  
      .option("tags",tags)\    
      .load()   
  jdbdDF.show()

  # close session 
  sparkSession.stop()

父主题： 对接OpenTSDB

上一篇：scala样例代码

下一篇：java样例代码

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

pyspark样例代码

开发说明

完整示例代码

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线