场景说明

在Spark应用中，通过使用StructuredStreaming调用kafka接口来获取单词记录，然后把单词记录分类统计，得到每个单词记录数。

数据规划

StructuredStreaming样例工程的数据存储在Kafka组件中。向Kafka组件发送数据（需要有kafka权限用户）。

确保集群安装完成，包括HDFS、Yarn、Spark和Kafka。
将kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”(普通集群不需配置)。
创建Topic。
{zkQuorum}表示ZooKeeper集群信息，格式为IP:port。

$KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper {zkQuorum}/kafka --replication-factor 1 --partitions 1 --topic {Topic}
启动Kafka的Producer，向Kafka发送数据。

{ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考编包并运行Spark应用。

java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{JAR_PATH} com.huawei.bigdata.spark.examples.KafkaWordCountProducer {BrokerList} {Topic} {messagesPerSec} {wordsPerMessage}

JAR_PATH为程序jar包所在路径; BrokerList格式为brokerIp:9092；
若用户需要对接安全Kafka，则还需要在spark客户端的conf目录下的“jaas.conf”文件中增加“KafkaClient”的配置信息，示例如下：
```
KafkaClient {
com.sun.security.auth.module.Krb5LoginModule required
useKeyTab=true
keyTab = "./user.keytab"
principal="leoB@HADOOP.COM"
useTicketCache=false
storeKey=true
debug=true;
};
```
在Spark on YARN模式下，jaas.conf和user.keytab通过YARN分发到Spark on YARN的container目录下，因此KafkaClient中对于“keyTab”的配置路径必须为相对jaas.conf的所在路径，例如“./user.keytab”。principal修改为自己创建的用户名及集群域名。

开发思路

接收Kafka中数据，生成相应DataStreamReader。
对单词记录进行分类统计。
计算结果，并进行打印。

父主题： Structured Streaming程序

上一篇：Structured Streaming程序

下一篇：Java样例代码

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

场景说明

场景说明

数据规划

开发思路

相关文档

意见反馈

文档内容是否对您有帮助？