验证Jupyter Notebook访问MRS
- 在客户端节点执行如下命令,启动Jupyter Notebook。
PYSPARK_PYTHON=./Python/bin/python3 PYSPARK_DRIVER_PYTHON=jupyter-notebook PYSPARK_DRIVER_PYTHON_OPTS="--allow-root" pyspark --master yarn --executor-memory 2G --driver-memory 1G
- 在浏览器中输入“弹性IP地址:9999”地址,登录到Jupyter WebUI(保证ECS的安全组对外放通本地公网IP和9999端口),登录密码为2设置的密码。
图1 登录Jupyter WebUI
- 创建代码。
创建一个新的python3任务,使用Spark读取文件。
图2 创建Python任务
登录到集群Manager界面,在Yarn的WebUI页面上查看提交的pyspark应用。
图3 查看任务运行情况
- 验证pandas库调用。
图4 验证pandas
常见问题
pandas本地import使用时,报错如下:
参考以下步骤进行处理:
- 执行命令python -m pip install backports.lzma安装lzma模块,如下图所示:
- 进入“/usr/local/python3/lib/python3.6”目录(机器不同,目录也有所不同,可以通过which命令来查找当前运行python是使用的那个目录的),然后编辑lzma.py文件。
将:
from _lzma import * from _lzma import _encode_filter_properties, _decode_filter_properties
更改为:
try: from _lzma import * from _lzma import _encode_filter_properties, _decode_filter_properties except ImportError: from backports.lzma import * from backports.lzma import _encode_filter_properties, _decode_filter_properties
修改前:
修改后:
- 保存退出,然后再次import。