更新时间:2024-04-19 GMT+08:00
分享

验证Jupyter Notebook访问MRS

  1. 在客户端节点执行如下命令,启动Jupyter Notebook。

    PYSPARK_PYTHON=./Python/bin/python3 PYSPARK_DRIVER_PYTHON=jupyter-notebook PYSPARK_DRIVER_PYTHON_OPTS="--allow-root" pyspark --master yarn --executor-memory 2G --driver-memory 1G

  1. 在浏览器中输入“弹性IP地址:9999”地址,登录到Jupyter WebUI(保证ECS的安全组对外放通本地公网IP和9999端口),登录密码为2设置的密码。

    图1 登录Jupyter WebUI

  2. 创建代码。

    创建一个新的python3任务,使用Spark读取文件。

    图2 创建Python任务

    登录到集群Manager界面,在Yarn的WebUI页面上查看提交的pyspark应用。

    图3 查看任务运行情况

  3. 验证pandas库调用。

    图4 验证pandas

常见问题

pandas本地import使用时,报错如下:

参考以下步骤进行处理:

  1. 执行命令python -m pip install backports.lzma安装lzma模块,如下图所示:

  2. 进入“/usr/local/python3/lib/python3.6”目录(机器不同,目录也有所不同,可以通过which命令来查找当前运行python是使用的那个目录的),然后编辑lzma.py文件。

    将:

    from _lzma import *
    from _lzma import _encode_filter_properties, _decode_filter_properties

    更改为:

    try:
        from _lzma import *
        from _lzma import _encode_filter_properties, _decode_filter_properties
    except ImportError:
        from backports.lzma import *
        from backports.lzma import _encode_filter_properties, _decode_filter_properties

    修改前:

    修改后:

  3. 保存退出,然后再次import。

分享:

    相关文档

    相关产品