更新时间:2024-08-14 GMT+08:00
Notebook自定义镜像故障基础排查
当制作的自定义镜像使用出现故障时,请用户按照如下方法排查:
- 用户自定义镜像没有ma-user用户及ma-group用户组;
- 用户自定义镜像中/home/ma-user目录,属主和用户组不是ma-user和ma-group;
- 用户自定义镜像必须满足用户目录/home/ma-user权限为750,不能为其他权限;
- 用户自定义镜像使用远程SSH功能,OpenSSH版本要兼容或高于8.0;
- 用户制作的自定义镜像,在本地执行docker run启动,无法正常运行;
- 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务;
- 用户自己业务占用了开发环境官方的8888、8889端口的,需要用户修改自己的进程端口号;
- 用户的镜像指定了PYTHONPATH、sys.path导致服务启动调用冲突的,需在实例启动后,再指定PYTHONPATH、sys.path;
- 用户使用了已开启sudo权限的专属池,使用自定义镜像时,sudo工具未安装或安装错误;
- 用户使用的cann、cuda环境有兼容性问题;
- 用户的docker镜像配置错误、网络或防火墙限制、镜像构建问题(文件权限、依赖缺失或构建命令错误)等原因导致的。
- 用户的Anaconda环境中是否出现了以下问题:
- 在“{python_env}/lib”目录下存在以python开头的非法目录(例如“pythonNone”),正常目录名应该是python+版本号(例如“python3.7”),这可能是由于环境配置错误或意外操作导致的。
- 用户可能手动在Anaconda环境目录“{conda}/envs”下创建了空目录或在环境的“lib”目录下创建了非法目录,这种操作会破坏Anaconda的目录结构。
- 用户可能手动清空了某个环境目录内的文件,而这些文件是Anaconda环境所必需的,导致环境无法正常工作。
- 用户修改“/home/ma-user/.ssh”目录权限导致ssh无法使用的。.ssh目录权限参考如下:
chmod 750 .ssh chmod 644 .ssh/authorized_keys chmod 644 .ssh/config chmod 640 .ssh/environment chmod 750 .ssh/etc chmod 640 .ssh/known_hosts chmod 750 .ssh/var chmod 600 .ssh/etc/ssh_host_rsa_key chmod 640 .ssh/etc/ssh_host_rsa_key.pub chmod 750 .ssh/etc/sshd_config chmod 750 .ssh/var/run/sshd.pid
父主题: 制作自定义镜像用于创建Notebook