nodemanager进程_PMS进程占用内存高-华为云

PMS进程占用内存高

grep =pmsd |grep -v grep 执行如下命令关闭PMS进程，其中PID为2中获取的PMS进程号。 kill -9 PID 等待PMS进程自动启动。 PMS启动需要2~3分钟。PMS是监控进程，重启不影响大数据业务。父主题：集群管理类

来自：帮助中心

查看更多 →
查看并处理可疑进程

查看并处理可疑进程在服务器防护过程中，如果HSS发现服务器中存在可疑进程运行事件，会将其展示在可疑进程运行事件列表中，但不会告警；对于可疑进程运行事件，由于HSS根据学习到的应用进程特征无法判断其是否可信，因此需要您根据实际情况判断并将可疑进程手动加入进程白名单，避免可信进程运行被持续告警。

来自：帮助中心

查看更多 →
集群外节点提交Spark作业时报错无法连接Driver

。原因分析使用client模式提交Spark任务的时候，Spark的driver进程是在客户端这边，而后面的executor都需要和Driver进行交互来运行作业。如果NodeManager连不上客户端所在的节点，就会报错：处理步骤在客户端的Spark配置中指定Driver的IP地址：

来自：帮助中心

查看更多 →
启动集群服务

启动成功之后进入控制台，确保节点管理器状态为可访问图1 操作1 后台查看进程，NodeManager确实已经启动成功，但是控制台查看状态为非活动，如下所示：图2 操作2 需要修改2个地方：图3 操作3 编辑nodemanager.properties文件图4 编辑1 图5 编辑2 辅节点操作如下：（辅节点只需要启动Node

来自：帮助中心

查看更多 →
ALM-18017 NodeManager非堆内存使用率超过阈值

ALM-18017 NodeManager非堆内存使用率超过阈值告警解释系统每30秒周期性检测Yarn NodeManager非堆内存使用率，并把实际的Yarn NodeManager非堆内存使用率和阈值相比较。当Yarn NodeManager非堆内存使用率超出阈值（默认为最大非堆内存的90%）时产生该告警。

来自：帮助中心

查看更多 →
辅助进程发送视频数据

辅助进程发送视频数据 [self->_dataBufferController sendVideoBuffer:sampleBuffer]; 接口描述 APP调用DataBufferController实例对象的sendVideoBuffer方法。注意事项在辅助进程中调用，用来发送采集到的视频数据

来自：帮助中心

查看更多 →
训练作业进程异常退出

训练作业进程异常退出问题现象训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里

来自：帮助中心

查看更多 →
进程被终止如何定位原因

进程被终止如何定位原因问题背景与现象在某环境出现DataNode异常重启，且确认此时未从页面做重启DataNode的操作，需要定位是什么进程终止了DataNode服务端进程。原因分析常见的进程被异常终止有2种原因： Java进程OOM被终止一般Java进程都会配置OOM

来自：帮助中心

查看更多 →
开启应用进程控制防护

开启应用进程控制防护应用进程控制功能支持分类控制服务器中的应用进程运行，允许可疑、可信进程运行，告警恶意进程运行，为服务器进程运行提供安全防护，防止服务器遭受恶意进程的破坏。开启应用进程控制防护的方式在创建白名单策略时可设置： “策略生效方式”选择“学习完成后自动开启”：系统

来自：帮助中心

查看更多 →
关闭应用进程控制防护

在左侧导航栏，选择“主机防御 > 应用进程控制”，进入“应用进程控制”界面。选择“白名单策略”页签。关闭应用进程防护关闭防护，但保留HSS学习到的服务器应用进程特征。在目标策略所在行的操作列，单击“关闭防护”。或者批量选中所有目标策略，并在策略列表左上方单击“关闭防护”，批量为多个策略关闭防护。

来自：帮助中心

查看更多 →
手动指定运行Yarn任务的用户

参数描述参数描述默认值 yarn.nodemanager.linux-container-executor.user 运行任务的用户。默认为空。说明：默认为空，实际以提交任务的用户来运行任务。 yarn.nodemanager.container-executor.class

来自：帮助中心

查看更多 →
配置ResourceManager重启后自动加载Container信息

避免工作内容的丢失。当启用NodeManager Restart时，NodeManager在本地保存当前节点上运行的container信息，重启NodeManager服务后通过恢复此前保存的状态信息，就不会丢失在此节点上运行的container进度。配置描述参考修改集群服务

来自：帮助中心

查看更多 →
手动指定运行Yarn任务的用户

参数描述参数描述默认值 yarn.nodemanager.linux-container-executor.user 运行任务的用户。默认为空。说明：默认为空，实际以提交任务的用户来运行任务。 yarn.nodemanager.container-executor.class

来自：帮助中心

查看更多 →
ALM-18014 NodeManager直接内存使用率超过阈值

区域右上角的下拉菜单，选择“定制 > 资源”，勾选“NodeManager内存使用率”。查看直接内存使用情况。图1 定制NodeManager内存使用率查看NodeManager使用的直接内存是否已达到NodeManager设定的最大直接内存的90%(默认阈值)。是，执行4。

来自：帮助中心

查看更多 →
配置ResourceManager重启后自动加载Container信息

避免工作内容的丢失。当启用NodeManager Restart时，NodeManager在本地保存当前节点上运行的container信息，重启NodeManager服务后通过恢复此前保存的状态信息，就不会丢失在此节点上运行的container进度。配置描述参考修改集群服务

来自：帮助中心

查看更多 →
重启YARN，本地日志不被删除

1/hadoop-yarn/hadoop-yarn-site/NodeManager.html#NodeManager_Restart 可以参考修改集群服务配置参数，进入Yarn“全部配置”页面。需将NodeManager的“yarn.nodemanager.recovery.enabled”配置项

来自：帮助中心

查看更多 →
辅助进程发送音频数据

辅助进程发送音频数据 [self-> dataBufferController sendAudioBuffer：sampleBuffer]; 接口描述 APP调用DataBufferController实例对象的sendAudioBuffer方法。注意事项在辅助进程中调用，用来发送采集到的音频数据。

来自：帮助中心

查看更多 →
训练作业进程被kill

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

来自：帮助中心

查看更多 →
ALM-18018 NodeManager堆内存使用率超过阈值

表区域右上角的下拉菜单，选择“定制 > 资源”，勾选“NodeManager内存使用率”。查看堆内存使用情况。图1 定制NodeManager内存使用率查看NodeManager使用的堆内存是否已达到NodeManager设定的最大堆内存的95%(默认阈值)。是，执行4。否，执行6。

来自：帮助中心

查看更多 →
重启YARN，本地日志不被删除

不被删除。回答 NodeManager有重启恢复机制，详情请参见： https://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManager.html#NodeManager_Restart 可

来自：帮助中心

查看更多 →
缩容Task节点失败

instances of NodeManager will be less than the minimum configuration after scale-in, which may cause data loss. 原因分析用户将Core节点的NodeManager服务停止了，导致

来自：帮助中心

查看更多 →