文档首页 > > SGE集群使用指南> 安装GCS-SGE> 安装GCS-SGE

安装GCS-SGE

分享
更新时间: 2019/12/18 GMT+08:00

前提条件

请确保已有可用的AK/SK,获取方法请参见访问密钥

获取软件包

获取GCS-SGE命令行工具包,并将工具包上传到管理节点的“/usr/bin”目录下。此处的管理节点为创建SGE集群环境中创建的管理节点,请使用弹性公网IP登录。

GCS-SGE命令行工具包为一个gcs-chpc二进制文件,其存放在cloud-cli-linux-gcs-***.zip软件包中,登录基因容器控制台,在“总览”页面的工具中下载cloud-cli-linux-gcs-***.zip。

创建sgecluster.conf文件

  1. 登录管理节点,创建“/root/.gcs/”目录。

    mkdir -p /root/.gcs

  2. 在“/root/.gcs/”目录下,创建SGE集群配置文件。

    touch sgecluster.conf

    参照表1中说明替换示例中的“***”内容,其他参数和示例保持一致。

    [common]
    ak = ***
    sk = ***
    region = ***
    namespace = ***
    deployname = ***
    image = swr.cn-north-1.myhuaweicloud.com/genecontainer/sge-slaver:v2-obs
    product = SGE
    timeinterval = 7
    timeintervalshutdown = 2
    ShutDownRounds = 2
    
    [volume]
    vol-list=sge,home,root
    pvc-***=cci-sfs-***
    pvc-***=cci-sfs-***
    pvc-***=cci-sfs-***
    path-***= ***
    path-***= ***
    path-***= ***
    
    [all.q]
    cpu = 4
    memory = 8G
    
    [cn-short]
    cpu = 1
    memory = 2G
    autoscale-prefix = short
    autoscale-num = 1000
    
    [cn-long]
    cpu = 2
    memory = 4G
    autoscale-prefix = long
    autoscale-num = 1000
    表1 sgecluster.conf文件配置说明

    参数

    是否必填

    参数说明

    common

    ak

    配置为访问密钥中获取的Access Key Id值。

    示例:JP20NN9QJSOL1TTTDKLF

    sk

    配置为访问密钥中获取的Secret Access Key值。

    示例:cfXXts1YEDV5b26VmBtl8EjcMahBhSTfanBA7Xv3

    region

    区域,请到地区和终端节点页面获取。

    示例:cn-north-4

    namespace

    CCI服务中使用的Kubernetes集群namespace,配置为创建SGE集群环境中选择的命名空间。

    示例:cci-namespace-chpc

    deployname

    创建容器统一携带的Label标签,便于管理容器。

    取值范围:只能由小写字母、数字和中划线(-)组成,且必须以小写字母开头,不以中划线结尾,长度为[4, 32]个字符。

    image

    容器使用的镜像地址。该镜像Dockerfile内容请参见计算节点Docker镜像配置

    product

    SGE或GE两种引擎,不填写是默认值为SGE

    • SGE:SGE引擎
    • GE:GE引擎

    timeinterval

    扩容的间隔时间,间隔多久刷新一次当前状态,检查是否触发自动扩容。

    取值:≥2的整数,单位分钟。若节点规格内存≥256G,建议取值≥5分钟,避免取值太小导致某些中间过程不能执行完毕的情况。

    timeintervalshutdown

    缩容的间隔时间,间隔多久刷新一次当前状态,检查是否触发自动缩容。

    取值:≥2的整数,单位分钟。若节点规格内存≥256G,建议取值≥5分钟,避免取值太小导致某些中间过程不能执行完毕的情况。

    ShutDownRounds

    对刷新多少次均无任务的节点,执行自动缩容。

    若刷新时,发现某队列有等待任务,且队列节点数小于规定的最大节点数,则立即触发自动扩容。

    取值范围:正整数。

    volume

    vol-list

    定义外挂盘,多个之间用英文逗号分隔,且必须为小写字母。

    请根据实际需求定义需要外挂的SFS盘,本系统定义了/opt/sge、 /home、/root 三个目录,必须外挂SFS盘。

    说明:

    vol-list中定义的内容将在pvc-***和path-***中进行识别,配置时请注意其小写字母一一对应关系。

    示例:

    vol-list=sge,home,root

    pvc-***

    外挂盘在CCI中的挂载路径,配置为文件存储卷列表中“卷名”的值。

    示例:

    pvc-sge=cci-sfs-root 
    pvc-home=cci-sfs-home 
    pvc-root=cci-sfs-root 

    path-***

    外挂盘在集群中的挂载路径。

    示例:

    path-sge=/opt/sge   
    path-home=/home 
    path-root=/root

    [all.q]

    说明:

    系统默认的队列,必须配置。

    cpu

    定义队列中机器的规格,如1个CPU,2GB内存。

    cpu取值为正整数。

    memory取值为“正整数G”,其中G为单位,参数必须携带。例如参数填写为“2G”,表示2G内存。

    由于all.q队列中未定义autoscale-prefix、autoscale-num字段,该队列只能手动添加、删除,不支持弹性扩缩容。

    memory

    [cn-short]

    说明:

    用户自定义队列,非必填项,请根据实际需求配置。

    cpu

    定义队列中机器规格,如1个CPU,2GB内存。

    根据定义的autoscale-prefix、autoscale-num字段,该队列生成的节点名称为slaver[0-19]。即以autoscale-prefix中指定的slaver作为共同字段,以autoscale-num中指定的数值为最大规模。

    须知:
    • 自定义队列中,必须配置cpu和memory字段。
    • 目前CCI集群对队列规格有以下限制:
      • 节点的CPU内存比在1:2-1:8之间。当CPU高于32时,CPU会自动提升到48或64,即CPU在[33, 48]范围内时,将自动提升为48;CPU在[49, 64]范围内时,将自动提升为64(最大规格可为64U 512G)。
      • 总CPU数目、总内存大小、总容器数目,系统均有限制。如果触发了限额,请提交华为云工单。
    • 基于任务规格的集群规格扩容,如果某队列规格为2CPU 4G,但投上来的任务是16U 32G,此时任务规格大于队列规格,但小于CCI集群规格这种情况将触发集群规格扩容,将启动16U 32G的集群,并纳管入cn-short队列,无任务时自动删除。

    memory

    autoscale-num

    本队列中,集群通过弹性伸缩支持的最大节点数,不包括手动添加的节点。

    例如,示例中配置为20,表明该队列弹性伸缩最多支持20台机器。

    说明:
    • autoscale-num和autoscale-prefix必须同时配置。
    • autoscale-num规定的集群规模大小 = 该队列下前缀为autoscale-prefix的容器 Pods 数。

    autoscale-prefix

    指定本队列中弹性拓展机器的hostname前缀。

    例如,示例中配置为slaver,表明弹性扩展的主机名称前缀为slaver。

    说明:
    • autoscale-num和autoscale-prefix必须同时配置。
    • hostname前缀只能由小写字母、数字和中划线(-)组成,且必须以小写字母开头,不能以中划线为结尾,长度为[4, 32]个字符。
    • 对集群某个队列而言,如果有物理机,则物理机hostname不应与 autoscale-prefix的前几位相同。

    [cn-long]

    说明:

    用户自定义队列,非必填项,请根据实际需求配置。

    cpu

    定义队列中机器规格,如1个CPU,2GB内存。

    根据定义的autoscale-prefix、autoscale-num字段,该队列生成的节点名称为slaver[0-19]。即以autoscale-prefix中指定的slaver作为共同字段,以autoscale-num中指定的数值为最大规模。

    须知:
    • 自定义队列中,必须配置cpu和memory字段。
    • 目前CCI集群对队列规格有以下限制:
      • 节点的CPU内存比在1:2-1:8之间。当CPU高于32时,CPU会自动提升到48或64,即CPU在[33, 48]范围内时,将自动提升为48;CPU在[49, 64]范围内时,将自动提升为64(最大规格可为64U 512G)。
      • 总CPU数目、总内存大小、总容器数目,系统均有限制。如果触发了限额,请提交华为云工单。
    • 基于任务规格的集群规格扩容,如果某队列规格为2CPU 4G,但投上来的任务是16U 32G,此时任务规格大于队列规格,但小于CCI集群规格这种情况将触发集群规格扩容,将启动16U 32G的集群,并纳管入cn-short队列,无任务时自动删除。

    memory

    autoscale-num

    本队列中,集群通过弹性伸缩支持的最大节点数,不包括手动添加的节点。

    例如,示例中配置为20,表明该队列弹性伸缩最多支持20台机器。

    说明:
    • autoscale-num和autoscale-prefix必须同时配置。
    • autoscale-num规定的集群规模大小 = 该队列下前缀为autoscale-prefix的容器 Pods 数。

    autoscale-prefix

    指定本队列中弹性拓展机器的hostname前缀。

    例如,示例中配置为slaver,表明弹性扩展的主机名称前缀为slaver。

    说明:
    • autoscale-num和autoscale-prefix必须同时配置。
    • hostname前缀只能由小写字母、数字和中划线(-)组成,且必须以小写字母开头,不能以中划线为结尾,长度为[4, 32]个字符。
    • 对集群某个队列而言,如果有物理机,则物理机hostname不应与 autoscale-prefix的前几位相同。

  3. 保存文件并退出。

安装GCS-SGE

  1. 登录管理节点,进入“/usr/bin”目录。
  2. 赋予工具可执行权限。

    chmod +x gcs-chpc

  3. 安装GCS-SGE命令行工具。

    gcs-chpc sgeinstall

    命令行终端显示如下类似信息:

    Step1. Preparing       
    Step2. Mounting files via /etc/fstab              
    Step3. Writing bashrc and bash_profile.              
    Step4. Install kubectl on CCI.              
    Step5. Enable ssh no password login using id_rsa.pub keys.       
    Step6. Install SGE and gcs.service.
    Step7. Adding nodes defined in config file.

    Step6执行需要较长时间请耐心等待,若执行过程中报错,可在“/tmp/sgeInstall.log ”文件中查看Step6报错信息。

    若GCS-SGE安装失败,请检查“sgecluster.conf”文件配置是否正确,安全组中6444端口是否开启(详情请参见配置安全组规则),问题修复后,执行gcs-chpc sgeinstall命令重新安装。

  4. GCS-SGE安装完成后,退出当前Linux界面,重新登录管理节点。

    重新登录管理节点后,执行service gcs.service status命令,查看GCS-SGE当前运行状态。

    Redirecting to /bin/systemctl status gcs.service
    ● gcs.service - Autoscaler for Gene Container Service
       Loaded: loaded (/usr/lib/systemd/system/gcs.service; enabled; vendor preset: disabled)
       Active: active (running) since Tue 2019-06-11 09:21:01 CST; 38min ago
     Main PID: 23671 (sh)
       CGroup: /system.slice/gcs.service
               ├─23671 /bin/sh -c gcs autoscale >> /var/log/gcs.log 2>&1
               └─23672 gcs autoscale
    
    Jun 11 09:21:01 ecstest-paas-test systemd[1]: Started Autoscaler for Gene Container Service.

  5. 使PATH等变量生效。

    source /root/.bashrc

  6. 查看计算节点是否被纳管。

    qhost

    命令行终端提示如下类似信息,表明计算节点已被SGE纳管。

    HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS  
    global                  -               -    -    -    -     -       -       -       -       -

  7. 执行如下命令修改msconf文件中参数schedd_job_info的值。

    qconf -msconf

    将schedd_job_info改为true,便于用户可以通过命令获取收集的信息。

    schedd_job_info    true

相关操作

更新GCS-SGE

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

跳转到云社区