分子生成
分子生成基于盘古药物分子大模型,对初始数据集进行采样,多目标、多方向的快速生成新颖且与靶点蛋白亲和力高的化合物。
- 单击“分子生成”功能卡片,进入配置页面。
- 输入初始数据集,有两种输入方式:
- 选择文件:支持SDF、MOL2、PDB、SMI格式文件;小分子支持10-10000个。如果没有初始数据集,可以选择官方库,ZINC数据集。
图1 输入初始数据集
- 手动输入:最少输入10行,最多输入10000行,每行字符不超过512;SMILES不支持输入空格或者中文
- 选择文件:支持SDF、MOL2、PDB、SMI格式文件;小分子支持10-10000个。如果没有初始数据集,可以选择官方库,ZINC数据集。
- 单击“下一步”,进入靶点设置,此步骤为可选步骤,如果需要设置靶点,并且将对接结合能作为一个约束条件进行分子生成,需要进行配置。最多可添加2个靶点。
如果不需要设置靶点,此步骤可以进行省略,如果设置了靶点,作业运行时间会加长。
- 通过“靶点设置”上传靶点,并且设置对接口袋。
此处靶点设置为可选参数,如果选择靶点设置,可以将对接活性作为一个约束条件进行分子生成。靶点1对应的约束条件是target1_binding_energy,靶点2对应的约束条件是target2_binding_energy
您可以通过“上传靶点”,将受体文件上传。受体文件仅支持pdb格式的文件,提交任务时系统会自动删除受体中包含水、配体和金属离子。删除受体文件后,运行任务时会跳过靶点设置步骤。
- 口袋设置。
- 对接引擎类型:DSDP、AutoDock Vina
图2 靶点设置
图3 Target1设置
图4 Target2设置
图5 靶点设置完成
- 通过“靶点设置”上传靶点,并且设置对接口袋。
- 单击“下一步”,进入参数设置页面。
- 选择基模型:支持选择基模型。此参数仅专业版支持。如果选择的基模型是非官方盘古药物大模型,则约束条件不支持官方机器学习属性,只支持以该基模型创建的属性模型作为约束条件。基模型列表见AI建模。
- 选择属性模型:选择AI模型。如果需要创建模型,可参考AI模型。此参数只有专业版支持。一次最多可以选10个模型属性。属性模型的基模型必须与上一步所选择的基模型一致。
- 设置强约束、弱约束的参数和参数值,相关参数含义见相关参数章节。
- 强约束:生成的小分子必须要满足的约束条件。强约束用于严格筛选输出分子,若分子不满足其中任何一条约束则会被直接丢弃。强约束条件个数1~3个最佳,不宜过多,过多的强约束会导致输出结果数量少于预期或者没有分子生成。如果设置的官能团结构太大,建议放到弱约束,因为这样设置会使模型可探索的区间比较小,导致可能没有结果生成。
- 弱约束:生成的小分子不必要满足的约束条件。弱约束用于打分排序最终结果,输出分子会按照弱约束顺序尽可能多地满足所有弱约束;不满足弱约束的结果依然会被保留在结果中,对于一个比较关注且重要的分子属性,建议放到强约束条件设置里,因为弱约束不会做过滤。
如果进行了“靶点设置”,会自动加上相应靶点的“Binding Free Energy”才会计算对接结合能,并将对接结合能作为约束条件进行分子生成。
您可以通过“添加”来添加新的约束条件,也可以在操作列单击删除图标,删除约束参数。每个约束参数的含义参考相关参数。
强约束最多选择5个,仅Substructure和Interaction参数可重复选择,其余不可以;弱约束最多选择10个,可以重复选择,弱约束的初始权重与弱约束的顺序有关,弱约束条件越靠前则初始权重越大。
- 输出个数:选择输出个数,目前支持500、1000、5000。输出个数越多,任务时间越长。
- 名称:可修改,修改后左上角也同步修改。长度为5~64个字符;仅可以使用字母、数字、下划线“_”、中划线“-”和空格;首位只能以数字或字母开头。
- 标签:设置任务标签。
- 功能调用消耗:运行一次功能会消耗一次。
生成后的小分子在满足强约束条件的基础上,会根据满足弱约束条件的权重总和以及与参考小分子的相似度来打分并进行排序。在初始化权重的基础上,每个约束所占的权重,会在每一轮的分子生成迭代中,根据所满足的约束来进行动态调整。比如说约束条件1,在分子生成迭代中比较容易满足,那么该条件的权重会降低,如果不容易满足,该条件的权重会升高。
如果需要设置官能团的约束,可以在约束条件中设置“Substructure”,然后选择“包含”或者“排除”,包含官能团或者去除官能团条件,设置1个官能团数为佳。在官能团设置中,可以单击蓝色按钮来设置生长方向,即我们所生成的分子只会往我们所标记的方向生长。如果在一个Substructure约束条件里面添加多个官能团,则官能团之间的关系是“或”,即生成的分子满足其中一个官能团即可。如果添加多个Substructure约束,则官能团之间的关系是“和”,即生成的分子都会满足这几个官能团。
如果需要设置相互作用力的约束,可以在约束条件中设置“Interaction”,然后选择“包含”或者“排除”,包含相互作用力或者去除相互作用力。在相互作用力约束条件设置中,可以选择相应的靶点、氨基酸和相互作用力,相互作用力支持H bond,Hydrophobic,Salt Bridge,Pi Stacking,Pi Cation。如果在一个Interaction约束条件里面添加多个相互作用力,则相互作用力之间的关系是“或”,即生成的分子满足其中一个相互作用力即可。如果添加多个Interaction约束,则相互作用力之间的关系是“和”,即生成的分子都会满足这几个相互作用力。
约束方式,包含“区间”,“最大化”和“最小化”种方式,“区间”指的是我们所选择的属性包含在我们所设置的参数设置区间内。“最大化”指的是我们所设置的属性越大越好,而不只是限定在某区间内,当我们无法判断属性应该设置在什么区间,但是属性越高,成药性越好,可以设置属性设置条件为最大化,这个只能在弱约束里面进行设置。“最小化”指的是所设置的属性越小越好,与最大化相反,也是只能在弱约束里面进行设置。
相似度分数,是利用ECFP4分子指纹计算生成后分子与原始分子的Tanimoto相似性。我们设置了禁止优化列表,禁止以高毒性为优化目标的属性优化,列表为:hERG Blockers,H-HT,DILI,AMES,Skin Sensitization,Carcinogencity,Eye Irritation,Eye Corrosion。
图6 参数设置页面
- 单击“提交”,提交任务。
- 分子生成结果支持以列表视图的形式进行查看
- 可以以列表的形式查看分子生成的作业,单击左上角“下载”,下载分子生成的结果或者分子3D构象。如果分子设置了靶点,可以下载小分子或复合物,若分子未设置靶点,只能下载小分子。小分子支持SDF和PDB格式,复合物只支持PDB格式。
- 分子生成对应的下游分析为分子搜索、分子优化和合成路径规划,如果分子设置了靶点,可以选择自由能微扰进行下游分析,通过单击“下游分析”可以进行创建。
- 如果添加了靶点,支持按照相互作用力进行高级筛选,单击进行条件配置。
- 单击可以收藏分子生成结果,收藏的结果可在收藏夹页直接查看。
图7 查看结果(1)
图8 高级筛选
下载操作会产生流量费用,具体可参考计费说明。
- 分子生成结果支持以卡片视图的形式进行查看,参考图10,在卡片视图中:
- 单击右上方的选择下拉框,可以选择分子的排序方式,将分子按照所选的排序方式进行展示。
图9 排序方式
- 单击每个分子卡片右上方的可以收藏分子生成结果,收藏的结果可在收藏夹页直接查看。
- 单击每个分子卡片右上方的,可以选择“查看详情”、“查看3D”、“下游分析”、“下载3D”。
- 查看详情:单击查看详情,跳转至分子详情页进行查看。
- 查看3D:查看分子的3D视图。
- 下游分析:分子生成对应的下游分析为分子搜索、分子优化和合成路径,如果分子设置了靶点,可以选择自由能微扰进行下游分析,单击“确定”即可创建。
- 下载3D:如果分子设置了靶点,可以单击“下载3D”下载生成的小分子或者复合物,如果分子未设置靶点,单击“下载3D”只能下载小分子。小分子下载支持SDF和PDB格式,复合物下载只支持PDB格式。
- 每个分子卡片上会展示相应分子序号与对应的参数Vina Score(有靶点)、Score、QED、SaScore
- Vina Score:代表分子如果添加了靶点,将会计算对接结合能,并按照Vina Score进行排序
- Score:代表生成小分子的综合打分
- QED:代表分子的成药性。
- SaScore:代表合成可及性分数,旨在评估分子的合成难易程度。
- 单击右上方的选择下拉框,可以选择分子的排序方式,将分子按照所选的排序方式进行展示。
- 分子生成结果支持以3D视图的形式进行查看
单击“查看3D”,可以看到分子的3D构象,如果设置了靶点,还可以看到生成的小分子与靶点的结合构象。
如果上传了双靶点,可以通过切换来切换靶点,查看相应靶点和生成分子的结合构象。如果设置了两个靶点会默认下载两个靶点的结果。
图11 查看3D图
在查看3D的页面中,单击右侧的配体列表中,每个配体卡片右上角的,可以查看
- 查看详情:可以查看每个分子的属性信息和score。
- 查看属性:查看每个分子的基本属性。
- 查看2D相互作用图:查看靶点和分子之间的2D相互作用图,并且可以进行图片下载。
- 下游分析:分子生成对应的下游分析为分子搜索、分子优化和合成路径规划,如果分子设置了靶点,可以选择自由能微扰进行下游分析,单击“确定”即可创建。
- 下载3D:选择下载小分子或者复合物后,单击“确定”,小分子下载支持SDF和PDB格式,复合物只支持PDB格式。
- 查看分子详情
图12 查看分子详情
- 查看作业信息
单击“作业信息”切换到作业信息页签,可以查看作业的初始数据集、靶点信息与参数信息等。
图13 作业信息