字符串相似度算法理解 更多内容
  • 字符串相似度

    字符串相似 概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串相似。 输入 参数 子参数 参数说明 inputs dataDF inputs为字典类型,da

    来自:帮助中心

    查看更多 →

  • 字符串相似度topN

    字符串相似topN 概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似 输入 参数 子参数 参数说明 inputs dataDF inputs为字典类型

    来自:帮助中心

    查看更多 →

  • 文章相似度

    文章相似 概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 DataRame

    来自:帮助中心

    查看更多 →

  • 文本相似度(高级版)

    文本相似(高级版) 功能介绍 对文本语义相似计算。 具体Endpoint请参见终端节点。 本API免费调用,调用限制为2次/秒。 文本相似基础版和高级版基于不同算法实现,对相同文本,基础版和高级版的结果有所差别。根据测试数据,高级版效果一般优于基础版。 调试 您可以在API

    来自:帮助中心

    查看更多 →

  • 文本相似度(基础版)

    文本相似(基础版) 功能介绍 对文本进行语义相似计算。 具体Endpoint请参见终端节点。 调用华为云NLP服务会产生费用,本API支持使用基础套餐包,购买时请在 自然语言处理 价格计算器中查看基础套餐包和领域套餐包支持的API范围。 也可使用文本相似(高级版)接口,详情请见

    来自:帮助中心

    查看更多 →

  • 紧密中心度算法(closeness)

    紧密中心算法(closeness) 功能介绍 根据输入参数,执行紧密中心算法。 紧密中心算法(Closeness Centrality)计算一个节点到所有其他可达节点的最短距离的倒数,进行累积后归一化的值。 URI POST /ges/v1.0/{project_id}/h

    来自:帮助中心

    查看更多 →

  • 中介中心度算法(betweenness)

    中介中心算法(betweenness) 功能介绍 根据输入参数,执行中介中心算法。 中介中心算法(Betweenness Centrality)以经过某个节点的最短路径数目来刻画节点重要性的指标。 URI POST /ges/v1.0/{project_id}/hyg/{g

    来自:帮助中心

    查看更多 →

  • 标签传播算法(Label Propagation)

    标签按相似传递给其他节点。标签数据就像是一个源头,可以对无标签数据进行标注,节点的相似越大,标签越容易传播。 适用场景 标签传播算法(Label Propagation)适用于资讯传播、广告推荐、社区发现等场景。 参数说明 表1 标签传播算法(Label Propagation)参数说明

    来自:帮助中心

    查看更多 →

  • 自然语言处理基础版和领域版的区别

    接口类型 接口 自然语言处理基础 服务接口 命名实体识别(基础版) 命名实体识别(领域版) 文本相似(基础版) 文本相似(领域版) 语言生成 服务接口 文本摘要(基础版) 文本摘要(领域版) 语言理解服务接口 情感分析(基础版) 情感分析(领域版)

    来自:帮助中心

    查看更多 →

  • 中介中心度算法(betweenness)(2.2.4)

    中介中心算法(betweenness)(2.2.4) 表1 parameters参数说明 参数 是否必选 说明 类型 取值范围 默认值 directed 否 是否考虑边的方向 Boolean true或者false true weight 否 边上权重 String 空或字符串 *

    来自:帮助中心

    查看更多 →

  • 语义相似距离

    语义相似距离 概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明 inputs dataframe

    来自:帮助中心

    查看更多 →

  • 紧密中心度算法(Closeness Centrality)

    紧密中心算法(Closeness Centrality) 概述 紧密中心算法(Closeness Centrality)计算一个节点到所有其他可达节点的最短距离的倒数,进行累积后归一化的值。紧密中心可以用来衡量信息从该节点传输到其他节点的时间长短。节点的“Closeness

    来自:帮助中心

    查看更多 →

  • 中介中心度算法(Betweenness Centrality)

    中介中心算法(Betweenness Centrality) 概述 中介中心算法(Betweenness Centrality)以经过某个节点的最短路径数目来刻画节点重要性的指标。 适用场景 可用作社交、风控等网络中“中间人”发掘,交通、传输等网络中关键节点识别;适用于社交、金融风控、交通路网、城市规划等领域

    来自:帮助中心

    查看更多 →

  • 召回策略

    最近邻域数 在UserCF算法中使用,生成的相似矩阵中为每个用户保留的若干个最相似用户。默认为100。 最小交叉 物品和物品之间被同一用户行为记录的数量,计算相似时,过滤掉共同记录小于最小交叉的item。 默认值:1。 物品活跃 物品过滤用户的活跃阈值。 取值范围:1-10000。

    来自:帮助中心

    查看更多 →

  • 文本

    文本 TF-IDF 文本词向量 词频统计 文章相似 字符串相似 字符串相似topN NGram Count PMI 关键词抽取 原子分词 文本TF-IDF 三元组转kv 文本分类 LDA 句子拆分 文本摘要 停用词过滤 语义相似距离 父主题: 模型工程

    来自:帮助中心

    查看更多 →

  • 功能介绍

    自然语言处理基础(Natural Language Processing Fundamentals),为用户提供包括分词、命名实体识别、关键词提取、短文本相似等自然语言相关的API,可用于智能问答、 对话机器人 、内容推荐、电商评价分析等场景中。 语言生成(Language Generation,简

    来自:帮助中心

    查看更多 →

  • 分子搜索

    输入小分子:可以通过输入SMILES、上传文件或者直接绘制输入小分子。最终以SMILES为准。 选择算法:可以选择ECFP4 Tanimoto相似或者骨架搜索。ECFP4 Tanimoto相似是通过ECFP4指纹计算Tanimoto相似来搜索相似比较高的小分子。骨架搜索是通过设置分子骨架搜索具有相同骨架的分子。

    来自:帮助中心

    查看更多 →

  • 数据处理

    数据,重复数据对模型精度提升并没有太大作用,反而需要花费很多时间对其进行标注。使用数据选择进行数据预处理,对采集到的数据去重,根据相似删除一些重复比较高的数据。 数据增强:数据增强的目的是帮助用户增加数据量。 父主题: 数据分析与预览

    来自:帮助中心

    查看更多 →

  • 度数关联度算法(Degree Correlation)

    度数关联算法(Degree Correlation) 概述 度数关联算法(Degree Correlation)计算所有边上起点和终点度数之间的Pearson关联系数,常用来表示图中高度数节点是否和高度数节点相连。 适用场景 度数关联算法(Degree Correlation)适用于衡量图的结构特性场景。

    来自:帮助中心

    查看更多 →

  • 需求理解

    需求理解 行业需求理解 针对行业供给侧和需求侧分别分析出对公共服务平台的需求。供给侧,工业数字化技术体系发展呈现出“新四化”的发展趋势,既工业装备智能化,工业网络标准化,工业软件现代化,以及工业数据价值化,为抢抓产业发展的制高点,对公共服务平台提出了当先性的要求。需求侧,面向产业

    来自:帮助中心

    查看更多 →

  • 语言理解

    对文本按照一定的分类体系或标准进行自动分类标记。目前支持对给定文本自动判断是否是广告。情感分析是文本分类的一种,是指针对带有主观描述的文本,自动判断该文本的情感极性类别。情感极性分为正面和负面。针对天气类、报时、新闻类、笑话类、翻译类、提醒类、闹钟类、音乐类共8个领域进行意图理解,对用户的问题进行领域识别并提取领域内的参数。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了