能力中心 > 能力公社 > 标签统计 开发者中心

标签统计

标签 统计 聚合 情感统计

2条评分 65个项目使用过

基本信息

  • 能力名称(中文): 标签统计
  • 能力名称(英文): HLLabelStat
  • 版本
  • 能力入口类名: com.hylanda.processors.labelstat.HLLabelStat
  • 开发者
  • 供应商平台自营
  • 编程语言: JAVA
  • 授权范围: 公开
  • 工程分类: 模型分析
  • 能力分类: 普通能力
  • 能力级别: 普通
  • 能力状态: 正常
  • 标签: 标签统计/聚合统计/情感统计

收费方式

  • 收费方式: 免费

使用说明

能力说明

功能简介

对标引结果的标签或字段进行聚合统计并输出

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
发布时间的日期精度 日期 yyyy-MM-dd 按日期统计的精度
统计方式 文本 标签统计 选择一种统计方式,个别方式需要额外设置
批量提交 数字 1000 处理指定数据量后提交,小于0时每条提交
复合标签统计 文本 指定一个或多个字段和标签同时统计,多个标签名称用逗号分割.eg.release_date,source_type
聚合统计设置 文本 按字段进行聚合并统计个数,支持多个字段聚合,字段用逗号分割
正面情绪标签 文本 将完整包含输入串的标签认作正面,多个用逗号','分隔,正面负面中性标签必须对应
负面情绪标签 文本 将完整包含输入串的标签认作正面,多个用逗号','分隔,正面负面中性标签必须对应
中性情绪标签 文本 将完整包含输入串的标签认作正面,多个用逗号','分隔,正面负面中性标签必须对应
同现种子标签 文本 将完整包含输入串的标签认作正面,多个用逗号','分隔

输入简介

json格式,如进行标签相关的统计,需要包含 $.tag_result[*].name形式的标签命名

输入数据样例

(除了输入数据样例外, 还在这里描述输入数据的必需字段或关键依赖字段简介及依赖关系 若上述字段和配置参数有关,需要描述其关联)

{
"url":"http://www.abc.com/abc.html",
...
"tag_result":[{"name":"德克士/竞品/鸡腿/正面"},{}]
}

输出简介

输出为json格式,每次输出统计的全部结果,能力不停止,统计数据不断累加

输出数据样例

标签统计/复合标签统计/GroupBy
{
    "key":"2017-09-30,2,汽车行业车企分析/汽车行业产品分析/负面/性价",      #统计中的唯一串,可作为计算unique_crc 依据 ,
    "sum":1234,                                             #值统计结果 num
    "tag_1":"汽车行业车企分析",                             #按层级拆开的标签,从1开始,有多少级拆多少,group时没有这些项
    "tag_2":"汽车行业产品分析",
    "tag_3":"负面",
    "tag_4":"性价",
    "release_date":"2017-09-30"                         # 设定的符合字段名称,rlease_date 按照设定进行了转换,未设定时没有
    "source_type":"2"  
}
正负面情绪统计
{
    "positive_tag":"汽车行业车企分析/汽车行业产品分析/正面",
    "positive_num": 120,
    "positive_percent": 0.6,
    "negative_tag":"汽车行业车企分析/汽车行业产品分析/负面",
    "negative_num": 80,
    "negative_percent":0.4,
    "neuter_tag":"",
    "neuter_num":0 ,
    "neuter_percent":0.0
}
同现标签统计
{
    "seed":"seed_tag_xxxx",
    "tag_1","aaaa",
    "num_1":23,
    "tag_2":"BBBBB",
    "num_2":55}
}

相关能力

标引能力 数据存储

参考指标

  • 数据质量:N/A

  • 处理性能:>5000 条/min

4核4G

附加说明

隐藏参数说明

最新版本

  • -

用户评论