能力中心 > 能力公社 > 常用标引 开发者中心

常用标引

对数据进行打标签处理

5条评分 497个项目使用过

基本信息

  • 能力名称(中文): 常用标引
  • 能力名称(英文): HLSimpleTreeKrpe
  • 版本: v1.18.08.21.1620
  • 能力入口类名: com.hylanda.processors.hlsimplekrpe.HLSimpleTreeKrpe
  • 开发者
  • 供应商平台自营
  • 编程语言: JAVA
  • 授权范围: 公开
  • 工程分类: 特征提取
  • 能力分类: 普通能力
  • 能力级别: 普通
  • 能力状态: 正常
  • 标签: 0

收费方式

  • 收费方式: 0.000200[按条数](按处理数据量计费)

使用说明

能力说明

功能简介


针对输入数据的固定字段(包括:正文、标题、作者、网址、导航、出处等),进行条件判断,若满足条件则对数据进行打标签。输出时额外输出标签字段(tag_result)明细。

当前版本能力的默认配置字段支持对海量采集的数据,或其他来源、必须包含url、rel_type、source_type以及需要被标引的字段的数据,经过【数据预处理】能力后的数据进行标记。若数据数据为外部采集的数据,则需满足输入样例中的重点字段名才能进行标引。

配置参数


参数名称 参数类型 是否必填 默认值 参数说明
规则配置 json 配置方法详见操作说明
是否输出线索 文本 是否需要详细线索, 详细线索为json形式, 默认不输出

资源类型


中文名称 对应source_type字段的内容
资讯 0
论坛 1
贴吧 2
微博 4

字段说明


字段中文名称 对应的字段英文名
正文 fmt_format_content
标题 fmt_title
作者 author
导航 navigation
网址 url
出处 content_media_name
来源 media_name
来自 post_source(微博数据的发布终端)

操作说明


1.该能力位于【特征提取】分类中,操作说明以标引全运会相关数据为例,条件设立为

1)正文字段包含 “全运会”、“全运”

2)正文字段包含某整句中同时出现“天津”和“全运”

3)标题字段包含 “全运会”

通过以上条件,粗略标引出全运会相关的样例数据,条件内容和数量可根据用户的实际需要进行自由配置。

【常用标引】能力,是针对数据进行简单的数据标记的能力模块。可以通过关键词存在的位置、关键词之间的距离等对文本信息进行标引处理,操作简单。

输入图片说明

首先,我们点击常用标引能力,进行配置

输入图片说明

在右侧根据需要配置【资源类型】【标签名称】,然后点击【设置规则】进行规则的设置。

输入图片说明

在新页面中点击【添加条件】按钮,即可添加标引条件,我们以前面提出的三个条件为例,示意条件添加的步骤,记得保存

输入图片说明

此能力模块处于数据处理流程的中间环节,需要在前面增加【信源输入】能力,在后面增加【数据存储】能力或【数据展示】能力后,才可正常启动能力。当能力名称前的图标变成红色方块时,代表能力可以正常启动。

输入图片说明

另:值得注意的是,标引能力需要有【数据预处理】能力作为前置能力使用。上面图例中使用的【全网数据监控】能力,输出时是预处理后的数据,在调用其他【信源能力】时,需要先添加【数据预处理】能力!比如【微博关键词】能力,需要将数据的数据先链接【数据预处理】能力,再将预处理后的数据输出链接到【常用标引】能力上。

以上讲解完成,下面是完整操作流程

输入简介

包含rel_type、source_type、url和需要被标引字段,且经过“数据预处理”加工后的数据;如果被标引字段包含标题和正文,对应的字段名称一定是title、format_content,然后再经过预处理能力处理;

输入数据样例

{
    "fmt_title": "乐视网:董事会选举刘弘任副董事长",
    "fmt_format_content": "\n\n\n  乐视网(300104)6月28日晚间公告,董事会通过了关于选举刘弘为公司副董事长的议案,并选举贾跃亭、曹彬、郑路担任第三届董事会提名委员会委员。 ",
    "author": "",
    "source_type": "0",
    "release_date": "2017-06-28 20:58:00",
    "title": "乐视网:董事会选举刘弘任副董事长",
    "title_crc": "4962638415049842761",
    "download_date": "2017-06-28 21:05:14",
    "content_crc": "14545513692170914463",
    "url_crc": "1583234676512468721",
    "url": "http://finance.eastmoney.com/news/1349,20170628751228119.html",
    "format_content": "<p align=\"center\"><img src=\"http://hqpick.eastmoney.com/k/3001042.png\" alt=\"K图 300104_2\"></p>\n<p>  乐视网(300104)6月28日晚间公告,董事会通过了关于选举刘弘为公司副董事长的议案,并选举贾跃亭、曹彬、郑路担任第三届董事会提名委员会委员。 </p>",
    "rel_type": "m"
}

输出简介

输出命中和未命中两种状态, 命中的数据会加入标引后的结果字段

输出数据样例

{
    "fmt_title": "乐视网:董事会选举刘弘任副董事长",
    "fmt_format_content": "\n\n\n  乐视网(300104)6月28日晚间公告,董事会通过了关于选举刘弘为公司副董事长的议案,并选举贾跃亭、曹彬、郑路担任第三届董事会提名委员会委员。 ",
    "author": "",
    "source_type": "0",
    "release_date": "2017-06-28 20:58:00",
    "title": "乐视网:董事会选举刘弘任副董事长",
    "title_crc": "4962638415049842761",
    "download_date": "2017-06-28 21:05:14",
    "content_crc": "14545513692170914463",
    "url_crc": "1583234676512468721",
    "url": "http://finance.eastmoney.com/news/1349,20170628751228119.html",
    "format_content": "<p align=\"center\"><img src=\"http://hqpick.eastmoney.com/k/3001042.png\" alt=\"K图 300104_2\"></p>\n<p>  乐视网(300104)6月28日晚间公告,董事会通过了关于选举刘弘为公司副董事长的议案,并选举贾跃亭、曹彬、郑路担任第三届董事会提名委员会委员。 </p>",
    "rel_type": "m",
    "tag_result": [
        {
            "name": "乐视",
            "clue": "关键特征=乐视网;",
            "clue_words": "乐视网",
            "clue_detail": [
                {
                    "field": "fmt_title",
                    "cls": "KBA",
                    "fmt": "乐视网",
                    "start": "0",
                    "anno": "乐视网",
                    "name": "WTS",
                    "doc": "_Default",
                    "len": "3",
                    "type": "ROOT"
                }
            ]
        }
    ]
}

相关能力

  • 在海量采集的数据来源与“常用标引”能力之间,必须靠“数据预处理”能力连接;

  • 如果数据来源是外部数据源,则先确保数据包含url、rel_type、source_type三个字段,其余被标引字段需按照上方“字段说明”中字段名称修改成对应的英文名,才能正常进行标引。

  • 因“常用标引”能力输出结果的格式问题,“常用标引”能力直接连接“共享数据库存储”直接连接目前会显示失败,中间需要依靠其他能力连接,通常的做法是接入“数据拆分”能力,经“数据拆分”后的数据结果按标签存储,一条数据N个标签则会被拆分为N条数据;

输入图片说明

参考指标

  • 数据质量:100%

  • 处理性能:100~4000条/s

4核4线程, 根据不同数据, 不同规则复杂度不同
数据长度越长, 条件越复杂, 越慢

附加说明

隐藏参数说明

最新版本

  • 最新版本: v1.18.08.21.1620
  • 更新日志: 剥离UI

用户评论