能力中心 > 能力公社 > 数据预处理 开发者中心

数据预处理

对数据进行简单的处理

暂无评分 2个项目使用过

基本信息

  • 能力名称(中文): 数据预处理
  • 能力名称(英文): HLPretreatProcessorNew
  • 版本: v1.0.0
  • 能力入口类名
  • 开发者小静
  • 供应商平台自营
  • 编程语言: JAVA
  • 授权范围: 公开
  • 工程分类: 数据整合
  • 能力分类: 普通能力
  • 能力级别: 普通
  • 能力状态: 正常
  • 标签

收费方式

  • 收费方式: 免费

使用说明

能力说明

功能简介

将平台上的数据进行处理,以便于后续能力的使用。主要实现一下三个目的:

  1. 针对 title , format_content , author 三个字段进行繁简字体转换, 将繁体转换为简体。
  2. 针对 title , format_content 两个字段去HTML标签, 分别将去HTML标签后的数据存入两个新字段 fmt_title, fmt_format_content
  3. 针对 fmt_title, fmt_format_content, url 三个字段分别计算CRC并存入 title_crc, content_crc, url_crc
  4. 针对 fmt_format_content 进行长句MD5计算, 挑选文章中最长的10个句子, 并对每个句子进行MD5的计算, 不够10的有多少算多少, 并存入 content_multi_md5

附加功能 微博数据如果有forward_content, 将fmt_format_content与其进行拼接, 生成新的字段fmt_format_content_withforward, 对应判定图中的"微博转发全文"

配置参数

输入简介

输入数据样例

{
    "title": "圖書",
    "format_content": "<p>數目一致</p>",
    "author": "一個人",
    "url": "http://aaa.com/bbb.html"
}

输出简介

预处理会有两类数据, 完成 和 预处理失败

通常预处理很难失败, 因此只需要接出完成的数据队列即可

这样界面会有一个感叹号, 说明有一个队列没有接出

失败的数据流可以接出来, 接出来后可以抛弃, 或者存起来以后再回顾, 也可以堆着, 以后有报警了就能知道有失败了

接出来之后就不会有这个感叹号提醒了

输出数据样例

{
    "title_crc": "10752140189735939946",
    "url_crc": "3862518705733510048",
    "author": "一个人",
    "title": "图书",
    "content_crc": "2683043038567468677",
    "url": "http://aaa.com/bbb.html",
    "format_content": "<p>数目一致</p>",
    "fmt_title": "图书",
    "fmt_format_content": "\r\n数目一致\r\n",
    "content_multi_md5": ["2683043038567468677"]
}

相关能力

参考指标

  • 数据质量:100%

  • 处理性能:1000+/s

4核4线程, 根据不同数据不同 数据长度越长, 越慢

附加说明

隐藏参数说明

最新版本

  • 最新版本: v1.0.0
  • 更新日志: 系统同步

用户评论