能力中心 > 能力公社 > 数据消重能力 开发者中心

数据消重能力

数据消重

暂无评分 1036个项目使用过

基本信息

  • 能力名称(中文): 数据消重能力
  • 能力名称(英文): duplicateRemovalSQLite
  • 版本: v1.18.11.05.1002
  • 能力入口类名: com.hylanda.processors.duplicateRemovalSQLite.HLDuplicateRemovalSQLite
  • 开发者靳亮
  • 供应商平台自营
  • 编程语言: JAVA
  • 授权范围: 公开
  • 工程分类: 数据整合
  • 能力分类: 普通能力
  • 能力级别: 普通
  • 能力状态: 正常
  • 标签: 0

收费方式

  • 收费方式: 免费

使用说明

能力说明

功能简介

按照用户配置的字段过滤重复的数据,支持千万级数据消重,能力可重启

机器配置为高效云盘,能力消化数据速度约为8000条/分钟

机器配置为SSD磁盘,能力消化数据速度约为30000条/分钟

注意事项

1.该能力不适用于集群

2.只支持单字段消重

3.释放工作台资源后,已存消重数据会清空,如需保留消重库请与开发商联系

4.存储1千万的数据,占用磁盘空间约为500多M,如机器磁盘空间紧张,可删除不用的消重能力

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
字段名称 string 按该字段的值过滤重复数据,不支持多字段

输入简介

输入数据样例

第一条数据:
{
	"navigation" : "首页",
	"url_crc" : "123",
	"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
第二条数据:
{
	"navigation" : "首页》≡理财>>正文",
	"url_crc" : "123",
	"url" : "http://ask.yaolan.com/1967004475"
}

输出简介

输出数据样例

{
	"navigation" : "首页",
	"url_crc" : "123",
	"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}

相关能力

参考指标

  • 数据质量:99%

  • 处理性能:未知

附加说明

隐藏参数说明

最新版本

  • 最新版本: v1.18.11.05.1002
  • 更新日志: 新增

用户评论