数据消重
暂无评分 1036个项目使用过按照用户配置的字段过滤重复的数据,支持千万级数据消重,能力可重启
机器配置为高效云盘,能力消化数据速度约为8000条/分钟
机器配置为SSD磁盘,能力消化数据速度约为30000条/分钟
注意事项
1.该能力不适用于集群
2.只支持单字段消重
3.释放工作台资源后,已存消重数据会清空,如需保留消重库请与开发商联系
4.存储1千万的数据,占用磁盘空间约为500多M,如机器磁盘空间紧张,可删除不用的消重能力
参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
---|---|---|---|---|
字段名称 | string | 是 | 按该字段的值过滤重复数据,不支持多字段 |
第一条数据:
{
"navigation" : "首页",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
第二条数据:
{
"navigation" : "首页》≡理财>>正文",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475"
}
{
"navigation" : "首页",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
数据质量:99%
处理性能:未知
无
无
添加评论