能力中心 > 能力公社 > 共享数据库存储 开发者中心

共享数据库存储

共享数据库存储,给用户提供免费的存储空间,且可以写入和修改数据

暂无评分 5726个项目使用过

基本信息

  • 能力名称(中文): 共享数据库存储
  • 能力名称(英文): HylandaShareDataStorePlusProcessor
  • 版本: v1.19.09.29.1100
  • 能力入口类名: com.hylanda.processors.hlsharedatastoreplus.HylandaShareDataStorePlusProcessor
  • 开发者
  • 供应商平台自营
  • 编程语言: JAVA
  • 授权范围: 公开
  • 工程分类: 数据存储
  • 能力分类: 普通能力
  • 能力级别: 普通
  • 能力状态: 正常
  • 标签

收费方式

  • 收费方式: 0.000020[按条数](https://gitee.com/hylandateam/GongXiangShuJuKuCunChu/README_GongXiangShuJuKuCunChu.md)

使用说明

能力说明

功能简介

此能力支持用户将数据存储到平台提供的免费数据库中,用户只需要制定数据库表即可。同时支持数据的查询和修改

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
任务内名称 文本 共享数据库存储 可以修改该能力在画布中的显示名称
选择/新建数据表 文本 下拉选择已有数据表,或填写想要新建的表名称
写入策略 文本 仅写入 下拉选择写入方式,具体见下说明
  • 请注意,新建表名时,请使用英文“a-z”,数字“0-9”,下划线“_”来起名,不要使用其他特殊符号,例如横线“-”会导致无法建表

  • 【仅写入】选项,配置如截图所示

输入图片说明

(1)选择“仅写入”,会将所有数据直接存入库中,可以进行下方高级选项配置

(2)指定日期字段:您可以指定上游数据中的日期字段,指定后,数据库中保存的数据就是日期类型,格式为(2018-06-25 12:00:00)

(3)指定过滤字段:您可以指定过滤字段,指定后,数据在存储的时候就会滤掉这些字段

(4)创建表语句:支持通过sql语句创建表,创建表语句的格式为 create table {0}(id varchar(20));其中{0}会替换为“选择/新建数据表”设置的表名

(5)是否配置自增ID:如果配置了此字段,那么数据库表会增加自增ID字段。此时如果数据中包含ID字段,会失效

(6)自动分表字段设置:如果配置了此字段,那么会按照此字段进行日期分表,分表后的表名为“选择/新建数据表”设置的表名_cluster_20190129,此字段必须为标准的日期格式,如download_date

  • 【更新数据,不存在时写入】选项,配置如截图所示

输入图片说明

更新覆盖操作原理:判断数据表中是否存在该条记录,有则更新该条记录,没有存储一条新的记录

更新内容字段:可以指定数据可表中要更新的字段

自动分表字段设置:如果配置了此字段,那么会通过此字段找到相应的表进行修改操作,如果表没有找到。当前数据会流入到失败队列。所以流程里面最好保留一个失败队列。

要求:

(1)数据库表结构设计时必须的有唯一索引:unique_key字段(相当于更新的where条件就是where unique_key=$unique_key);

(2)数据流的json数据中必须要有unique_key字段

【具体操作:使用平台自定义crc计算能力生成这个唯一值;再用数据转化工具将这个计算的字段转换为我们需要的字段名称】

  • 【仅更新数据,不存在时丢弃】选项,配置如截图所示

输入图片说明

更新字段条件:以上游数据的哪些字段更新数据库表中的数据,填写的这些字段即为确定数据是否存在的条件,例如,填写了url字段,意思就是以url字段为标准,库中存在相同的url即为存在,库中不存在的url,对应数据即为不存在,予以丢弃。

更新内容字段:指定数据库表中需要更新的字段

自动分表字段设置:如果配置了此字段,那么会通过此字段找到相应的表进行修改操作,如果表没有找到。当前数据会流入到失败队列。所以流程里面最好保留一个失败队列。

输入简介

需要存储的数据,必须为json格式

输入数据样例

{
    "ExtractorID": "11",
    "PubFlag": "1",
    "SessionID": "[rmiiq0|4754B18700000003]4754B17E08000012-7430128011365943679",
    "attitudes_count": "0",
    "author": "挠人-",
    "authorurl": "http://weibo.com/u/5605695283",
    "birthday_normalized": "",
    "comment_count": "0",
    "contact_fmt_format_content": "",
    "contact_fmt_title": "",
    "contain_words": "test",
    "content": "恭喜你成为微博最常访问第一位",
    "content_crc": "17253053409679527690",
    "content_media_name": "",
    "download_date": "2017-12-03 01:46:32",
    "fmt_author": "挠人-",
    "fmt_format_content": "恭喜你成为微博最常访问第一位 \n\t\t\r\n",
    "fmt_title": "恭喜你成为微博最常访问第一位",
    "format_content": "恭喜你成为<em class=\"red\">微博</em>最常访问第一位 \n\t\t</p>",
    "forward_attitudes_count": "0",
    "forward_comments_count": "0",
    "forward_quote_count": "0",
    "from_flag": "sina_weibo1.3",
    "isforward": "0",
    "keywords": "恭喜 访问 微博 常 第一位 成为 你 最",
    "location_normalized": "",
    "media_id": "6000",
    "media_name": "新浪微博",
    "media_url": "weibo.com",
    "post_source": "iPhone 7",
    "pre_format_content": "恭喜你成为<em class=\"red\">微博</em>最常访问第一位 \n\t\t</p>",
    "profile_image_url": "http://tvax4.sinaimg.cn/crop.0.0.512.512.50/0067mVq3ly8fl79mn6ba7j30e80e8jry.jpg",
    "quote_count": "0",
    "refer_url": "http://s.weibo.com/weibo/%25E5%25BE%25AE%25E5%258D%259A&nodup=1&sort=time&Refer=weibo_wb",
    "reidx_uid": "海量;自动部署",
    "rel_type": "m",
    "release_date": "2017-12-03 01:46:00",
    "segment_fmt_title": "22122112122121",
    "source_type": "4",
    "task_serial": "3357878552;19783822",
    "title": "恭喜你成为微博最常访问第一位",
    "title_crc": "13131179289259635568",
    "title_crc_old": "13131179289259635568",
    "type": "m",
    "uid": "5605695283",
    "url": "http://weibo.com/5605695283/FxR1k3mFx",
    "url_crc": "7430128011365943679",
    "url_dup": "http://weibo.com/5605695283/FxR1k3mFx#",
    "url_original": "http://weibo.com/5605695283/FxR1k3mFx",
    "user_url": "http://weibo.com/u/5605695283",
    "user_url_crc": "8439420185889997244",
    "verified": "0",
    "w_id": "4180686380802127",
    "w_idstr": "4180686380802127",
    "w_mid": "4180686380802127",
    "words": "18"
}

输出简介

该能力无输出

相关能力

因“常用标引”能力输出结果的格式问题,“常用标引”能力直接连接“共享数据库存储”直接连接目前会显示失败,中间需要依靠其他能力连接,通常的做法是接入“数据拆分”能力,经“数据拆分”后的数据结果按标签存储,一条数据N个标签则会被拆分为N条数据;

输入图片说明

参考指标

  • 数据质量:100%

  • 处理性能:10000/min

4核4线程,和单条数据的大小强相关

附加说明

隐藏参数说明

最新版本

  • 最新版本: v1.19.09.29.1100
  • 更新日志: 去掉输出的seesion_id

用户评论