共享数据库存储,给用户提供免费的存储空间,且可以写入和修改数据
暂无评分 5726个项目使用过此能力支持用户将数据存储到平台提供的免费数据库中,用户只需要制定数据库表即可。同时支持数据的查询和修改
参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
---|---|---|---|---|
任务内名称 | 文本 | 是 | 共享数据库存储 | 可以修改该能力在画布中的显示名称 |
选择/新建数据表 | 文本 | 是 | 无 | 下拉选择已有数据表,或填写想要新建的表名称 |
写入策略 | 文本 | 是 | 仅写入 | 下拉选择写入方式,具体见下说明 |
请注意,新建表名时,请使用英文“a-z”,数字“0-9”,下划线“_”来起名,不要使用其他特殊符号,例如横线“-”会导致无法建表
【仅写入】选项,配置如截图所示
(1)选择“仅写入”,会将所有数据直接存入库中,可以进行下方高级选项配置
(2)指定日期字段:您可以指定上游数据中的日期字段,指定后,数据库中保存的数据就是日期类型,格式为(2018-06-25 12:00:00)
(3)指定过滤字段:您可以指定过滤字段,指定后,数据在存储的时候就会滤掉这些字段
(4)创建表语句:支持通过sql语句创建表,创建表语句的格式为 create table {0}(id varchar(20))
;其中{0}会替换为“选择/新建数据表”设置的表名
(5)是否配置自增ID:如果配置了此字段,那么数据库表会增加自增ID字段。此时如果数据中包含ID字段,会失效
(6)自动分表字段设置:如果配置了此字段,那么会按照此字段进行日期分表,分表后的表名为“选择/新建数据表”设置的表名_cluster_20190129,此字段必须为标准的日期格式,如download_date
更新覆盖操作原理:判断数据表中是否存在该条记录,有则更新该条记录,没有存储一条新的记录
更新内容字段:可以指定数据可表中要更新的字段
自动分表字段设置:如果配置了此字段,那么会通过此字段找到相应的表进行修改操作,如果表没有找到。当前数据会流入到失败队列。所以流程里面最好保留一个失败队列。
要求:
(1)数据库表结构设计时必须的有唯一索引:unique_key字段(相当于更新的where条件就是where unique_key=$unique_key);
(2)数据流的json数据中必须要有unique_key字段
【具体操作:使用平台自定义crc计算能力生成这个唯一值;再用数据转化工具将这个计算的字段转换为我们需要的字段名称】
更新字段条件:以上游数据的哪些字段更新数据库表中的数据,填写的这些字段即为确定数据是否存在的条件,例如,填写了url字段,意思就是以url字段为标准,库中存在相同的url即为存在,库中不存在的url,对应数据即为不存在,予以丢弃。
更新内容字段:指定数据库表中需要更新的字段
自动分表字段设置:如果配置了此字段,那么会通过此字段找到相应的表进行修改操作,如果表没有找到。当前数据会流入到失败队列。所以流程里面最好保留一个失败队列。
需要存储的数据,必须为json格式
{
"ExtractorID": "11",
"PubFlag": "1",
"SessionID": "[rmiiq0|4754B18700000003]4754B17E08000012-7430128011365943679",
"attitudes_count": "0",
"author": "挠人-",
"authorurl": "http://weibo.com/u/5605695283",
"birthday_normalized": "",
"comment_count": "0",
"contact_fmt_format_content": "",
"contact_fmt_title": "",
"contain_words": "test",
"content": "恭喜你成为微博最常访问第一位",
"content_crc": "17253053409679527690",
"content_media_name": "",
"download_date": "2017-12-03 01:46:32",
"fmt_author": "挠人-",
"fmt_format_content": "恭喜你成为微博最常访问第一位 \n\t\t\r\n",
"fmt_title": "恭喜你成为微博最常访问第一位",
"format_content": "恭喜你成为<em class=\"red\">微博</em>最常访问第一位 \n\t\t</p>",
"forward_attitudes_count": "0",
"forward_comments_count": "0",
"forward_quote_count": "0",
"from_flag": "sina_weibo1.3",
"isforward": "0",
"keywords": "恭喜 访问 微博 常 第一位 成为 你 最",
"location_normalized": "",
"media_id": "6000",
"media_name": "新浪微博",
"media_url": "weibo.com",
"post_source": "iPhone 7",
"pre_format_content": "恭喜你成为<em class=\"red\">微博</em>最常访问第一位 \n\t\t</p>",
"profile_image_url": "http://tvax4.sinaimg.cn/crop.0.0.512.512.50/0067mVq3ly8fl79mn6ba7j30e80e8jry.jpg",
"quote_count": "0",
"refer_url": "http://s.weibo.com/weibo/%25E5%25BE%25AE%25E5%258D%259A&nodup=1&sort=time&Refer=weibo_wb",
"reidx_uid": "海量;自动部署",
"rel_type": "m",
"release_date": "2017-12-03 01:46:00",
"segment_fmt_title": "22122112122121",
"source_type": "4",
"task_serial": "3357878552;19783822",
"title": "恭喜你成为微博最常访问第一位",
"title_crc": "13131179289259635568",
"title_crc_old": "13131179289259635568",
"type": "m",
"uid": "5605695283",
"url": "http://weibo.com/5605695283/FxR1k3mFx",
"url_crc": "7430128011365943679",
"url_dup": "http://weibo.com/5605695283/FxR1k3mFx#",
"url_original": "http://weibo.com/5605695283/FxR1k3mFx",
"user_url": "http://weibo.com/u/5605695283",
"user_url_crc": "8439420185889997244",
"verified": "0",
"w_id": "4180686380802127",
"w_idstr": "4180686380802127",
"w_mid": "4180686380802127",
"words": "18"
}
该能力无输出
因“常用标引”能力输出结果的格式问题,“常用标引”能力直接连接“共享数据库存储”直接连接目前会显示失败,中间需要依靠其他能力连接,通常的做法是接入“数据拆分”能力,经“数据拆分”后的数据结果按标签存储,一条数据N个标签则会被拆分为N条数据;
数据质量:100%
处理性能:10000/min
4核4线程,和单条数据的大小强相关
无
无
添加评论