最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

Greenplum 数据库 之 拉链表 的实现

[复制链接]
跳转到指定楼层
楼主
发表于 2020-2-29 15:25:57 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2020-2-29 16:06 编辑

 历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓历史拉链表,就是记录一个事务从开始一直到当前状态的所有变化的信息,拉链表可以避免按每一天存储所有记录造成的海量存储问题,同事也是处理缓慢变化数据的一种常见方式。
一、概念  在拉链表中,每一条数据都有一个生效日期(sdate) 和 失效日期(edate)。假设在一个用户表中,在 2019年10月8日 新增了两个用户,则这两条记录的生效时间为当天,由于到 2019年10月8日 为止,这两条记录还没有被修改过,所以失效时间为无穷大,这里设置为数据库中的最大值(2999-12-31),如图所示:

image.png

  第二天(2019-10-09),用户 1001 被删除,用户 1002 的电话号码被修改成 16500000006。为了保留历史状态,用户 1001 的失效时间被修改成 2019-10-09,用户 1002 则变成两条记录,如图所示:



image.png

  第三天(2019-10-10),又新增了用户 1003,则用户表数据如图:


image.png

  如果要查询最新的数据,那么只要查询失效时间为 2999-12-31 的数据即可,如果要查询 10月8号 的历史数据,则筛选生效时间 <= 2019-10-08 并且失效时间 > 2019-10-08 的数据即可;如果查询的是 10月9日的数据,那么筛选条件则是生效时间 <= 2019-10-09 并且失效时间 > 2019-10-09;以此类推。
二、表的创建  临时源表 T_FIN_ACCTION_SRC,接收其它数据库(如 Oracle)表推送过来的数据 ,表结构和源数据库的表结构一致
[AppleScript] 纯文本查看 复制代码
--源表
create table T_FIN_ACCTION_SRC(
    eNo varchar(6),
    eName varchar(10),
    ePhone varchar(11),
    eData_date date
);


  目标表 ( 即拉链表 ) T_FIN_ACCTION_TAR,这里注意的是:拉链表把源表的时间字段改成了 生效时间 和 失效时间 哦
[AppleScript] 纯文本查看 复制代码
--拉链表
create table T_FIN_ACCTION_TAR(
    eNo varchar(6),
    eName varchar(10),
    ePhone varchar(11),
    sdate date,
    edate date
);


三、存储过程的创建  

在这里为了方便阅读以及代码的编写,先写出整体的存储过程架构,然后我们在一步一步添加代码:
[AppleScript] 纯文本查看 复制代码
-- 将当前时间传入 (也可以传入昨天的时间哦,随机应变,如果传入的时间是今天则使用中要将时间减一,因为我们要处理的是昨天的数据)
create or replace function My_FIN_GL_SUBJECT_PRO(IN P_TODAY VARCHAR)
    returns void 
as $$ 
declare

begin   
            --1.目标表中没有此主键的则确定为新增  -  新增

            --2.源表中没有该ID则进行关链  -  删除

            --3.修改
            --3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天
            
            --3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大
                
end;
$$ 
language plpgsql;


四、拉链的过程实现
1.目标表中没有此主键的则确定为新增  -  新增
[AppleScript] 纯文本查看 复制代码
insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)  
                     select s.eNo,s.eName,s.ePhone,s.eData_date,to_date('2999-12-31','yyyy-mm-dd')   
                                    from gplcydb.public.T_FIN_ACCTION_SRC s 
                                         where s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1) 
                                         and not exists(
                                                select 1 from gplcydb.public.T_FIN_ACCTION_TAR t 
                                                        where 
                                                            s.eNo=t.eNo 
                                                        and s.eName=t.eName
                                                        and s.ePhone=t.ePhone
                                        );



2.源表中没有该ID则进行关链  -  删除
[AppleScript] 纯文本查看 复制代码
update gplcydb.public.T_FIN_ACCTION_TAR a set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1) 
                     where not exists(
                         select 1 from gplcydb.public.T_FIN_ACCTION_SRC s 
                                        where 
                                            s.eNo=a.eNo 
                                        and a.edate=to_date('2999-12-31', 'yyyy-mm-dd') 
                                    );



3.修改
3.1 闭链:目标表中有此主键的记录,状态值不同,更新结束日期为当天

[AppleScript] 纯文本查看 复制代码
update gplcydb.public.T_FIN_ACCTION_TAR b set edate=(to_date(P_TODAY,'yyyy-mm-dd')-1)    
                     where b.edate=to_date('2999-12-31','yyyy-mm-dd')   
                           and exists(
                               select 1 from gplcydb.public.T_FIN_ACCTION_SRC s 
                                      where 
                                            s.eNo = b.eNo and b.sdate < (to_date(P_TODAY,'yyyy-mm-dd')-1) 
                                      and (
                                            s.eName <> b.eName or s.ePhone <> b.ePhone 
                                          ) 
                            );


3.2 开链:目标表中新增一条修改的数据,更新结束日期为无穷大
[AppleScript] 纯文本查看 复制代码
insert into gplcydb.public.T_FIN_ACCTION_TAR(eNo,eName,ePhone,sdate,edate)  
                     select s.eNo,s.eName,s.ePhone,(to_date(P_TODAY,'yyyy-mm-dd') - 1),to_date('2999-12-31','yyyy-mm-dd')   
                            from gplcydb.public.T_FIN_ACCTION_SRC s 
                                 where 
                                     s.eData_date=(to_date(P_TODAY,'yyyy-mm-dd') - 1) 
                                 and exists( --处理数据断链新增的情况
                                        select 1 from (
                                                        select eNo,sdate,max(edate) end_date 
                                                                from gplcydb.public.T_FIN_ACCTION_TAR group by eNo,sdate) t 
                                                                        where 
                                                                            t.eNo=s.eNo 
                                                                        and s.eData_date = t.sdate 
                                                                        and t.end_date <= to_date(P_TODAY,'yyyy-mm-dd') 
                                );


五、测试

要测试拉链函数,首先我们必须要在原表中插入数据(模拟一天全量的数据):

[AppleScript] 纯文本查看 复制代码
insert into T_FIN_ACCTION_SRC values('1001','feiniu','18500000001','2019-10-10');
insert into T_FIN_ACCTION_SRC values('1002','beibei','18400000005','2019-10-10');
insert into T_FIN_ACCTION_SRC values('1003','yuyu','13800000005','2019-10-10');


调用函数进行拉链测试:
[AppleScript] 纯文本查看 复制代码
select My_FIN_GL_SUBJECT_PRO('2019-10-11');  --调用函数

select * from T_FIN_ACCTION_TAR;   --查询拉链表


测试结果如下图:

image.png

  插入第二天全量数据,这些数据中有新增的数据,有源数据被删除,还有源数据被修改,完整的模拟sql语句如下:
[AppleScript] 纯文本查看 复制代码
delete from T_FIN_ACCTION_SRC where eno='1003';
insert into T_FIN_ACCTION_SRC values('1004','kongkong','13800000666','2019-10-11');
update T_FIN_ACCTION_SRC set ename='xiaofeifei' where eno='1001';

select * from T_FIN_ACCTION_SRC;


原表的效果图如下:


image.png

接下来执行拉链函数:
[AppleScript] 纯文本查看 复制代码
--执行拉链函数
select My_FIN_GL_SUBJECT_PRO('2019-10-12');

select * from T_FIN_ACCTION_TAR;  --查询目标表


效果图如下:



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-4 17:45

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表