实时数仓
实时数仓
传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可...(more)
传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。

问题

互联网服务实时数仓·2023-03-02
lzj7618937 · cib 擅长领域:云计算, 容器, 容器云
6 会员关注
实时流计算是指处理的数据源是一些不断产生新数据的连续流,并通过实时分析技术,将这些实时数据变为业务价值。流计算往往应用于大数据领域的数据分析,日志处理等场景。验证实时流计算结果准确性是非常重要且有挑战的。下面是一些验证实时流计算结果准确性的方法:1.使用样本对...
生活生产服务其它大数据·2020-03-25
pysx0503联盟成员 · 第十区。散人 擅长领域:存储, 服务器, 备份
748 会员关注
我理解的大数据平台和数仓报表平台应该并不是一个升级替代的关系。大数据平台是一个综合的系统。而数仓只是大数据中的一部分基础。如果吧大数据比喻成一辆车。那数仓应该算是车的发动机。提供大数据中所有需要的各种动力。正常的架构应该是所有的子系统数据通过ETL汇总...
银行实时数仓·2019-09-04
gengyang · 民生银行 擅长领域:大数据, 实时数仓, 数据库
1 会员关注
肯定要用类似streaming或flink这样的流处理组件而不是跑批。具体可以两种实现方案,一是cdc的目标不要设置为数据库而是设置为kafka,然后对接kafka或者flink,这种比较容易;二是目标为数据库,然后自己写程序实现轮训,这种比较复杂但对大数据组件没要求,适合小数据量处理。...
银行日志·2019-09-04
gengyang · 民生银行 擅长领域:大数据, 实时数仓, 数据库
1 会员关注
因为日志格式的不统一造成分析难度较大,需要针对每种格式硬编码实现加工逻辑。可以从日志规范上着手简化加工,给源系统指定日志打印规范,然后一次开发针对不同系统的关注指标进行差异化配置实现多次服用。...
银行实时数仓·2019-08-29
王奇 · 阜新银行 擅长领域:大数据, 数据库, 商业智能
2 会员关注
首先要明白的问题是:你的实时的数据量大吗?如果数据量不大性能这块没有必要,普通的数据库就够了。如果你的实时数据和传统的数据仓库放到一起,那性能应该是传统数仓要考虑的问题。更简单点说,实时的数据追求的是数据的时效性,准确性和业务场影。这是他的核心价值...
银行实时数仓·2019-08-29
jamiee · 某股份制银行 擅长领域:大数据, 实时数仓, 数据库
5 会员关注
我们曾经做过一个风控类的项目,大概在几十毫秒完成指标计算,并将指标反馈给实时决策引擎。思路有两个。一是业务系统将交易报文下发给实时指标加工模块进行处理,指标加工模块完成指标计算后同步返回加工结果;另一个是上游业务系统将交易报文写入消息队列,指标加工模块从队列读...
银行实时数仓·2019-08-29
jamiee · 某股份制银行 擅长领域:大数据, 实时数仓, 数据库
5 会员关注
这个问题很大。我理解实时数据仓库更加贴近线上业务场景,是根据业务场景和需求不断迭代的产物,在互联网企业中实时的数据处理和加工的诉求和实现更多方式更普遍。
银行实时数仓·2019-08-29
匿名用户
我觉得分几步来做:1.数据全部收集到一个数据平台。不管是实时的还是历史的。2.做好数据库的清洗和基础关联,和宽表的建立。3.根据对数据的实时性要求进行分级处理。4.成立每个业务分析团队在款表上做分析。5.分析的数据再返回宽表,并形成数据模型,共以后或其他业务线使用。...
银行实时数仓·2019-08-29
jamiee · 某股份制银行 擅长领域:大数据, 实时数仓, 数据库
5 会员关注
实时数仓的数据粒度应该要跟技术实现有关,我理解有起码有两类实现方式,一类存储指标等汇总数据,另一类是存储清洗后原始数据:1.一类是基于根据实时采集的数据,在历史存储的指标基础上行加工新的指标值。这种实现方式是没有存放实时采集的数据,存储和使用的都是指标。这样做的好...

描述

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可...(more)
传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。
X社区推广
  • 提问题