最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

[Kylin] 实现自动建模、存储下降最高达50%,Kyligence 最新产品解读

[复制链接]
发表于 2019-8-20 14:59:16 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
随着数字化时代的不断深入,数据量持续呈现出爆发式增长势头。如何存储和处理海量数据已经成为一个亟需解决的问题,底层数据库领域正在经历新一轮的变革。
作为这个领域为数不多来自中国企业,Kyligence 从最早的一款 hadoop 上的 OLAP 引擎产品,经过三年时间的快速迭代,成为新一代的智能数仓产品。新产品利用AI技术大大简化产品的使用,加速大数据洞察,赋能平民数据科学家。
  • 这款倡导“增强分析”的新产品对于企业的价值在哪里?
  • 有哪些功能创新?性能与上一代产品相比又何突破?
  • 最新版本在企业的实战效果如何?

增强引擎此次发布的产品最大变革就是“增强引擎”。 新一代 Kyligence Enterprise 提供专家模式和智能模式两种工作方式。在智能模式下,增强引擎能够自动学习用户的查询SQL,从而不断调整预计算范围,经过一段时间的迭代学习,实现预计算和查询的精准匹配,提升计算和存储资源的利用率。有了这个功能以后,企业可减少数据工程师的投入,降低运维成本;同时,也可提高企业IT部门对业务需求的效应效率。
这里插播一下,增强分析Gartner今年提出的十大数据趋势之一,是一种新兴数据分析方式,借助了机器学习跟AI,让用户可以更低门槛去将这个数据分析呈现出来。(未来:Augmented Analytics ) 以某保险公司为例,相比传统Cube构建方式,通过机器学习方法与增强引擎,删除低效存储模型,最终节省70%的存储资源,构建时间缩短60% 自适应的 Schema不管是Apache Kylin 还是上一代产品,Kyligence Enterprise 的整个Schema 都比较固定,也就是说它没有办法让你很好地适应它的变化。新一代产品,新增了自适应的Schema,它完全是基于SQL 动态调整、自动建模,不再受固定Schema的限制。 在过去,一个较小业务变更就意味着不得不重新设计,发布和构建整个OLAP模型,给开发和运维工作带来巨大挑战。新一代的产品可以更灵活的响应业务需求变化。


例如当分析场景需要的维度,度量发生变化时,建模人员可以在现有模型上快速进行变更操作和一键发布,或者由增强引擎自动判断哪些模型需要更新。更为难得的是,系统只需要为增量的指标付出构建成本,而无须重新构建全部数据。这个功能的优化将显著减少了模型更新的人力和时间成本,提高对业务响应的效率。 Kyligence Storage Gen 2Kyligence 从一开始就没有使用 HBase,而是基于分布式的云原生列式存储。在新版本中,Kyligence 加强了在 Storage 上的投入。最新产品利用CPU的向量化,以及对一些重复数据的删除,更重要的是优化了相关列式存储压缩算法,使得 Kyligence Enterprise v 4.0 存储相比上一代产品可实现 10% 到 50% 的下降,具体下降幅度需要视企业应用场景而定。也正是得益于这样的存储优化,整个数据分析的加载和索引时间也会大大降低,效率得到成倍甚至几倍的提升。
全栈 Spark 在 4.0 版本中,KyligenceEnterprise 正式进入全面 Spark 阶段——不管是构建引擎还是查询引擎,所有的管理全都基于Spark 运作。 这也意味着 Kyligence Enterprise 没有对平台的依赖,可以跑在Hadoop 上,也可以跑在云上,或者是其他的一些平台上,企业客户在这方面有更多的可选择。全栈Spark架构不仅给构建和查询带来更好的性能,提升服务的时间响应的及时性,也能为企业客户减少采购成本和降低运维成本。 性能进一步提升性能测试1:5 亿条数据的背景下,v 4.0与Spark SQL v 2.4 的TPC-H 测试结果对比。可以看到,在同样的硬件规模上,查询性能远远优于Spark SQL 2.4, 90% 查询可以在10秒以内返回结果平均查询性能约为Spark SQL 2.4的24倍。(补充说明:Kyligence是基于预计算的原理来进行数据查询)
性能测试2:在数据量线性增长时,v4.0 与Spark SQL v2.4的查询延迟测试对比。在同样的硬件规模上,我们基于TPC-H 在不同的SQL 上做了一个对比,从TPC-H 50 到1000,可以看到,Spark SQL 在TPC-H 1000 的时候崩掉了,但v4.0还能很好地服务,而且保持良好的性能。( 就Kyligence vs Spark SQL的性能测试,我们将在下周发布详细的测试内容,敬请关注。
Beta用户测试在某保险公司的应用中,基于上一代产品技术我们做了一个对比:以前两周才能设计一个模型;今天只需要30分钟就能基于用户的历史记录,把所有模型推荐出来,而且推荐成功率可以达到95%,数据加载时间降低60%, 整个数据建模的效率得到了极大地提升。
下面这张图是一个来自美国的一家大型金融机构的测试报告:



从中国到美国,在超大体量数据的应用上,Kyligence Enterprise v4.0已经有了非常多的尝试。

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 20:47

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表