最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

主流开源 BI 产品对比,你都熟悉吗?

[复制链接]
跳转到指定楼层
楼主
发表于 2020-12-10 20:27:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2020-12-10 20:54 编辑

现在市场上开源 BI 产品比较多,各个产品的侧重点不同,有的以报表为主、有的以可视化为主、有的以查询分析为主。这里我们选取了一些主流的开源 BI 产品,从产品功能、可视化能力、数据源支持以及使用文档等方面进行对比,希望对你有帮助。

Superset

由Airbnb贡献的轻量级BI产品,目前在GitHub上有3万多颗星,其受欢迎程度可见一斑。Superset提供了Dashboard和多维分析两大类功能,后者可以将制作的结果发布到Dashboard上也可以单独使用。

数据源方面,Superset支持CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch等27种数据源,并深度支持Druid。

Superset语义层建模(被称为Table)时只能基于单表,多表关联要事先逻辑化成视图再使用,这点有点别扭。在Table里要显示地将字段标记成可分组、可过滤,指定聚合方式(计数、求和等),页面在使用时需要选择Group by(并没有叫做维度)、Metrics和Filter进行查询。

Superset可以在多个时间维度上观察,商业分析中的很多问题都是与时间密切相关的。Superset 有 4 种专门针对时间序列的图表,使用这些图表时,你需要指定一个字段为时间维度,之后就可以对时间维度做丰富的操作。

Ø  从不同时间粒度去查看你关心的指标(小时/日/周/月/季度/年)

Ø  对时间序列做移动平均,比如看一个指标的 7 日平均线

Ø  可以对时间序列做偏移,再做对比,比如把本周的销售业绩与上周同期放在一张图表中对比

Ø  不在图表上显示指标的绝对值,而是显示它随着时间变化的增长速度

Superset还提供了直接使用SQL查询生成图表的方式(SQL Lab)来强化临时分析,方便数据分析师编写SQL查询数据。

Superset的可视化效果非常好,直接支持了几十种图形,从前面的截图中可以看到可视化效果很棒。重要的是,它还提供了图形扩展支持,通过开发插件还可以对接任意可视化库,如ECharts、AntV、HighCharts、VX和D3,这点对用户非常实用。

文档方面,Superset表现比较糟糕,写的过于简单,虽然在安装与快速入门方面提供了很完整的文档,但在具体功能的介绍方面文档严重缺失。就算有些功能有文档,文档的结构也很混乱,所以大部分功能只能自己去尝试。

Superset作为一个完整的BI系统,除了Dashboard和多维分析还包括调度和邮件报表,以及系统管理和权限控制等平台管理功能。综合来看,Superset作为大厂开源的BI产品还是非常值得一用。

Grafana

GitHub 上的星星数比 Superset 还多,之所以把它放在第二个来说是因为它的适用范围跟大多数 BI 产品不太一样,Grafana 主要用于对接时序数据库,分析展示监控数据。目前支持的数据源包括 InfluxDB、Elasticsearch、Graphite、Prometheus 等,同时也支持 MySQL、MSSQL、PG 等关系数据库。

每种数据源的查询语言和功能明显不同,Grafana 可以将来自多个数据源的数据组合到一个仪表板上,但每个面板都要绑定到属于特定组织的特定数据源。

话不多说,上张效果图感受一下可视化效果。

Grafana 为不同数据源提供了不同的编辑器,这样可以方便使用特定数据源的查询语法,很牛叉。有时经常拿 Grafana 跟 Kibana 对比,在数据源种类和查询支持上 Grafana 要丰富得多。

在可视化构建过程中,面板(Panel)是可视化基本模块。每个面板都提供一个查询编辑器(取决于面板中选择的数据源),通过使用查询编辑器,可以提取显示在面板上的完美可视化效果。有各种各样的样式和格式选项,面板可以在仪表板上拖放和重新排列,也可以调整大小。

Dashboard 是 Grafana 可视化最终展现形式,Dashboard(或特定面板)可以通过多种方式轻松共享。可以向登录的 Grafana 的人发送链接。可以使用快照功能将当前查看的所有数据编码为静态和交互式 JSON 文档。这比通过电子邮件发送屏幕截图要好得多。

值得一提的是,Grafana 的文档写的很棒,除了很详细外很多操作步骤都录成 GIF 放到文档中让人一目了然。

在实际业务中,什么情况下选择 Superset,什么情况下选择 Grafana 呢?

时间序列,日志与设备运行数据分析选 Grafana;企业生产经营数据分析则可以选 Superset。

Metabase

Metabase 目前在 GitHub 上受欢迎程度仅次于 Superset,Metabase 也是一个完整的 BI 平台,但在设计理念上与 Superset 大不相同。Metabase 非常注重非技术人员(如产品经理、市场运营人员)在使用这个工具时的体验,让他们能自由地探索数据,回答自己的问题。而在 Superset 里,非技术人员基本上只能看预先建好的 Dashboard,不懂 SQL 或是数据库结构的他们,很难自己去摸索。

Metabase 采用“问问题”的方式实现一步步数据探索,探索的结果可以保存并发布为 Dashboard。对于复杂问题还提供了 Native query 允许用户编写 SQL 或 native query。

数据源方面,Metabase 支持 Redshift、Druid、Google BigQuery、MongoDB、MySQL、PG 等 15 种数据源。

Metabase 社区版的文档写的简单到让你不知所措的地步,表现十分糟糕。好在这个产品使用起来不难(本身定位就是给业务用户使用的)。

Redash

如果说 Superset 和 Metabase 是构建一个 BI 平台,那 Redash 目标就是更纯粹地做好数据查询结果的可视化。Redash 支持很多种数据源,除了最常用的 SQL 数据库,也支持 MongoDB, Elasticsearch, Google Spreadsheet 甚至是一个 JSON 文件。目前 Redash 支持超过 35 种 SQL 和 NoSQL 数据源。

它不需要像 Superset 那样在创建图表前先定义表和指标,而是可以非常直观地将一个 SQL 查询的结果可视化,这使得它上手很简易。或者说 Redash 仅仅实现了 Superset 中 SQL Lab 的功能,但却把这个功能做到了极致。

Redash 有两个非常实用的功能,Query Snippet 与 Query Parameters。

Query Snippet 很好地解决了查询片段的复用问题。做数据报表时经常要用到十分复杂的 SQL 语句,这些语句中肯定有一些片段是可以在多个查询中复用的。在 Redash 中我们可以将这些片段定义成 Snippet,之后方便地复用。

Query Parameters 可以为查询添加可定制参数,让这个图表变得更灵活。比如一个移动应用的日活指标,我可能有时要按 iOS/Android 切分,有时要按地域切分,或是按新老用户切分。在 Superset 的 Dashboard 上要做三个表图。Redash 里我可以把查询的 groupby 做为一个参数,这样就可以在一张图上搞定。用的时候,运营人员可以在图表上方的一个下拉框里选择切分的方式,非常直观好用。

Redash 的 Dashboard 可以通过命名来进行分组,Dashboard 的名字可以有一个前缀并以冒号结尾,前缀相同的 Dashboard 就会自动被分为一组。例如“ Growth: Daily ”,“ Growth: Weekly ”这两个 Dashboard 都会被分到“ Growth ”组下。

Redash 在文档方面做得很好,除了快速入门教程以外,每一个功能模块都有文档且条理清晰。

当然 Redash 也有自己的不足之处,它的可视化种类比 Superset 逊色不少(不过其实也够用了)。另外,由于它只是纯粹地把数据查询结果可视化,所以也没有 Superset 里那些对时间维度上的聚合与对比的操作。

CBoard

国内由楚果主导的开源 BI 产品,分社区版和商业版。CBoard 提供了一个 BI 系统,包括 Dashboard、多维分析、任务调度等方面。

数据源方面支持 JDBC 数据源、ElasticSearch、文本文件(文本需要存放于 CBoard 应用服务器上面,读取本地文件)、Saiku2.x 等。

图形方面直接使用了 ECharts,多维分析和 Dashboard 功能中规中矩,可以满足大部分 BI 需求。

文档方面由于是国内开源的产品,中文文档对国内用户友好,但文档质量一般在使用过程中还需要不断摸索。

值得注意的是,CBoard 社区版和商业版功能差异较大,社区版有很多功能都不支持,使用前要认真评估。

BIRT

与前面提到的几个 BI 产品注重数据探索和可视化不同,BIRT 主要用于报表的开发与呈现,在可视化效果方面表现并不出彩,也不包含多维分析。

BIRT 是一个 Eclipse-based 开放源代码报表工具。BIRT 主要由两部分组成,一个是基于 Eclipse 的报表设计器和一个可以加到你应用服务的运行期组件。

BIRT 报表引擎以 JAR 文件方式打包,可以方便的添加到 J2EE 应用中。采用 Taglib 方式很容易在 JSP 页面上集成报表。

BIRT 的文档写的很差,可能跟产品诞生年代久远有关,目前社区也不太活跃,好在网上还可以查到很多资料。

如果你的需求是开发常规报表,那么 BIRT 绝对是一款可以尝试的工具。与 BIRT 类似的还有一款 JasperReports 工具,功能方面大同小异。

润乾报表

润乾报表是国内为数不多开源 BI 产品,虽然产品名称以报表命名,但实际已包含所有 BI 功能。从功能上来看,润乾报表可以约等于 Superset+BIRT,也就是提供了多维分析、Dashboard 和报表以及平台管理功能。

数据源方面,润乾报表除支持 MySQL、Oracle 等传统 RDBMS 外,还支持 MongoDB、Elasticsearch、Redis、Spark 以及 HDFS 等数据源。同时还可以直接使用 Excel、CSV、JSON 进行报表开发和数据分析。

在可视化方面,润乾报表表现并不十分显著,产品内置的 30 多种图形中规中矩。如果想使用效果更好的可视化图库可以通过润乾报表提供的第三方图形接口实现,引入图库文件后修改 JS 用于接收数据集数据即可完成。这跟 Superset 等扩展可视化图库的方式不太一样,没有繁琐的插件开发过程,简单方便。

润乾报表提供的多维分析功能与 Superset 类似,通过在页面上拖拽维度和指标进行数据查询,同时可以进行切片和旋转等操作。润乾报表允许用户直接基于文件分析,也可以编写 SQL 进行数据查询生成图表,同时为了保证性能还可以使用自有的私有存储格式。

在语义层建模中,润乾报表支持多表关联(JOIN)。特别地,在润乾报表中需要将维度显示制定成一个表,如果没有对应的表则需要建立虚拟表,这样做的好处是前端查询分析界面可以很方便地实现多表实时关联查询,而不必每次都必须基于一个(物理或逻辑)宽表。

可以通过多维分析拖拽图表来组织 Dashboard,根据指定(或自定义)布局生成,同时可以使用全局参数进行数据过滤分析。

润乾报表的另外一个优势是复杂报表的处理能力。

我们知道,国内的报表具备很强的本土特征,润乾报表最初是为实现复杂报表而设计的报表工具,是目前主流产品(含商业)中做的最早也是实现得最好的一个。

在这方面,无论使用上面提到的任意一款工具都无法很好满足。

润乾报表的定位跟 Redash 很像,都希望提供便捷的方式让用户迅速得到分析结果。同时也提供了一个轻量级的管理平台(报表中心)包括资源管理、权限控制以及邮件订阅等功能。

润乾报表提供了 BI 平台的同时也支持按模块集成,可以将产品中各个模块根据需要单独集成到已有的项目中,这对已有平台系统的用户非常方便。

需要注意的是,润乾报表并非所有功能都开源,目前开源的部分包括:多维分析前端界面、报表中心和 Dashboard。如果需要使用基础报表、多维分析服务器等部分则需要付费,不过价格并不高。

总结

最后做一下总结,拉个表格方便对比。

产品 \ 指标定位数据源支持程度可视化能力文档质量社区活跃度什么场景下选择该产品
SupersetBI 平台丰富很好注重可视化效果
GrafanaBI 平台一般监控与日志分析
MetabaseBI 平台一般很差业务人员探索数据
RedashBI 平台丰富快速数据查询与可视化
BIRT报表工具一般很差简单报表需求
CBoardBI 平台一般一般一般常规 BI 需求
润乾报表BI 平台 / 可集成组件丰富复杂报表 / 快速数据查询分析

国内 BI 项目以企业级应用解决方案为主,其需求重点落在多维分析式的自助报表、Dashboard 以及一些相关平台管理功能,对于多步骤探索式分析需求相对较少(这部分功能一般由桌面 BI 解决)。从这个角度上看,作为国内产品的润乾报表,对这些需求的适应性要更好,除了具备常规 BI 该有功能外,还可以处理本土的复杂报表,在选择开源 BI 的时候不妨一试。


补充:
1.
Kibana:
Kibana 是为 Elasticsearch设计的开源分析和可视化平台。通过和Elasticsearch 索引中的数据交互,实现高级的数据分析和可视化。主要用于用于实时监控和问题分析,应用场景主要基于ES使用。Elasticsearch在国内使用的相对还是可以,也是商业化运作比较成熟。
Kibana官方提供中文文档,相关资料比较齐全,定期有相关培训活动等。
2、Hue:
Hue是一个可快速开发和调试hadoop生态系统各种应用的一个基于浏览器的图形化用户接口,由cloudera公司运营,基于sql方式进行数据仓库或者数据库查询和分析。
Hue管理hadoop生态体系结构的所有组件,基于python web框架Django实现。管理的大数据组件包括:HDFS、HBase、Hive、Pig、Sqoop、Spark、Scala等等几乎所有常用的组件。
3、Tabix:
Tabix是ClickHouse Web 界面,基于ClickHouse进行数据分析和可视化,ClickHouse是俄罗斯最大的搜索引擎公司提供的一款数据库,用于数据分析。
由于ClickHouse本身的优秀和推广,国内这两年ClickHouse使用人数和关注度有一定增长,但是tabix在github数据一般。
4、国内宜信开源的Davinci
Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。
模块架构
设计理念
  • 围绕 View(数据视图)与 Widget(可视化组件)两个核心概念设计
    • View 是数据的结构化形态,一切逻辑/权限/服务等相关都是从 View 展开。
    • Widget 是数据的可视化形态,一切展示/交互/引导等都是从 Widget 展开。
    • 作为数据的两种不同形态,二者相辅相成,让用户拥有一致的体验和认识。
  • 强化集成定制能力和智能社交能力
    • 集成定制能力指无缝集成到三方系统,并提供强大的定制化能力,使其和三方系统融为一体。
    • 社交智能能力指共享优秀的数据可视化思想,激发用户对数据可视化表达能力和艺术美感的追求,同时也使 Davinci 更加智能的引导和提高用户的数据可视化能力。
    • 在数据可视化领域里,Davinci 重视基础的交互能力和多种多样的图表选择能力,同时更加重视集成定制能力和社交智能能力。

功能特点
  • 数据源
    • 支持多种 JDBC 数据源
    • 支持 CSV 数据文件上传
  • 数据模型
    • 支持友好 SQL 编辑器进行数据处理和转换
    • 支持自动和自定义数据模型设计和共享
  • 可视化组件
    • 支持基于数据模型拖拽智能生成可视化组件
    • 支持各种可视化组件样式配置
    • 支持自由分析能力
  • 数据门户
    • 支持基于可视化组件创建可视化仪表板
    • 支持可视化组件自动布局
    • 支持可视化组件全屏显示、本地控制器、高级过滤器、组件间联动、群控控制器可视组件
    • 支持可视化组件大数据量展示分页和滑块
    • 支持可视化组件 CSV 数据下载、公共分享授权分享以及可视化仪表板的公共分享和授权分享
    • 支持基于可视化仪表板创建数据门户
  • 数据大屏
    • 支持可视化组件自由布局
    • 支持图层、透明度设置、边框、背景色、对齐、标签等更丰富大屏美化功能
    • 支持多种屏幕自适应方式
  • 用户体系
    • 支持多租户用户体系
    • 支持每个用户自建一整套组织架构层级结构
    • 支持浅社交能力
  • 安全权限
    • 支持 LDAP 登录认证
    • 支持动态 Token 鉴权
    • 支持细粒度操作权限矩阵配置
    • 支持数据列权限、行权限
  • 集成能力
    • 支持安全 URL 嵌入式集成
    • 支持 JS 融入式集成
  • 多屏适应
    • 支持大屏、PC、Pad、手机移动端等多屏自适应

场景支持
  • 安全多样自助交互式报表
    一次配置即可实现可视组件高级过滤、高级控制、联动、钻取、下载、分享等,帮助业务人员快速完成对比、地理分析、分布、趋势以及聚类等分析和决策。
    自动布局的 Dashboard(仪表板),适用于大多数通过快速配置即可查看和分享的可视化报表。
    自由布局的 Display(大屏),适用于一些特定的、需要添加额外修饰元素的、长时间查看的场景,通常配置这类场景需要花一定的时间和精力,如“双11”大屏。
  • 实时运营监控
    实时观察运营状态,衔接各个环节流程,对比检测异常情况,处理关键环节问题。
    透视驱动与图表驱动两种图表配置模式,满足不同的应用场景需求。
  • 快速集成
    分享链接、IFRAME 或调用开发接口,方便快捷地集成到三方系统,并能够支撑二次开发与功能拓展,充分适应不同业务人员的个性化需求,快速打造属于自己的数据可视化平台。

5、Poli是由国人开发的开源BI可视化报表系统,遵守MIT开源协议。主要针对SQL关系型数据库,只要支持JDBC即可使用,包括PostgreSQL, Oracle, SQL Server, MySQL, Elasticsearch等。安装简单快捷,导入jar文件,再加上数据库文件即可运行。包含了用户管理的组件,可以配置三级不同权限的用户和用户组。
其他特性:
  • 报表一键分享功能
  • 报表列表新增以目录树方式显示
  • 过滤器允许设置默认值
  • 折线/柱/区域图允许修改图表间距
  • UI轻量化修改,更易用
  • 自带SQL编辑器和数据库对象查询,不需要构建ETL和数据管道,直接使用SQL来处理数据
  • 丰富灵活的样式和定制,支持自定义和拖拽组件定位
  • 交互式Ad Hoc报告支持使用动态SQL来联动过滤器和图片组件
  • 自动刷新,钻取查询,全屏显示,报表嵌入,图表调色盘和数据表导出等功能

综合来源:https://blog.csdn.net/terry_chengq/article/details/109155193https://zhuanlan.zhihu.com/p/98671296
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-27 03:34

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表