最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[ES] Elasticsearch实战——全文检索架构设计

[复制链接]
跳转到指定楼层
楼主
发表于 2019-7-3 13:52:07 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1、题记
近几年,Elasticsearch(以下简称ES)作为开源的搜索引擎已经在国内得到越来越多的应用推广,在日志分析领域应用场景尤为广泛。传统的数据库Mysql、Oracle或者非关系型数据库Mongo作为基础存储的企业要想实现业务数据的全文检索,该如何实现呢?


本文给出架构设计和实现原理。


2、理清楚使用ES的初衷
2.1 大数据背景下数据量的积累与数据应用疲软矛盾一直存在。
大数据的风已经刮了几年,西安交大徐宗本院士也强调“推动大数据产业必须解决好定位、规划、切入点、数据标准、开发共享等问题,互联互通是基础、定制化服务是中心、懂数据会分析是关键”。可见,数据分析的重要性。


传统企业的数据存储存在以下问题:
问题1:由于模型受限,传统企业的数据大多存储在关系型数据库Mysql、Oracle,非结构化数据存储在Mongo中。数据量也能积累到TB甚至PB级。


只能进行结构化的检索类似”select * from table where col like ‘%xxx%’显然不能满足纷繁复杂的业务需求。


问题2:数据是死数据,数据的BI可视化展示需要专业团队开发,但不能得到很好的分析效果。


以上问题形成了数据量累计到一定的量,但数据得不到很好的应用分析之间的矛盾。


2.2 在保持基础数据库不动的同时,新增全文检索,更好、更快的从亿万数据中获取检索服务。
不想抛弃原有的数据存储结构,想在原有数据存储的基础上新增全文检索。


3、传统存储模型上的ES全文检索架构



3.1 采集层
解决数据源头问题。
业务模型的不同,有的数据是机器设备(软件、硬件)产生的,有的则需要自己开发爬虫(如:python的scrapy)进行互联网全网爬取或者定向网站爬取。


3.2 Mysql基础存储层
基础数据的存储。
定义好库表结构、关联关系、主键、外键结构来存储结构化数据。
或者非结构化数据,采用Mongo键值对的方式存储。


3.3 ES检索层
实现基础数据的同步。这里是关键,传统的业务模型会在Mysql基础层的基础上,开展业务数据分析通常是以下步骤:


步骤1:后台数据——库表分散的建立视图,对数据做分门别类的统计(基于order by, group by等操作)。


步骤2:前端可视化——通过 Angularjs 进行数据渲染,并通过百度的Echart模型进行可视化展示。


ES检索层的准备如下:
方式1.数据同步——基础业务数据由基础库Mysql、Oracle或Mongolia同步到ES中,大多需要借助logstash实现。


同步策略参见:http://blog.csdn.net/laoyang360/article/details/72792865
方式2.数据同步——数据存成json格式文件,然后借助阿里的fastjson解析,以bulk方式批量导入ES。


3.4 对外接口及可视化层
实现ES全文检索、Tag检索等对外服务、数据的分类统计、排序等可视化展示。
java接口可以参考jest实现。


可视化可以借助kibana实现。这里就体现出elkstack的优势,logstash完成基础数据同步,es完成数据存储和检索,kibana完成数据可视化。


4.架构小结
以上是我研究ES近一年时间的实战总结。其中,ES检索、kibana可视化的深入应用还有很长的路要走。
---------------------
作者:铭毅天下
来源:CSDN
原文:https://blog.csdn.net/laoyang360/article/details/74090398  

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-3 17:51

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表