最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

TRS海贝大数据管理系统

[复制链接]
发表于 2014-12-22 21:32:16 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1. 大数据时代的挑战

越来越多的国内外互联网公司和传统企业都已意识到数据资产化和规模化带来的价值,低成本和高效率存储、处理、检索和分析PB乃至EB量级的数据成为极大挑战,向数据要价值使得几乎每个行业都面临着大数据问题。

开源hadoop大数据

一提到大数据技术,人们往往就把他等同于Hadoop。不可否认,以Hadoop为代表的一系列开源技术,成为大数据存储、处理和分析的主力军。但是类似Spark等新的大数据技术的出现,使得Hadoop已经不再一枝独秀,与此同时,大数据的技术生态环境在不断扩大和超越,大数据技术不等于Hadoop已经成为业界的共识。

互联网企业广泛使用开源软件,但开源软件直接用于企业的大数据处理有很多挑战和困难,其主要原因在于需求、服务、研发和运维体系完全不同,从需求的角度,企业应用中业务逻辑复杂、数据来源和种类多样性、单一的大数据解决方案无法满足企业复杂的业务需求,同时企业信息系统对安全和系统可靠性要求很高。从成本的角度,企业用户也不可能雇佣大批高水平的研发人员来研发和运维基于开源的大数据应用系统。标准化的、安全和可靠性极高、满足自身复杂业务需求的大数据技术和产品仍然是企业用户的首要选择。

驱动大数据分析和交互挖掘的利器:高性能检索引擎

检索引擎的功能和性能决定了大数据系统的响应能力和可用性,同时很多大数据分析和交互挖掘操作也依赖于底层的实时查询技术,因此在PB级数据规模、多源异构数据(结构化、半结构化、非结构化数据)的场景下,能够获得秒级甚至亚秒级响应成为一个大数据应用系统的关键指标,只有这样,才能保障复杂大数据的及时有效处理(规模大、变化快、种类杂、价值密度低)。

企业级大数据产品的核心特点:可靠性、安全性、易用性

企业应用对可靠性、安全性和易用性有着苛刻的要求,这些特点成为研发大数据产品的重要出发点。可靠性要考虑成本,安全性要考虑自主可控,易用性要提供应用级别的技术实现和高度抽象。




2. TRS海贝大数据管理系统的产品定位

企业级NoSQL

TRS海贝大数据管理系统(Hybase)是一款定位于大数据管理的企业级产品,其设计目标是让用户像管理数据库一样管理大数据。系统基于弹性扩展架构实现海量PB级数据的高性能存储和检索。它本质上属于大数据技术架构的NoSQL层,主要用于增强查询能力,实现大数据存贮、管理和检索的高度一体化,并提供企业级应用的可靠性、安全性和易用性。

企业级检索引擎

海贝借鉴了开源系统的先进理念,兼容Hadoop等开源系统,但是在架构上更加具有弹性,在可扩展性、可靠性、易用性和性能方面,超越了lucene、solrcloud和elasticsearch这些经典的开源检索架构和工具。

大数据管理集成平台

和一般Hadoop生态系统中的碎片化工具不同(数据仓库由NoSQL和检索引擎松散结合构建),TRS海贝大数 据管理系统提供了一体化的数据仓库构建手段:实现大数据存贮、管理和检索的集成平台,可以实现结构化数 据、半结构化数据、非结构化数据的统一管理和检索,满足了“非结构化数据的结构化处理、结构化数据的非 结构化处理”的技术趋势。海贝可以作为数据仓库构建“数据管理平台+数据分析+行业应用”的大数据整体解 决方案,服务于广大政府和企业用户。

Hybase在大数据技术架构中的定位



3. TRS海贝大数据管理系统的体系结构

TRS Hybase融合检索引擎(全文检索)、 多引擎机制、 分布式并行计算、 索引分片、多副本机制、对等节点机制(去中心化)、 新型列数据库存储机制、 自然语言处理等先进技术,设计新型的非结构化大数据管理系统(NoSQL),为各类非结构化大数据分析应用,提供非结构化大数据高效管理和智能检索的平台支撑。TRSHybase由服务器、管理台、开发接口三部分组成,系统支持PB级海量数据管理,支持系统的线性扩展,不存在单点故障或瓶颈,使得系统能够线性增长,每新增加一个节点能够同时增加系统的性能和存储容量。

Hybase体系架构图



4.TRS海贝大数据管理系统的功能特点


扁平化设计,弹性扩展

系统采取扁平化设计,节点之间完全对等,都可以对外提供服务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。

异常感知、自动恢复

大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。

柔性多引擎技术

大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服务,用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。

高效分区索引机制

可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。

多副本机制

一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。

混合索引方式

提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查全和查准的不同需求。

内存表与列存储

支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。

异步检索

支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题。

多层次、多粒度的分布式CACHE

系统既有单节点的检索缓存,又有合并后的整体检索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并发下的检索节点压力,从而大幅度提高系统在高并发情况下的数据检索能力。

可扩展的检索模式

同根词检索,算法和词典结合的英文词根检索,准确率达到99.9%。支持基于同义词、主题词的扩展检索。

兼容Hadoop标准

TRS Hybase和Hadoop无缝集成,可以充分利用HDFS的可靠性和扩展性,存储图像、音视频等大对象数据,以及Hybase系统的数据备份。




5.海贝和其他一些开源检索引擎软件的特点对比





6.海贝的索引和检索性能

测试案例一:

在一台标准工业服务器上,海贝的检索性能

PC服务器配置: CPU为4颗六核1.8GHz,硬盘为SSD,内存为128GB

测试数据: 7亿条记录,总计为3T

测试表明:每小时可以索引多达54GB的数据,在10、20、100、200、500并发下均能在秒级响应

测试案例二:

某部云搜索系统,测试数据为: 基础信息25亿条、活动信息81亿条,20个服务器节点,在50、100、200并发下均能实现秒级响应。

考虑到整个海贝的弹性架构,随着业务数据量和并发用户的增加,只要通过增加海贝的服务器节点数就可获得基本线性的增长。





7.应用案例

1. TRS大数据舆情分析平台

TRS大数据舆情分析平台是拓尔思公司建设的一个互联网大数据分析和服务平台,目前拥有数据量约300亿条记录,使用超过600台服务器,为超过300家机构客户提供舆情分析服务,每天新增的数据量约为1亿条,数据来源包括新闻网站、微博、微信公共账号、论坛等。该平台具有监测、展现、分析、预警、统计等诸多服务。针对政府、企业提供舆情监测、口碑监测、声誉监测、传播监测等全方位的服务。该平台多个环节采用Hybase构建,其中数据仓库采用了19个服务器节点的TRS 海贝大数据管理系统。

2.某部云搜索平台

某部云搜平台覆盖了某垂直领域国家、省、市三级业务数据资源,面向垂直领域业务建成统一的通用服务,通过丰富的平台功能和可定制的接口服务,实现系统内数据的有效共享,最大限度利用了数据资源,通过理解数据内涵,挖掘数据之间的关联关系,服务本领域主业务。系统包括基础信息、背景信息、活动轨迹信息等各类信息60多种,包括结构化、半结构化、非结构化数据,试运行时达132亿条信息,原始数据约30T,试运行期间每日实时更新约2000万条各类信息。

系统目前部署了33台X86服务器,其中Hybase数据库服务器23台,后台数据处理和日志审计10台。系统在200并发时1秒内响应。试运行期间系统日访问量约4万次,试运行以来总访问量约200万次,系统稳定可靠。系统支持对各类数据一键搜索、轨迹分析、关系分析,支撑了系统内部核心业务,提高了系统的工作效率。

3.某部队搜索系统

利用现有的数字资源,包括自建资源、购买资源(万方/维普等)、互联网资源等,构建为某部队系统内部服务的数字图书馆,实现综合灵活的快速检索服务。建设规模,1个总中心(20T)、4个分中心(每个2T);数据类型,WORD/PDF等为主;建设要求,内容抽取、文档内容检索、以及系统可以平滑扩展升级。

4.某专利智能检索和服务项目检索引擎原型系统

某专利智能检索和服务系统为了给客户提供更好的服务,进行检索引擎选型,采用TRS Hybase建设专利检索引擎原型系统,针对600万件中文专利、7000万件其他语种专利,使用5台高配置PC服务器成功搭建,在可扩展性、可靠性、易用性和性能方面,全面超越了lucene、solrcloud和elasticsearch这些经典的开源检索架构和工具。




8.运行环境和配置建议


TRS大数据管理系统的软硬件配置(日志等短数据应用场景)

其他应用和产品

以TRS海贝大数据管理系统为支撑,拓尔思还研发了机器日志挖掘引擎,大数据关联关系挖掘引擎等多款产品,配合TRS网络信息雷达,TRS数据处理工具(类似ETL),构成了完整的大数据解决方案。





楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 19:16

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表