马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
【作者简介】曾先后任职于巨人网络、顶新集团等公司,深耕于大数据平台架构和研发工作,多年底层集群以及OLAP引擎研发、分布式系统的优化经验,热衷开源,目前主要研究OLAP方向。
随着大数据、云计算、移动网络和物联网的不断发展和兴起,给各行各业注入了发展的新鲜血液,车联网作为物联网的分支在汽车领域也有着长足的发展。车联网大数据平台,通俗的说将汽车跑在互联网上,将车辆数据、车机数据、用户数据、厂商数据、业务数据、第三方数据等,利用设备传感器、埋点、外部数据导入集成等多种技术手段将各类数据收集起来,并储存到自建的数据中心或者云端数据平台中,并进行一定规则的清洗加工转换等逻辑处理,再结合多种业务需求和业务目标,进行汇总统计、BI、机器学习和算法分析等深入挖掘,提供丰富的数据服务,以更好的服务反馈给用户并辅助企业业务的发展、提高营业收入。
车联网大数据平台架构图 架构分解 1)、车辆数据 车辆数据包含发动机、离合器、电池、空调、车门车窗、车灯等汽车部件信号数据,还有汽车经纬度、加减速度、油量、电量、温度、汽车启动和停止等动态数据等等; 2)、车机数据 车机数据指音频、视频和导航系统,数据主要包括设备信息、经纬度、版本号、应用信息、电台节目信息等等。 3)、用户数据 用户数据指用户在车机上的操作数据,例如:行程导航信息、收听节目清单、收藏的兴趣点、应用使用信息等; 4)、厂商数据 厂商数据指车企及相关合作企业数据,例如:合作企业、电子眼、交通状况、地图、车辆保养、保险等信息; 5)、业务数据 业务数据指车辆制造信息、车辆销售信息、车辆维修信息、人车交互信息、人机交互信息等; 6)、第三方数据 第三方数据主要指社会公共数据资源及第三方数据服务,例如:地图服务、天气服务等。
针对上述数据源,车联网大数据平台提供相应的数据传输接入方式或工具: 1)、Flume(文件收集) Flume是Cloudera开发的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。数据源可定制、可扩展,数据存储系统可定制、可扩展。 Flume运行的核心是Agent,它是一个完整的数据收集工具,含有三个核心组件,分别是:Source、Channel、Sink。通过这些组件,Event可以从一个地方流向另一个地方。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。 2)、Kafka(消息收集) Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了同时搞定在线应用(消息)和离线应用(数据文件,日志)Kafka就出现了。Kafka可以起到两个作用:降低系统组网复杂度;降低编程复杂度,各个子系统不再是相互协商接口,各个子系统类似插口插在插座上,Kafka承担高速数据总线的作用。 3)、Sqoop(数据库数据) Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求: 业务数据存放在关系数据库中,如果数据量达到一定规模后需要对其进行分析或同统计,单纯使用关系数据库可能会成为瓶颈,这时可以将数据从业务数据库数据导入(import)到hadoop平台进行离线分析; 对大规模的数据在Hadoop平台上进行分析以后,可能需要将结果同步到关系数据库中作为业务的辅助数据,这时候需要将Hadoop平台分析后的数据导出(export)到关系数据库。 4)、SDK SDK(Software Development Kit,软件开发工具包)是开发工具的集合,是提供给开发人员进行应用程序开发的工具,开发人员可以直接使用相应功能,从而省去了编写相应功能代码的过程。 5)、APIs API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
车联网大数据的一个显著特点是数据是源源不断的,并且具有周期性。所以此类数据会随车载终端数量增多,系统部署规模的扩大会迅速积累增长,对数据存储与分析带来较大压力。对此,车联网大数据平台需在数据存储之前进行一些必要的预处理: 1)、解析 各类车辆数据都会有特定的存储格式,车联网大数据平台应提供一种统一多源异构工具,对所有接入的数据源进行归一化处理。 2)、过滤 针对解析后的数据值,车联网大数据平台应提供去重、降噪、筛选、清洗等工具将无效数据进行过滤,以达到节省存储空间的目的。 3)、预处理 此外,车联网大数据平台为数据分析提供预处理功能,以便提高后续数据分析的效率。预处理包括合并、分类、转换等操作。
大数据相对传统数据的差异点,相对传统数据,大数据在数据体量、增长速度、数据形式、价值上都有着显著的区别。 1)、当传统数据时代还是考虑数据的吞吐从G到T的时候,大数据早已跃升到了P以上的时代; 2)、相对增长稳定的传统数据,大数据在后续的万物互联时代正在以年增长率超过60%的速度快速膨胀; 3)、区别与以结构化数据为主的传统数据,图像、声音、文本等各种非结构化数据正在大量的填充着大数据的数据仓库; 4)、随着各地大数据交易中心的建立,大数据时代的数据资产化正在渐入佳境,数据价值快速提升。
车联网大数据平台的核心功能是将原始数据通过各种数据分析的手段转换成对用户有意义的信息。车联网大数据平台的数据分析包括: 1)、基础运算 针对各种数据类型,提供相应基础数据分析功能,例如求平均数、最值、变化率等。 2)、机器学习 车联网大数据平台应内置各种机器学习的算法,并为用户提供友好的客户端接口。 3)、实时分析 有些数据时效性较强,即需要被实时处理才能将原始数据转化为对用户有意义的信息或被用于支持一些即时决策。一旦处理不及时,这些数据所包含的信息量将大幅下降。车联网大数据平台可在数据预处理时提供实时数据处理.
用户画像 通过分析模型将用户各类行为,例如驾驶行为、消费行为、日常爱好行为等等因子辅以GPS信息、驾驶区域、行程路况、行程天气、驾乘习惯等其他因子构成精细的用户行为画像,结果可广泛用于潜客分析、用户行为分析、保险风险测量、信用评价、车型设计、道路规划等各个领域。通过收集、分析出众多的精确数字能够得出车联网用户画像,了解用户个人的行为习惯,并且通过个性化推荐系统为用户推荐各类适合的信息。如果将用户模型应用在批量用户管理平台,可以促进管理平台的效率提升和数字化运营、原来增强用户粘性。 AI智能生态 以车载OS为核心打通车辆基本数据、用户数据、云生态以及AI语音系统,为整个生态实现奠定强有力的基础。这里的云生态是指主机厂商云、数据服务商云、场景应用云这三方所组成的解决方案,进而构建全场景AI生态服务的能力。AI语音系统利用人工智能技术,主要解决人机语音交互问题,让系统听得懂车主复杂的语言、让系统在整个生态中可以不断自我学习、成长,能让整个汽车越来越聪明、越来越懂你,为车主提供贴心的定制服务并结合用户行程、实时路况、车辆情况、天气情况、美食、旅行习惯等众多车主使用习惯主动推送个性化服务。
作者:大奔 来源:智能网联与人工智能
|