最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

量子计算、边缘计算、数据挖掘 前沿研究报告

[复制链接]
发表于 2019-3-18 10:06:10 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2019-3-18 10:07 编辑

摘要:详细介绍量子计算潜在的性业务影响和通过量子计算获得业务优势的五步路线图 。
量子计算已接近商业化阶段,有很大的潜力改变我们的世界。利用量子计算的独特能力来解决特定类型问题的早期采用者,有可能在建立新型业务模式方面实现突破。富有远见卓识的企业已经开始调整战略方向,为新兴的量子计算生态做好准备,成为“量子就绪型企业”这些具有前瞻性思维的企业正在探索用于解决复杂业务问题的用例和相关算法。
1.jpg
何为量子计算?
量子计算利用了自然科学中发现的量子力学定律,有潜力从根本上改变传统的信息处理方式。量子行为的两个特性,也就是叠加和纠缠,使量子计算机有能力解决目前的常规或传统机器无能为力的问题:
1、叠加。传统计算机使用的是只包含“1”或“0”的二进制位。而量子计算机则使用量子位,可以描述“1” “0”或者量子位的可能状态的任意组合称为“叠加”。因此,具有 n 个量子位的量子计算机通过这些量子位彼此叠加,形成了 2n 种可能性。这使量子计算机具有指数级数量的状态,因此能够比传统计算机更有效地解决一些特定类型的问题。
2、纠缠。在量子世界,甚至相距光年的两个量子位仍能以强相关的方式发挥作用。量子计算正是借助这种纠缠特性,利用量子位之间的相互依赖性破解问题。
量子的叠加和纠缠特性使量子计算机能够快速研究一系列可能性,以确定有助于推动业务价值的最佳答案。由于未来的量子计算机在计算某些问题时,速度要比传统计算机快上几个指数级(见下图)因此有望解决极为复杂的业务难题。尽管传统计算机存在局限性,但在可以预见的未来,量子计算机并不会完全取代它们的作用。相反,结合了量子与传统架构的混合型计算机有望浮出水面,将一部分难题“外包”给量子计算机。
比如说,要使传统计算机的理论计算能力翻一番, 需要将晶体管数量增加一倍。要使量子计算机的理论计算能力翻倍,只需为某些应用额外添加一个量子位即可。 未来的量子处理器可模拟咖啡因分子 — 传统计算机要想做到这一点,个头要比地球大上 10% 才行。近期内,量子计算机也许可以帮助设计一些新材料, 用于在将来创建更强大的量子计算机。
量子计算为运算加速的潜力远远超过传统计算机
量子计算有潜力彻底转变某些行业。例如,鉴于传统计算机无法精确求解方程,导致当前的计算化学方法严重依赖于近似值。而量子算法有望在更长的时间范围内进行准确的分子模拟,从而实现目前无法做到的精确建模。这有助于更快发现能够挽救生命的药物,并显著缩短药物周期。
量子优势迎来曙光
量子计算机能够解决传统计算机无能为力的一些业务问题 — 我们通常将这种能力称之为“量子优势”而实现这一优势的时刻离我们越来越近了。例如, “恒定深度”的量子电路已展现出远超传统电路的优势。下图说明了面向特定业务用例的量子优势。确切地说,由于面向特定用例的量子优势尚不明确,因此,有关未来五年内量子计算市场价值的预测也天差地别 — 从大约 5 亿美元到 290 亿美元不等。
量子用例的商业化
由于人们对这项新技术所能创造的商机充满期待,导致量子计算生态呈现出加速发展态势。初创企业不断涌现,研究机构与技术商之间的合作层出不穷,大家都在希望将量子研究成果为商用能力。量子计算机的科技公司已经开始与企业合作,以确定潜在用例,量子算法,并在真正的量子计算机上解决方案。随着量子技术的商业合作如雨后春笋般不断涌现,第一批量子商业应用指日可待。
为企业选择合适的量子计算机
量子计算机各不相同,解决的问题也各有偏重。从限制最多的类型到最通用的类型,量子计算机主要分为三类:量子退火、嘈杂中型量子(NISQ) 计算,以及容错型通用量子计算。
科学界普遍认为,相较于传统计算,量子退火法的提速效果并没有多么明显。此外,量子退火计算机最终也无法发展成为容错型通用量子计算机。 因此,量子退火计算机不能算作真正的量子计算机。
在短期内, NISQ 计算机最有可能创造业务优势,并且业界已针对这种计算机调整了许多新的算法。此外,随着 NISQ 计算机不断扩展,它们正朝着量子计算的终极目标迈进 — 成为容错型通用量子计算机,能够处理重要的商业和科学问题,而且计算速度通常比传统计算机有指数级的提高。
1、量子计算机具有转变行业价值链的潜力,特别是在化学、生物、医疗保健、材料科学、金融和人工智能 (AI) 等领域。
2、 由于量子计算的学习难度非常大,因此, “快速跟随”的方法不仅花费巨大,而且只会被先行者越拉越远。
3、 建立内部“量子能力中心”需要一定时间。
量子计算机具有转变行业价值链的潜力 。量子计算机有潜力解决传统计算机无能为力的超级复杂的问题,因此有望转变整个行业的面貌。未来的量子计算机有能力在化学、生物、医疗保健、金融、人工智能和材料科学等领域实现产品突破,帮助富有战略眼光、采用量子计算的企业快速抢占市场份额,提高盈利能力。因此,量子计算的问题解决能力能够彻底重新定义竞争优势,转变企业模式和价值链,最终彻底颠覆整个行业。
例如,物流的优化通常基于“中心辐射”型网络模型。要在大规模物流网络中,设计一条能够满足各种不同需求的点到点最优路线,是非常复杂的问题,完全超出传统超级计算机的能力范围。即使对于只有几百个集散地的物流网络,要逐一探索所有的可能性,传统计算机也要花上数十亿年的时间。而量子计算有能力显著缩短这种探索所需的时间。
再例如,为了优化航空公司的调度工作,量子计算可以创建专为在特定日期飞往数百个目的地的数千名乘客而量身定制的每日航班时刻表,从而帮助旅客缩短旅行时间、避免空中交通拥堵并降低航空燃油成本。如果企业能为物流网络设计优化工作量子解决方案,那么,在物流作为关键成功因素的所有行业,这样的企业都能够迅速成为市场领导者。
“快速跟随”的方法不仅花费巨大,而且只会被先行者越拉越远量子计算不同于线性或渐进式的技术进步, “快速跟随”的方法不太可能奏效。原因有以下几点:
1、量子计算的学习难度非常大。
2、与“追赶”领先者相关的成本过高 。
可以考虑以下用例:通过量子计算机为电子或运输行业设计比现有物质更轻、更强韧的专用材料,而且与传统计算机相比,解决问题的速度呈指数级提升(见上图)这种性材料的加速发展可以帮助制造商在短时间把竞争对手远远甩在身后。
借助量子技术成功上位的新晋市场领导者以既有知识为基础,学习难度相对较低,因此能够更上一层楼,进一步优化其突破性的材料,以及发现专为其他应用领域量身定制的新材料,不断扩大与竞争对手的差距。虽然只是假设,但这个示例却生动说明了由于存在巨大的学习难度,使得所谓的“快速追随者”极难赶上先行企业,从而可能导致某些行业出现“赢者通吃”的情景。即便对于特定用例,快速追随者有可能追上先行企业,也需为此付出高昂的代价,例如,培养内部专业知识,采购最合适的基础设施,投资与实力派企业建立合作关系和/或收购具有相关能力的企业等。
建立内部“量子能力中心”需要一定时间。尽管大多数企业现在都听说过量子计算,但他们中有许多都因缺乏相关人才和专业知识而无法充分利用即将到来的业务转型的优势,而且获得量子计算技术也并非易事。量子计算的人才供不应求,高技能资源更是炙手可热。
即使招聘到了合适的人才,也可能需要数年时间才能深入了解量子计算对特定业务的潜在影响。 最近发生的技术转变,例如,为加速处理大数据工作负载而迁移到图形处理器 (GPU) 的过程花了近十年时间,使得我们深深了解到,为采用新技术而培养专业能力是一个漫长的过程。鉴于量子计算有潜力彻底转变行业, 能够以指数级提升解决问题的速度,再加上量子领域的专业人才难以获得,因此,领先的企业应考虑立即采取行动。
把握量子优势,助推企业前进
量子计算的商业化对贵公司意味着什么?从中短期看,量子计算可在以下三个方面带来商业利益:量子模拟、量子优化和量子辅助机器学习。
NISQ 量子计算的预期用途
量子优化。解决优化问题需要从可能存在的诸多答案中找到最佳或“最优”的解决方案。我们以制定包裹投递时间表为例。从数学上讲,在相邻时段安排10 次包裹投递可能有超过 360 万种选项。 9但是,根据收件人的时间要求、可能产生的延误以及所运货物的保质期等变量,哪个时间表才是最佳解决方案呢?即使应用近似值技术,可能的选项对传统计算机而言仍然太多而无法处理。
因此,目前的传统计算机采用大量的快捷方式来解决大规模的优化问题。遗憾的是,这些解决方案往往并不理想。可受益于量子优化的企业包括: 希望升级网络基础设施的电信公司;希望优化患者治疗效果的医疗服务方;希望改善空中交通管制的政府机构;希望定制营销推荐的消费品和零售企业;希望加强风险优化的金融服务公司;希望制定员工工作时间表的企业;希望安排课程的大学院校 。
虽然还没有数学方法可以证明量子计算能够以指数级提升优化问题的解决速度,但研究人员正努力通过启发式方式来证明这一点。富有远见的企业已开始探索如何利用量子计算来解决优化问题,以期超越竞争对手。一旦量子优势在解决优化问题方面的能力得到确认,这些企业的远见卓识便会给他们带来切实的回报 。
量子增强型人工智能。量子计算可以探索传统计算机无法处理的海量可能性,因此有助于提升人工智能的熟练度。事实上,人工智能与量子计算之间的共生关系已开始在这两个领域实现良性循环。例如,量子算法可增强机器学习在数据聚类领域的能力,而机器学习则可用于更好地理解量子。
基于量子的认知计算机最终能够渗透到几乎所有行业,主动为专业人士高级决策支持;为员工针对性的响应式培训;为客户专门定制的自适应式供应商关系。
通过五项战略迎接量子的未来
通往量子未来之路
1. 选择量子精英团队
贵公司可能需要进一步了解量子计算的预期收益。以下是入门方法:1、将企业内的一些领军专业人才指定为“量子精英”2、为这些“量子精英”充电,帮助他们了解何为量子计算、对行业的潜在影响、竞争对手的应对方式以及贵公司的业务如何从中受益。3、 要求“量子精英”定期向高层领导汇报工作,以便在整个企业中开展量子计算教育,确保该计划始终与战略目标保持一致。
2. 开始确定量子计算用例和相关价值主张
待量子精英团队了解了量子计算的原理及其如何助您应对业务和把握机遇之后,让他们开始确定贵公司可在哪些领域借助量子计算领先竞争对手。
根据量子的独特能力及其加速解决问题的优势来评估机遇。要求量子精英团队监控量子应用的进展,确定哪些用例可以更快地实现商业化。为确保量子探索与业务成果紧密在一起,请选择前景最光明的量子计算应用,例如创建突破性产品和服务或者以全新方式优化供应链。
3.试用真正的量子
通过试用真正的量子计算机,揭开量子计算的神秘面纱。要求量子精英团队了解量子计算如何解决业务问题,以及如何与现有工具互动。单一量子解决方案并不能“包治百病”量子精英团队应专注于解决传统计算机无法有效解决的最高优先级用例。
4.绘制量子路线图
绘制量子计算路线图,包括可行的后续步骤,目的是解决可能会对企业参与竞争以及获得可持续业务优势产生巨大阻碍的问题。为了加速备战量子计算,应考虑加入新出现的量子社区。这样能够帮助您更好地接触了解技术基础架构、不断发展的行业应用,以及有助于增强特定量子应用能力的研究人员。
5.灵活敏捷地应对未来量子格局的变化
量子计算在迅速发展。应寻找有望成为行业标准并且推动生态整合的技术和工具包。应认识到,新的技术突破可能会促使企业调整量子方法,包括更换生态合作伙伴。应留意企业的量子计算需求如何与时俱进,特别是当您进一步深入地了解哪些业务问题可从量子计算解决方案中获得最大收益之后。
在信息时代,量子计算技术一旦突破,掌握这种能力的国家,会在经济、军事、科研、安全等领域迅速建立全方位优势。所以,世界各国都在启动巨资积极投入研发量子计算技术。随着技术的快速发展,现在我们已经处在了量子计算机即将商业化的时间节点,量子计算不仅是国家战略,相关企业若能提早布局规划量子计算技术,未来注定能在“量子霸权”时代赢得先机,脱颖而出。
看点:边缘计算市场规模将超万亿,与云计算平分秋色。
随着5G时代的日益临近,实时、智能、安全、隐私这四大趋势催生了边缘计算与端智能的崛起。5G通信的超低时延与超高可靠要求,使得边缘计算成为必然选择。
据预测,全球物联网终端设备安装数量有望在2019年达到256亿台,2020年将有超过500亿的终端与设备联网,边缘计算市场规模将超万亿,成为与云计算平分秋色的新兴市场。
一、边缘计算,5G时代的万亿市场
边缘计算(Edge Computing)是在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的分布式开放平台,就近边缘智能服务。
从边缘计算联盟(ECC)提出的模型架构来看,边缘计算主要由基础计算能力与相应的数据通信单元两大部分所构成。
参考数据,全球物联网终端设备安装数量有望在2019年达到256亿台,年复合增速高达21%。
国内物联网市场的增速更高,据预测,2020年我国物联网市场规模有望达到18300亿元,年复合增速高达25%。
与此同时,5G通信的超低时延与超高可靠要求,使得边缘计算成为必然选择。在5G移动领域,移动边缘计算是ICT融合的大势所趋,是5G网络重构的重要一环。
据表示,到2020年,将有超过500亿的终端与设备联网,而有50%的物联网网络将面临网络带宽的限制,40%的数据需要在网络边缘分析、处理与储存。
因此,边缘计算市场规模将超万亿,成为与云计算平分秋色的新兴市场。
二、5G时代“边云协同”市场迎来巨大增量
虽然云计算中心具有强大的处理性能,但是边缘计算不仅能够克服云计算网络带宽与计算吞吐量的性能瓶颈,还能够更实时地处理终端设备的海量“小数据”并在保证终端的数据安全。
因此,在有了云计算的同时,边缘计算市场潜力依旧巨大。5G时代,将会是一个“边+云”的“边云协同”时代,边缘计算与云计算各有所长、协调配合。
作为5G商用的元年,国内的三大商无疑都在加紧部署5G基础设施,这其中就包括大量的基站设备。
但由于5G基站的密度大于传统的4G基站,这也就意味着更大量的基础设施投入。
因此,5G基站背后的市场不仅将迎来爆发性需求增长,其产品升级也是势在必行的。
这一潜在的巨大市场需求也正是浪潮、曙光、华为等一系列设备制造商不遗余力推动OTII标准迅速落地。
OTII,Open Telecom IT Infrastructure,开放电信IT基础设施,是ODCC组织下发展的一个针对通讯类企业的规格。它不仅与交换机等设备规格相同,并且很容易部署在基站附近的设备机架上,而且具备更好的耐热、耐腐蚀、抗潮湿特性。
与通用相比,边缘计算面向5G和边缘计算等场景进行针对性定制,能耗更低、温度适应性更宽、运维更加方便。
2017年6月,中国移动与中国电信、中国联通、英特尔、浪潮等公司共同发布《OITT定制参考设计和行动计划书》形成商行业面向电信应用的深度定制、开放标准、统一规范的技术方案及原型产品。
三、5G MEC近在咫尺,通信光模块市场受益最大
1、吸取4G教训、全球统一标准
在4G网络标准制定中,由于并没有考虑把边缘计算功能纳入其中,导致出现大量“非标”方案,商在实际部署时“异厂家设备不兼容”网络互相割裂等,常常需要进行定制化的、特定的解决方案设计,不仅提高了商成本,还造成网络架构不能满足低时延、高带宽、本地化等需求。
为了解决4G痛点,早在5G研究初期,MEC(多接入边缘计算,Multi-Acess Edge Computing)与NFV和SDN一同被标准组织5G PPP认同为5G网络重构的一部分。2014年ETSI(欧洲电信标准协会)就成立了MECISG(边缘计算特别小组)
在2018年,3GPP的第一个5G标准R-15已经冻结。3GPP SA2在R15中定义了5G架构和边缘计算应用,其中核心网部分功能下沉部署到网络边缘,RAN架构也将发生较大改变。
2、光模块是5G物理层基础单元,受益巨大
光模块是5G网络物理层的基础构成单元,广泛应用于无线及传输设备,其成本在设备中的占比不断增高,部分设备中甚至超过50~70%,是5G低成本、广覆盖的关键要素。
从2G~4G,光模块技术迅速迭代,逐步向高速率发展。
2000年初,2G、2.5G基站从铜缆向光纤光缆切换,光模块从1.25GSFP向2.5GSFP模块发展。2008~2009年3G基站光模块速率跃升至6G。
标准组织3GPP提出新的5G接口标准eCPRI,如果采用eCPRI接口,前传接口带宽至少需要25G光模块,但前传25G和100G都会并存,以应对5G三大应用场景的需求。
另外,5G光芯片也将从6G/10G升级到25G的芯片模组,光模块产业链市场规模显著变大。随着速率的提高,光模块制造工艺门口大幅提升,产品附加值将较4G有所提高,有利于具有深厚储备的光模块公司。
5G作为十年一遇的迭代升级,将是信行业下一个爆发机会。
3、三大商积极布局5G MEC
5G时代,商将会采用通用数据中心云化的组网方式,以区域、本地和边缘三层的数据中心为基础,来构建整个云化网络。同时,5G边缘计算促进采集、控制类业务将会带来新的2B业务增量,包括精密工控、远程医疗、车联网等。
对于商,5G MEC的部署价值巨大。
目前,中国联通是三大商中规划最明确的,中国联通提出MEC边缘云演进路标主要分四个阶段,计划在2025年实现100%云化部署。
而从2014年ETSI成立MECISG开始,中国移动就积极跟踪并加入。2017年中国移动发布MEC白皮书。目前,中国移动已经在10省20多个地市现网开展多种MEC应用试点。同时中国移动要将MEC预制到5G中,为此将从标准、技术、产业等方面发力。
中国电信认为工业互联网是MEC的重要场景,5G MEC是商切入工业互联网的重要技术手段。目前,中国电信进行了一些MEC的探索,例如打造边缘计算开放平台ECOP,构建边缘云网融合的网络服务平台及应用使能环境,推进边缘业务应用创新发展。
4、云数据中心资本开支持续增长
为了应对大工作负载和低延迟需求,云数据中心正在迁移到“叶脊”架构。
传统大型云数据中心网络架构为三层网络,主要采用纵向的传输方式。伴随着虚拟化、云计算、超融合等应用,使得东西向数据流成为主要流量。
原有的结构难以应对日益增长的需求,因而“叶脊”拓扑结构开始成为主流,这种结构在传统纵向传输的基础上增加对横向传输的支撑。
叶脊架构所需要的高端光模块数量10倍于传统三层架构。带来100G高速率光模块市场容量大幅增加。
根据统计,云数据中心内网络设备投资占整个云数据中心ICT投资的32%,仅次于投资,光模块是网络设备间通信重要组成部分。
2019年200G和400G模块有望放量。40G~200G光模块市场规模将从2017年的79亿美元增长到2020年的139亿美元。
同时,数通100G光模块市场规模也将从2017年34亿美元增长到2020年75亿美元,复合增速达到30%。
四、边缘计算典型应用场景
5G时代将迎来一大批新兴应用场景,如自动驾驶、安防前端智能化、工业控制、远程操控(如医疗手术等)等。它们由于需要低于10ms的网络时延,因此边缘计算的发展最迫切,也最需要。
1、自动驾驶:车载平台算力需求在20T以上
随着汽车自动驾驶程度的提高,汽车自身所产生的数据将越来越庞大。
据测算,假设一辆自动驾驶汽车配臵了GPS、摄像头、雷达和激光雷达等传感器,则上述一辆自动驾驶汽车每天将产生约4000GB待处理的传感器数据。不夸张的讲,自动驾驶就是“四个轮子上的数据中心”
高等级自动驾驶的本质是AI计算问题,车载边缘计算平台的计算力需求至少在20T以上。
从最终实现功能来看,边缘计算平台在自动驾驶中主要负责解决两个主要的问题。
1处理输入的信号雷达、激光雷达、摄像头等
2做出决策判断、给出控制信号。
2、安防:国内智能前端市场有望突破1500亿
安防产业智能化升级是行业发展的大趋势,前段智能不仅能够为后端高质量、初步结构化的图像数据,还能极大地节省带宽和后端计算资源。后端智能化产品的核心功能则是利用计算能力对数据进行结构化分析。
从产业调研结果来看,2018年以来,主流深度学习摄像头芯片开始成熟量产,有效解决目前限制前端智能摄像头放量的计算芯片瓶颈。
按照2021年智能摄像头渗透率达到45%测算,预计国内智能安防前端硬件产品空间在2021年预计将超过1500亿元。
3、低时延工业级应用:机器人、自动化、无人机
这些行业市场包括运输、物流、能源/公共设施监测、金融、医疗和农业。实现工业国产自动化、无线化和智能化,典型场景包括监控、机器人控制、自动安防等。
1机器人控制:同步实时协作机器人要求小于1毫秒的网络延迟。到2025年,预计全球状态监测连接将上升到8800万,全球工业机器人的出货量也将从36万台增加到105万台。
2馈线自动化:当通信网络的延迟小于10ms时,馈线自动化可以在100ms内隔离故障区域,这将大幅度降低发电厂的能源浪费。参考华为5G白皮书,从2022年到2026年,预计5GIIoT的平均年复合增长率CAGR将达到464%。
3监控和无人机巡检:配备无人机进行基础设施、电力线和环境的密集巡检是一项新兴业务,LiDAR扫描所产生巨大的实时数据量将需要>200Mbps的传输带宽。ABI Research的估计,小型无人机市场将从2016年的53亿美元迅速增长到2026年的339亿美元,包括来自软件、硬件、服务和应用服务的收入。
4、VR/AR游戏:实时反馈让云VR/AR成为可能
现阶段VR游戏体验不佳,本地重度游戏为主,设备典型盘根错节,用户容易绊倒;联网游戏时延至容易高达50ms,导致用户眩晕问题。
未来5G设备实现直接边缘云端访问,VR/AR时延问题解决:实时CG类云渲染VR/AR需要低于5ms的网络时延和高达100Mbps至9.4Gbps的大带宽。同时,5G可以支持多用户近距离连线。
云VR/AR将大大降低设备成本,从而人人都能负担得起的价格。5G将显著改善这些云服务的访问速度云市场以18%的速度快速增长。
5、云:远程医疗、4K/8K高清
远程医疗依赖5G网络的低延迟和高QoS保障特性,例如无线内窥镜和超声波这样的远程诊断依赖于设备终端和患者之间的交互。力反馈的敏感性决定低延迟网络才能满足要求。
其它应用场景包括医疗机器人和医疗认知计算,这些应用对连接提出了不间断保障的要求(如生物遥测,基于VR的医疗培训,救护车无人机,生物信息的实时数据传输等)
ABI Research预测,智慧医疗市场的投资预计将在2025年将超过2300亿美元,智慧医疗市场将在2025年超过2300亿美元。
同时,5G的高速率特性将是用户不仅能观看当下各类内容,还将随时随地体验4K以上的超高清。
参考英特尔的《5G娱乐经济报告》预计未来10年内5G用户的月平均流量将有望增长7倍,而其中90%将被消耗,预计到2028年,仅凭消费者在、音乐和游戏上的支出就会增加近一倍,全球总体量将达到近1500亿美元。
由于数据量大、实时性需求高、数据隐私保护等问题,海量的物联网设备对边缘计算有着大量需求。随着5G与AI芯片的崛起,边缘计算已经越来越成为当下最热门的话题之一,受到创投、设备、芯片等厂商的追捧。
如今线上的流量入口日益减少,并且价格高昂。未来人工智能的流量入口将分布在大大小小的比边缘设备上,包括手机、摄像头、传感器、机器人等。端智能将会涵盖我们生活中的方方面面,而这其中的很多领域巨头都没有完全覆盖,是无数中小创企的绝佳机会。
看点:AI时代,不懂点数据挖掘怎么掘金?
数据挖掘(Data Mining)是一门跨学科的计算机科学分支,它用人工智能、机器学习、统计学和数据库的交叉方法,在大规模数据中发现隐含模式,在零售、物流、旅游等行业有着广泛应用场景。
一、数据挖掘与KDD
数据挖掘(Data Mining)是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的数据和信息,并将其为计算机可处理的结构化表示。
目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等,用于描述对象内涵、概括对象特征、发现数据规律、检测异常数据等。
一般来说,数据挖掘过程有五个步骤:确定挖掘目的、数据准备、进行数据挖掘、结果分析、知识的同化。
数据挖掘过程基本步骤
1、确定挖掘目的
认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。
2、数据准备
数据准备又分为三个阶段:
1数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
2数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。
3数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
3、进行数据挖掘
对得到的经过转换的数据进行挖掘。
4、结果分析
解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。
5、知识的同化
将分析所得到的知识集成到所要应用的地方去。
数据挖掘的分类表
如上图所示,数据挖掘有多种分类方式,可以按照挖掘的数据库类型、挖掘的知识类型、挖掘所用的技术类型进行分类。
同时,数据挖掘也可以按照行业应用来进行分类,比如生物医学、交通、金融等行业都有其独特的数据挖掘方法,不能做到用同一个数据挖掘技术应用到各个行业领域。
数据挖掘是知识发现(KDD)的一个关键步骤。1989年8月,Gregory I. Piatetsky- Shapiro等人在美国底特律的国际人工智能联合会议(IJCAI)上召开了一个专题讨论会(workshop)首次提出了知识发现(Knowledge Discovery in Database,KDD)这一概念。
数据挖掘是知识发现的过程之一
KDD涉及数据库、机器学习、统计学、模式识别、数据可视化、高性能计算、知识获取、神经网络、信息检索等众多学科和技术的集成,再后来的30年间KDD逐渐形成了一个独立、蓬勃发展的交叉研究领域。
早期比较有影响力的发现算法有:IBM的Rakesh Agrawal的关联算法、UIUC大学韩家炜(Jiawei Han)教授等人的FP Tree算法、澳大利亚的John Ross Quinlan教授的分类算法、密西根州立大学Erick Goodman的遗传算法等等。
国际知识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,简称SIGKDD)是数据挖掘领域的顶级国际会议,由ACM的数据挖掘及知识发现专委会负责协调筹办,会议内容涵盖数据挖掘的基础理论、算法和实际应用。
二、数据挖掘源于商业的直接需求
数据挖掘技术从一开始就是面向应用的,源于商业的直接需求。目前数据挖掘在零售、旅游、物流、医学等领域都有所应用,可以大大提高行业效率和行业质量。
举个例子,零售是数据挖掘的主要应用领域之一。这是因为由于条形码技术的发展使得前端收款机可以收集大量售货、顾客购买历史记录、货物进出状况、消费与服务记录等数据。
数据挖掘技术有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更高的顾客保持力和满意程度,减少零售业成本。
同时,同一顾客在不同时期购买的商品数据可以分组为序列,序列模式挖掘可用于分析顾客的消费或忠诚度的变化,据此对价格和商品的花样加以调整和,以便留住老客户,吸引新客户。
截止到2017年12月,新郎已拥有接近4亿活跃用户,内容存量超千亿,“大V”的一举一动和社会热点话题都会引起大量的评论与,掀起一股“数据风暴”
柯洁乌镇大战AlphaGo撼负后的热议
上每个用户的言论、内容等都蕴藏着用户个人的兴趣、话题等信息,文字内容本身的智能分析理解也是数据分析领域长久以来孜孜不倦追求的目标。
社会网络中的聚类被称为社区发现,许多精心设计的高效算法可以很好地处理上亿用户的大规模网络。
此外,数据挖掘在旅游、物流、医学等领域都有着广泛的应用场景。比如数据挖掘可以对旅游客流的趋向有着准确的预知性,同时对于游客的喜好也有着直接性的掌握;从医学数据中寻找潜在的关系或规律,可以获得对病人进行诊断、治疗的有效知识,增加对疾病预测的准确性等。
三、人工智能与数据挖掘
数据挖掘从一个新的视角将数据库技术、统计学、机器学习、信息检索技术、数据可视化和模式识别与人工智能等领域有机结合起来,它组合了各个领域的优点,因而能从数据中挖掘到运用其他传统方法不能发现的有用知识。
一般来说,统计特征只能反映数据的极少量信息。简单的统计分析可以帮助我们了解数据,如果希望对大数据进行逐个地、更深层次地探索,总结出规律和模型,则需要更加智能的基于机器学习的数据分析方法。
所谓“机器学习”是基于数据本身的,自动构建解决问题的规则与方法。数据挖掘中既可以用到非学习方法,也可以用到学习方法。
1、非学习
非学习是建立在所有数据的,即所属的类别都是未知的情况下使用的分类方法。对于特定的一组数据,不知道这些数据应该分为哪几类,也不知道这些类别本来应该有怎样的特征,只知道每个数据的特征向量。若按它们的相关程度分成很多类,最先想到的想法就是认为特征空间中距离较近的向量之间也较为相关,倘若一个元素只和其中某些元素比较接近,和另一些元素则相距较远。
这时候,我们就希望每一个类有一个“中心”“中心”也是特征向量空间中的向量,是所有那一类的元素在向量空间上的重心,即他的每一维为所有包含在这一类中的元素的那一维的平均值。如果每一类都有这么一个“中心”那么我们在分类数据时,只需要看他离哪个“中心”的距离最近,就将他分到该类即可,这也就是K-means算法的思路。
K-means算法,在1957年由Stuart Lloyd在贝尔实验室提出,最初用于解决连续的图区域划分问题,1982年正式发表。1965年,E.W.Forgy发明了Lloyd-Forgy or。James MacQueen在1967年将其命名为K-means算法。
上图是以随机生成的数据点为例,k=3的K-means算法的迭代过程,其中五角星为聚类中心,点的颜色是其类别。在实际应用中,为了获得一个比较好的特征空间,使得“数据之间的相似性与他们在特征空间上的距离有关,距离越近越相似”这句话尽可能成立,我们往往会构建模型来把原数据变换到这么一个特征空间,使用K-means算法来进行分类。
2、学习
不同于非学习,若已知一些数据上的真实分类情况,现在要对新的未知的数据进行分类。这时候利用已知的分类信息,可以得到一些更精确的分类方法,这些就是学习方法。
1决策树模型
所谓决策树,即是一种根据条件来进行判断的逻辑框架。其中,判断的条件,即提出有区分性的问题,以及对于不同的回答下一步的反映,以及最终的决策给出。
决策树算法:
1.选取包含所有数据的全集为算法的初始集合A0:
2.对于当前的集合A,计算所有可能的“问题”在训练集上的F(A,D)
3.选择F(A,D)最大的“问题”对数据进行提问,将当前的集合由“问题”的不同回答,划分为数个子集。
4.对每个子集,重复b、c,直到所有子集内所有元素的类别相同。
5.在实际应用中,数据往往有很多特征,因此,“问题”往往是选取数据的某一特征,而“回答”则是此特征对应的值。
在决策树中,效度函数F(A,D)的选择非常重要。决策树的发展历史,也基本是围绕着F(A,D)的优化而展开。
2kNN算法
只知道每个数据在特征空间下的特征向量情况下,可以对数据采用无分类方法K-means。如果我们拥有了其中一部分数据的,我们就可以利用这些进行kNN分类。
数据之间的相似性与他们在特征空间上的距离有关。距离越近越相似,越可能拥有相同的。
假设我们已经有了很多既知道特征向量也知道具体的数据对于新的只知道特征向量却不知道具体的数据,我们可以选取离这个特征向量最近的k个已经知道的数据,选取他们中间最多的元素所属于的那个,作为新数据的预测。也可以根据他们与新数据的特征向量之间的距离加权(如最近得5分,第二近得4分等)取权重总和最大的作为预测。
kNN算法不需要构建模型或者训练,和K-means算法一样,往往是和某个构建特征空间的模型一起使用。
此外,还有回归分类、神经网络、朴素贝叶斯分类等等。
四、巨头们的数据挖掘之路
在当下,数据挖掘也逐渐成为当下的热门研究领域之一,受到了谷歌、亚马逊、微软、百度、阿里、等科技巨头的追捧。
1、谷歌
谷歌几乎每年都会发表一些让人惊艳的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。数据挖掘是谷歌研究的一个重点领域。
2018年谷歌全球不同研究中心在数据挖掘顶级国际会议KDD上一共发表了7篇文章。
2、亚马逊
亚马逊公司近几年发展势头超级猛,前几年华丽的转身:从一个网上商店公司变为云平台公司再转变到目前的人工智能公司,亚马逊也在数据挖掘领域开始占有一席,尤其是在人才网罗、开源、核心技术研发。
2018年亚马逊在数据挖掘顶级国际会议KDD的Applied Data Science Track(应用数据科学Track)上一共发表了2篇文章,另外还有两个应用科学的邀请报告。
3、微软
微软是老牌论文王国,一直以来都在学术界特别活跃,因此在KDD上每年和微软有关的论文非常多,因此这里只统计了微软作为第一的文章。
4、阿里巴巴
阿里巴巴在电子商务方面做了大量的数据挖掘研究。尤其是在表示学习和增强学习做了几个很有意思的工作。
2018年阿里巴巴在数据挖掘顶级国际会议KDD上作为第一单位一共发表了8篇文章。
5、
2018年在数据挖掘顶级国际会议KDD上作为第一单位一共发表了2篇文章。
6、百度
2018年百度在数据挖掘顶级国际会议KDD上作为第一单位一共发表了2篇文章。
五、大数据与数据挖掘
大数据是近年随着互联网、物联网、通信网络以及人类社交网络快速发展的结果,成为一个交叉研究学科,和数据挖掘紧密相连。
大数据的迅速发展也使得数据挖掘对象变得更为复杂,不仅包括人类社会与物理世界的复杂,还包括呈现出的高度动态化。这使得很多传统数据挖掘算法不再适用,传统数据挖掘算法必须满足对真实数据和实时数据的处理能力,才能从大量无序数据中获取真正价值。
一方面大数据包含数据挖掘的各个阶段,即数据收集、预处理、特征选择、模式挖掘、表示等;另一方面大数据的基础架构又为数据挖掘上层数据处理的硬件设施。
大数据处理平台技术架构图
从技术架构角度,大数据处理平台可划分为4个层次:数据采集层、数据存储层、数据处理层和服务封装层。
除此之外,大数据处理平台一般还包括数据安全和隐式保护模块,这一模块贯穿大数据处理平台的各个层次。
随着大数据时代的来临,各行各业所积累的数据呈式增长,数据挖掘在各个领域的需求将会越来越强烈,与各个专业领域的结合也将会越来越广泛。无论是在科学领域还是工程领域、理论研究还是现实生活中,数据挖掘都将有着极为广阔的发展前景。
本文相关词条概念解析:
量子
量子(quantum)是现代物理的重要概念。最早是M普朗克在1900年提出的。他假设黑体辐射中的辐射能量是不连续的,只能取能量基本单位的整数倍。后来的研究表明,不但能量表现出这种不连续的分离化性质,其他物理量诸如角动量、自旋、电荷等也都表现出这种不连续的量子化现象。这同以牛顿力学为代表的经典物理有根本的区别。量子化现象主要表现在微观物理世界。描写微观物理世界的物理理论是量子力学。量子一词来自拉丁语quantum,意为“有多少”,代表“相当数量的某物质”。在物理学中常用到量子的概念,指一个不可分割的基本个体。例如,“光的量子”是光的单位。而延伸出的量子力学、量子光学等更成为不同的专业研究领域。其基本概念为所有的有形物质是“可量子化的”。“量子化”指其物理量的数值是特定的,而不是任意值。例如,在(休息状态的)原子中,电子的能量是可量子化的。这决定原子的稳定和一般问题。在20世纪的前半期,出现了新的概念。许多物理学家将量子力学视为了解和描述自然的的基本理论。在量子出现在世界上100多年间,经过普朗克,爱因斯坦,斯蒂芬霍金等科学家的不懈努力,已初步建立量子力学理论。

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 02:59

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表