全球最具影响力的数据智能产业服务和职业发展平台

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

大数据时代BI王者之剑——SAS企业挖掘系统

[复制链接]
发表于 2014-11-2 11:05:27 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据已渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来------麦肯锡咨询

    大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理和分析能力;同时,也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。对企业而言,能够从大数据中获得全新价值的消息是令人振奋的。然而,如何从大数据中发掘出“真金白银”则是一个现实的挑战。这就要求采用一套全新的、对企业决策具有深远影响的解决方案。

    SAS企业挖掘系统(SAS/Enterprise Miner)广泛应用于解决欺诈侦测、雇员流动、客户获取与维持、网络销售、市场细分、风险分析、亲和性分析、客户满意度、破产预测和投资组合分析等多样化问题。根据大数据时代的企业挖掘的特征,SAS INSTITUTE提出了数据挖掘的SEMMA方法论——在SAS/EM环境中,数据挖掘过程被划分为Sample、Explore、Modify、Model、Assess这五个阶段,简记为SEMMA:
1.Sample 抽取一些代表性的样本数据集(通常为训练集、验证集和测试集)。样本容量的选择标准为:包含足够的重要信息,同时也要便于分析操作。该步骤涉及的处理工具为:数据导入、合并、粘贴、过滤以及统计抽样方法。
2.Explore 通过考察关联性、趋势性以及异常值的方式来探索数据,增进对于数据的认识。该步骤涉及的工具为:统计报告、视图探索、变量选择以及变量聚类等方法。
3.Modify 以模型选择为目标,通过创建、选择以及转换变量的方式来修改数据集。该步骤涉及工具为:变量转换、缺失处理、重新编码以及数据分箱等。
4.Model 为了获得可靠的预测结果,我们需要借助于分析工具来训练统计模型或者机器学习模型。该步骤涉及技术为:线性及逻辑回归、决策树、神经网络、偏最小二乘法、LARS及LASSO、K近邻法以及其他用户(包括非SAS用户)的模型算法。
5.Assess 评估数据挖掘结果的有效性和可靠性。涉及技术为:比较模型及计算新的拟合统计量、临界分析、决策支持、报告生成、评分代码管理等。数据挖掘者可能不会使用全部SEMMA分析步骤。然而,在获得满意结果之前,可能需要多次重复其中部分或者全部步骤。

    在完成SEMMA步骤后,可将从优选模型中获取的评分公式应用于(可能不含目标变量的)新数据。将优选公式应用于新数据,这是大多数数据挖掘问题的目标。此外,先进的可视化工具使得用户能在多维直方图中快速、轻松地查阅大量数据并以图形化方式比较模拟结果。SAS/EM包括了一些非同寻常的工具,比如:能用来产生数据挖掘流程图的完整评分代码(SAS、C以及Java代码)的工具,以及交换式进行新数据评分计算和考察执行结果的工具。

    如果您将优选模型注册进入SAS元数据服务器,便可以让SAS/EG和SAS/DI Studio的用户分享您的模型,从而将优选模型的评分代码整合进入工作报告和生产流程之中。SAS模型管理系统,通过提供了开发、测试和生产系列环境的项目管理结构,进一步补充了数据挖掘过程,实现了与SAS/EM的无缝联接。

    在SAS/EM环境中,您可以从SEMMA工具栏上拖放节点进入工作区的工艺流程图中,这种流程图驱动着整个数据挖掘过程。SAS/EM的图形用户界面(GUI)是按照这样的思路来设计的:一方面,掌握少量统计知识的商务分析者可以浏览数据挖掘过程的技术方法;另一方面,具备数量分析技术的专家可以微调方式深入探索每一个分析节点。

    SAS/EM使得评分过程实现了自动化,并提供模型开发所有阶段的完整代码(SAS、C、Java和PMML)。评分代码可以部署在在SAS系统、互联网或者关系数据库等实时或批处理环境中。
      SAS/EM视频链接:         视频: SAS企业挖掘系统     
      
      

    大数据时代的企业需要基于海量数据进行探索和分析,以发现有意义的商务行为模式和规则。在商务智能领域,SAS Institute的产品凭其卓越性能足以傲视群雄,企业挖掘系统则如同具有精灵魔力的王者之剑,令尊贵的企业用户爱不释手。SAS/EM具备了一系列适于大数据挖掘的显著特征:(1)内涵丰富的SEMMA工具箱、(2)基于元数据理念的精确建模技术、(3)友好的、流程图式的数据挖掘模式、(4)独具特色的数据处理、存储、分析、呈现及共享方式。这些特征均使得商务挖掘过程能够以简练、流畅而高效的方式顺利进行。


楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2020-1-25 16:14 , Processed in 0.080681 second(s), 20 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表