最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

【SPARK实战】单节点本地模式搭建SPARK运行环境

[复制链接]
跳转到指定楼层
楼主
发表于 2014-9-17 09:19:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Sparkhadoop一样,是一种开源的集群计算环境,但在特定工作负载情况下比Hadoop更高效。Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。下面作者将通过单节点本地模式搭建Spark运行环境】
前言:
Spark本身用scala写的,运行在JVM之上。
JAVA版本:java 6 /higher edition.
1 下载Spark
http://spark.apache.org/downloads.html
你可以自己选择需要的版本,这里我的选择是:
http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz
如果你是奋发图强的好码农,你可以自己下载源码:http://github.com/apache/spark.
注意:我这里是运行在Linux环境下。没有条件的可以安装下虚拟机之上!
2 解压缩&进入目录
tar -zvxf spark-1.1.0-bin-hadoop1.tgz
cd spark-1.1.0-bin-hadoop1/
3 启动shell
./bin/spark-shell
你会看到打印很多东西,最后显示
4 小试牛刀
先后执行下面几个语句
  • val lines = sc.textFile(“README.md”)   
  • lines.count()   
  • lines.first()   
  • val pythonLines = lines.filter(line => line.contains(“Python”))   
  • scala> lines.first()  
  • res0: String = ## Interactive Python Shel  

—解释,什么是sc
sc是默认产生的SparkContext对象。
比如
  • scala> sc  
  • res13: org.apache.spark.SparkContext = org.apache.spark.SparkContext@be3ca72

这里只是本地运行,先提前了解下分布式计算的示意图:
5 独立的程序
最后以一个例子结束本节
为了让它顺利运行,按照以下步骤来实施即可:
————–目录结构如下:
  • /usr/local/spark-1.1.0-bin-hadoop1/test$ find .  
  • .  
  • ./src  
  • ./src/main  
  • ./src/main/scala  
  • ./src/main/scala/example.scala  
  • ./simple.sbt

然后simple.sbt的内容如下:
  • name := “Simple Project”  


  • version := “1.0″   


  • scalaVersion := “2.10.4″  


  • libraryDependencies += “org.apache.spark” %% “spark-core” % “1.1.0″

example.scala的内容如下:
  • import org.apache.spark.SparkConf  
  • import org.apache.spark.SparkContext  
  • import org.apache.spark.SparkContext._   
  • object example {  
  •    def main(args: Array[String]) {  
  •     val conf = new SparkConf().setMaster(“local”).setAppName(“My App”)  
  •     val sc = new SparkContext(“local”, “My App”)  
  •     sc.stop()  
  •     //System.exit(0)  
  •     //sys.exit()  
  •     println(“this system exit ok!!!”)  
  •    }  
  • }  

红色local:一个集群的URL,这里是local,告诉spark如何连接一个集群,local表示在本机上以单线程运行而不需要连接到某个集群。
橙黄My App:一个项目的名字,
然后执行:sbt package
成功之后执行
./bin/spark-submit  –class  “example”   ./target/scala-2.10/simple-project_2.10-1.0.jar
结果如下:
说明确实成功执行了!
结束!


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-5 14:01

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表