马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
Spark是一个类似Map-Reduce的集群计算框架,用于快速进行数据分析。 在这个应用中,我们以统计包含"the"字符的行数为案例,.为建立这个应用,我们使用 Spark 0.9.1, Scala 2.10.3 & sbt 0.13.0. 在构建这个应用之前,必须准备:- 1). 下载 Spark 0.9.1. 2). 解压Unzip 3). 到 Spark目录 4) 运行 ./sbt/sbt assembly 为了使用 sbt 成功构建Spark,我们需要sbt 0.13.0 或其以后版本必须首先已经安装就绪。 在构建Spark以后,我们开始建立我们的这个应用案例,下面步骤:
1). 运行 mkdir SimpleSparkProject. 2). 创建一个.sbt 文件,在目录 SimpleSparkProject/simple.sbt name := "Simple Project"
version := "1.0"
scalaVersion := "2.10.3"
libraryDependencies += "org.apache.spark" %% "spark-core" % "0.9.1"
resolvers += "Akka Repository" at "http://repo.akka.io/releases/"
|
3). 创建代码文件:SimpleSparkProject/src/main/scala/SimpleApp.scala import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
object SimpleApp {
def main(args: Array[String]) {
val logFile = "src/data/sample.txt"
val sc = new SparkContext("local", "Simple App", "/path/to/spark-0.9.1-incubating",
List("target/scala-2.10/simple-project_2.10-1.0.jar"))
val logData = sc.textFile(logFile, 2).cache()
val numTHEs = logData.filter(line => line.contains("the")).count()
println("Lines with the: %s".format(numTHEs))
}
}
|
4). 然后到SimpleSparkProject 目录 5). 运行 sbt package 6). 运行 sbt run 下载这个演示应用,可以按 here.
|