大数据技术 Hadoop/Spark开发环境搭建-职坐标

大数据技术 Hadoop/Spark开发环境搭建

沉沙 2018-09-21 来源：阅读 1266 评论 0

摘要：本篇教程探讨了大数据技术 Hadoop/Spark开发环境搭建，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 Hadoop/Spark开发环境搭建，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

看到本文的朋友们有福了，除去下载软件的时间，基本一个小时之内可以全部搞定。大道至简，很多东西要是不说清楚，写一万句废话也是没用的。

IDE:eclipse-Scala-Ide
hadoop:hadoop-2.6.2
spark:spark-1.2.0

一、hadoop开发环境
第一种方法：
直接用hadoop eclipse插件，再进行简单的配置就可以了。
第二种方法：

直接导入hadoop的jar包，可使用maven工程实现自动导入，也可手动导入
手动导入：
hdfs和mapred:
C:\Software\hadoop\hadoop-2.6.2\share\hadoop\common\
C:\Software\hadoop\hadoop-2.6.2\share\hadoop\common\lib\
C:\Software\hadoop\hadoop-2.6.2\share\hadoop\hdfs\
hive:
C:\Software\hadoop\apache-hive-2.1.0-bin\lib\
hbase:
E:\Hadoop\hbase-0.94.2-security\hbase-0.94.2-security.jar
E:\Hadoop\hbase-0.94.2-security\hbase-0.94.2-security-tests.jar
E:\Hadoop\hbase-0.94.2-security\lib\
其实不用导入那么多包，以后用maven来自动导入。
导入后，选中这些jar包，Build Path->Add to Build Path

二、spark开发环境

下载scala-ide。位数需要与本地jdk版本位数一致，直接解压即可作为eclipse使用
新建scala project
在工程名处右击点Properties->Java Builder Path->Libraries->Add External JARs->添加编译后spark assembly包（可以直接从官网下载编译后的版本里找出来）
有很多时候需要配置Run Configurations，重点关注Main和Arguments两项里的内容。如果没有部署spark，可以直接在VM arguments里添加-Dspark.master=local，或者直接在代码里添加conf.setMaster("local")
so easy！