零基础学习大数据开发常见的20个相关概念-职坐标

零基础学习大数据开发常见的20个相关概念

小职 2020-09-03 来源：阅读 961 评论 0

摘要：本文介绍了零基础学习大数据开发常见的相关概念，可以对大数据的理解更深入，也能更好的进行下一步大数据的学习。

本文介绍了零基础学习大数据开发常见的相关概念，可以对大数据的理解更深入，也能更好的进行下一步大数据的学习。

零基础学习大数据开发常见的20个相关概念

很多零基础转来学习大数据开发的童鞋，对大数据开发常见的相关概念有哪些，怎么理解会有不太清楚的地方，今天就来简单总结一下大数据开发常见的相关概念。

1、Linux

一种计算机操作系统，一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。从开发之初就不是针对普通大众的，而是专门从事计算机行业的人员。大数据的发展是基于开源软件的平台，Linux占据优势，大数据的分布式集群（ Hadoop，Spark ）都是搭建在多台 Linux 系统上，对集群的执行命令都是在 Linux 终端窗口输入的。

Linux主要以命令行的方式操作，大部分Linux发行版发中文支持不太好，如果你是和Linux打交道，每天看到的都是英文，中文少之又少，学Linux英语也很重要，需要你来掌握计算机大量的名词和术语英语。

2、Java

一种编程语言，当前软件开发行业应用最广、就业量最大的编程语言，在各类编程语言排行榜长期位列第一。是企业软件开发的首选语言，也是Android系统的开发语言。可以从事网站开发、桌面程序设计、游戏开发、安卓后台开发、全栈开发等。

Java可以说是大数据最基础的编程语言，一是大数据的本质是海量数据的计算，查询与存储，后台开发很容易接触到大数据量存取的应用场景；二是Java天然的优势，大数据的组件很多是用Java开发的。

3、Shell

在计算机科学中，Shell俗称壳（用来区别于核），是指“为使用者提供操作界面”的软件（命令解析器）。它接收用户命令，然后调用相应的应用程序。

Shell本身是一个用C语言编写的程序，是Linux/Unix的一个外壳，理解成衣服也行。它负责外界与Linux内核的交互，接收用户或其他应用程序的命令，然后把这些命令转化成内核能理解的语言，传给内核，内核是真正干活的，干完之后再把结果返回用户或应用程序

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

4、Maven

一种项目对象模型，可以通过一小段描述信息来管理项目的各种依赖之间的关系，是一个项目管理工具软件。大数据自动化构建、部署工具，包括安装部署与配置、Maven仓库、MavenPOM等。

5、Git

Git是一个开源的分布式版本控制系统，可以有效、高速地实现从很小到非常大的项目版本管理。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

6、GitHub

GitHub是一个基于网站和云的服务，可以帮助开发人员存储和管理他们的代码，以及跟踪和控制对代码的更改；是一家营利性公司，提供基于云的Git存储库托管服务。使个人和团队更容易使用Git进行版本控制和协作；是一个开源社区，开发人员可以在这分享自己的项目，去学习、讨论和研究其他人放在 GitHub 开源项目。

7、Hadoop

Apache开源组织的一个分布式基础框架，提供了一个分布式文件系统 (HDFS)、分布式计算（MapReduce）及统一资源管理框架（YARN）的软件架构。

分布式系统是指运行在网络上台计算机之上的软件和系统，与我们熟悉的windows只运行在单个计算机上不同。

8、HDFS（Hadoop Distribute File System）

Hadoop体系中数据存储管理的基础，是分布式文件系统，提供对应用程序数据的高吞吐量，高伸缩性，高容错性的访问。

将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务

9、MapReduce

MapReduce是一种编程模型，是一个分布式计算模型，用于大规模数据集（大于1TB）的并行运算，由Map和Reduce组成，用以进行大数据量的计算。

10、YARN（Yet Another Resource Negotiator）

是一个快速、可靠、安全的依赖管理工具，是分布式资源管理器，用于将资源调度和任务调度分开。

11、Hive