零基础学习大数据开发常见的20个相关概念
小职 2020-09-03 来源 : 阅读 961 评论 0

摘要:本文介绍了零基础学习大数据开发常见的相关概念,可以对大数据的理解更深入,也能更好的进行下一步大数据的学习。

本文介绍了零基础学习大数据开发常见的相关概念,可以对大数据的理解更深入,也能更好的进行下一步大数据的学习。

零基础学习大数据开发常见的20个相关概念

很多零基础转来学习大数据开发的童鞋,对大数据开发常见的相关概念有哪些,怎么理解会有不太清楚的地方,今天就来简单总结一下大数据开发常见的相关概念。

1、Linux 

一种计算机操作系统,一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。从开发之初就不是针对普通大众的,而是专门从事计算机行业的人员。大数据的发展是基于开源软件的平台,Linux占据优势, 大数据的分布式集群( Hadoop,Spark )都是搭建在多台 Linux 系统上,对集群的执行命令都是在 Linux 终端窗口输入的。

Linux主要以命令行的方式操作,大部分Linux发行版发中文支持不太好,如果你是和Linux打交道,每天看到的都是英文,中文少之又少,学Linux英语也很重要,需要你来掌握计算机大量的名词和术语英语。

2、Java 

一种编程语言,当前软件开发行业应用最广、就业量最大的编程语言,在各类编程语言排行榜长期位列第一。是企业软件开发的首选语言,也是Android系统的开发语言。可以从事网站开发、桌面程序设计、游戏开发、安卓后台开发、全栈开发等。

Java可以说是大数据最基础的编程语言,一是大数据的本质是海量数据的计算,查询与存储,后台开发很容易接触到大数据量存取的应用场景;二是Java天然的优势,大数据的组件很多是用Java开发的。

3、Shell 

在计算机科学中,Shell俗称壳(用来区别于核),是指“为使用者提供操作界面”的软件(命令解析器)。它接收用户命令,然后调用相应的应用程序。

Shell本身是一个用C语言编写的程序,是Linux/Unix的一个外壳,理解成衣服也行。它负责外界与Linux内核的交互,接收用户或其他应用程序的命令,然后把这些命令转化成内核能理解的语言,传给内核,内核是真正干活的,干完之后再把结果返回用户或应用程序

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

4、Maven 

一种项目对象模型,可以通过一小段描述信息来管理项目的各种依赖之间的关系,是一个项目管理工具软件。大数据自动化构建、部署工具,包括安装部署与配置、Maven仓库、MavenPOM等。

5、Git 

Git是一个开源的分布式版本控制系统,可以有效、高速地实现从很小到非常大的项目版本管理。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

6、GitHub

GitHub是一个基于网站和云的服务,可以帮助开发人员存储和管理他们的代码,以及跟踪和控制对代码的更改;是一家营利性公司,提供基于云的Git存储库托管服务。使个人和团队更容易使用Git进行版本控制和协作;是一个开源社区,开发人员可以在这分享自己的项目,去学习、讨论和研究其他人放在 GitHub 开源项目。

7、Hadoop 

Apache开源组织的一个分布式基础框架,提供了一个分布式文件系统 (HDFS)、分布式计算(MapReduce)及统一资源管理框架(YARN)的软件架构。

分布式系统是指运行在网络上台计算机之上的软件和系统,与我们熟悉的windows只运行在单个计算机上不同。

8、HDFS(Hadoop Distribute File System)

Hadoop体系中数据存储管理的基础,是分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问。

将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;

在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务


9、MapReduce 

MapReduce是一种编程模型,是一个分布式计算模型,用于大规模数据集(大于1TB)的并行运算,由Map和Reduce组成,用以进行大数据量的计算。

10、YARN(Yet Another Resource Negotiator)

是一个快速、可靠、安全的依赖管理工具,是分布式资源管理器,用于将资源调度和任务调度分开。

11、Hive 

Hive是基于Hadoop的一个数据仓库工具,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

12、HBase 

是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。

结构化数据一般是指类似Excel表这样的结构,比如word文档,图片、视频等就属于非结构化的数据。

13、Zookeeper 

一个分布式的,开放源码的分布式应用程序协调服务。提供的功能包括:配置维护、域名服务、分布式同步、组服务等。最为主要的使用场景,是作为分布式系统的分布式协同服务。


14、Spark 

专为大规模数据处理而设计的快速通用的计算引擎,用来构建大型的、低延迟的数据分析应用程序。可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等。

Spark是与 Hadoop 相似的开源集群计算环境,它扩展了MapReduce计算模型,高效的支撑更多计算模式,包括交互式查询和流处理。

15、Scala

一种类似Java的编程语言,面向对象语言,并且具备函数式编程特性,构建在jvm之上的,因此可以和Java进行无缝互操作。Spark 是在 Scala 语言中实现的,将 Scala 用作其应用程序框架。

16、Kafka 

由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写,是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。

17、Flume 

是一个分布式、高可靠的数据采集系统,能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。

18、Storm

一个免费并开源的分布式实时计算系统,用于在分布式系统上实现实时处理消息并更新数据库,也可以用于对数据流做连续查询,一边计算,一遍把结果输出给用户。

19、Flink 

是一个框架和分布式处理引擎,是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,能够支持流处理和批处理两种应用类型。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

20、Apache

使用最广泛的 Web 服务器软件。是由 Apache Software Foundation 开发和维护的,是一个免费提供的开源软件,快速,可靠,安全。

Apache软件基金会(Apache Software Foundation,简称为ASF)是专门为运作一个开源软件项目的Apache 的团体提供支持的非盈利性组织,这个开源软件的项目就是 Apache 项目。

Apache开源协议,全名Apache Licence,是著名的非盈利开源组织Apache采用的协议。


零基础学习大数据,理解其相关概念后,对大数据的进一步学习更加有利。


本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 1 不喜欢 | 0
看完这篇文章有何感觉?已经有1人表态,100%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程