大数据技术教程 大数据系统和分析技术综述
沉沙 2018-09-21 来源 : 阅读 2393 评论 0

摘要:本篇教程探讨了大数据技术教程 大数据系统和分析技术综述,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术教程 大数据系统和分析技术综述,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<

  1、大数据处理与系统




 
简介
特征
典型应用
代表性的处理系统
适用场景


批量数据处理系统
首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标
1.数据体量巨大2.数据精确度高3.数据价值密度低
1.互联网领域:      a.社交网络      b.电子商务      c.搜索引擎2.安全领域      a.IT安全      b.欺诈检测      c.识别恶意软件和网络攻击模式3.公共服务领域      a.能源(eg.石油储量)      b.医疗保健(eg.语义分析)4.……
a.GFS(google)b.MapReduce(google)+HDFS[hadoop]PS:MapReduce三大优势:1.采用无共享大规模集群系统2.模型简单、易于理解、易于使用3.提供很好的数据处理性能
先存储后计算实时性要求不高数据的准确性和全面性更为重要


流式数据处理系统

总之,流式数据的特点是,数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低.而对应的处理工具则需具备高性能、实时、可扩展等特性. 

1.一个无穷的数据序列2.通常含有时间标签或其余含蓄属性3.数据的产生是实时的,不可预知的4.数据流速往往有较大的波动5.数据的格式可以是结构化的、半结构化的甚至是无结构化的6.数据流中往往含有错误元素、垃圾信息等7.流式数据是活动的
1.数据采集应用(eg.日志采集、传感器采集),智能交通,环境监控,灾难预警2.金融行业的应用(eg.股票期货市场)
1.Storm(Twitter)2.Scribe(Facebook)3.Samza(Linkedin)4.Flume(Cloudera)5.Nutch(Apache)
源于服务器日志的实时采集


交互式数据处理
 

交互式数据处理灵活、直观、便于控制.系统与操作人员以人机对话的方式一问一答——操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果.

1.信息处理系统领域      主要体现人际间的交互2.互联网领域      eg.百度知道,新浪爱问,Yahoo!的知识堂
目前,各大平台主要使用 NoSQL 类型的数据库系统来处理交互式的数据,如 HBase采用多维有续表的列式存储方式;MongoDB采用 JSON 格式的数据嵌套存储方式.大多 NoSQL 数据库不提供 Join 等关系数据库的操作模式,以增加数据操作的实时性. 

1.Spark(Berkeley)2.Dremel(Google)
目标:将PB级数据的处理时间缩短到秒级联机事务处理(OLTP)广泛应用于对操作序列有严格要求的工业控制领域联机分析处理(OLAP)基于数据仓库广泛应用于数据分析、商业智能(BI)


图数据处理系统
 
1.节点之间的关联性2.图数据的种类繁多3.,图数据计算的强耦合性
1.互联网领域     以  Web  2.0  技术为基础的社交网络(如Facebook、人人网)、微博(如  Twitter、新浪微博、腾讯微博)等新兴服务中建立了大量的在线社会网络关系2.自然科学领域      图可以用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在  DNA  中查找特定序列等3.交通领域      最短路
图数据库:1.GraphLab2.Neo4j3.HyperGraphDB4.InfiniteGraph5.Cassovary6.Trinity 7.Grappa 8.Giraph(基于 Pregel (Google)克隆)系统:1.Pregel (Google)2.Neo4j3.Trinity(Microsoft)
 



 
注:

实时数据处理是针对批量数据处理的性能问题提出的,可分为:a)流式数据处理;b)交互式数据处理。

总结——3种发展趋势

数据处理引擎专用化
 数据处理平台多样化
数据计算实时化

 

 
2、大数据分析




 
 
例子


深度学习
核心问题是如何对数据进行有效表达、解释和学习
语音识别、OCR(光学字符)识别、人脸识别、图像搜索


知识计算

要对数据进行高端分析,就需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析和计算知识库
支持知识计算的基础是构建知识库,这包括 3 个部分,即知识库的构建、多源知识的融合与知识库的更新.


世界各国各个组织建立的知识库多达 50 余种,相关的应用系统更是达到了上百种.其中,代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库,如DBpedia,YAGO,Omega和WikiTaxonomy
 



社会计算

对在线社会网络结构、信息传播以及信息内容的分析、建模与挖掘等一系列问题
1.在线社会网络的结构分析
2.在线社会网络的信息传播模型
3.社会媒体中信息检索与数据挖掘


以 Facebook、Twitter、新浪微博、微信等为代表的在线社交网络和社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用,成为一类重要信息载体.



可视化

.现有研究工作主要聚焦在 4 个方面
:(1)  通过对信息流进行压缩或者删除数据中的冗余信息对数据进行简化.
(2)  通过设计多尺度、多层次的方法实现信息在不同的解析度上的展示,从而使用户可自主控制展示解析度
(3)  利用创新的方法把数据存储在外存,并让用户可以通过交互手段方便地获取相关数据,这类研究也成为核外算法(out-of-core  algorithm)

 



 小  结 大数据处理和分析的终极目标是借助对数据的理解辅助人们在各类应用中作出合理的决策.在此过程中,深度学习、知识计算、社会计算和可视化起到了相辅相成的作用. (1)  深度学习提高精度:(2)  知识计算挖掘深度: (3)  社会计算促进认知; (4)  强可视化辅助决策:

3、大数据计算面临的挑战与应对之策

3大核心挑战:
1.数据复杂性
2.计算复杂性
3.系统复杂性
   

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved