在大数据的关键技术中,数据抽取工具ETL是(  )过程主要使用的技术。

A.数据采集
B.数据存储
C.数据清洗
D.数据分析

【答案】:A
本题考查大数据关键技术知识,出自《系统集成项目管理工程师教程(第2版)》第三章 信息系统集成专业技术知识 3.8.4 大数据,全书第172页。
大数据所涉及的技术很多,主要包括数据采集、数据存储、数据管理、数据分析与挖掘四个环节。在数据采集阶段主要使用的技术是数据抽取工具 ETL。
(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
(2)数据存储:其对象包括数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。
(3)数据清洗:指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
(4)数据分析:指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
在数据存储环节主要有结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库,通过数据查询语言( SQL)来访问;非结构化(如图片、视频、 doc文件等)和半结构化数据一般通过分布式文件系统的 NoSQL(Not Only SQL)进行存储,比较典型的 NoSQL有 Google的 Bigtable、Amazon的 Dynamo和 Apache的 Hbase。大数据管理主要使用了分布式并行处理技术,比较常用的有 MapReduce,编程人员借助MapReduce可以在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。数据分析与挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示,与 ETL一样,数据分析和挖掘是以前数据仓库的范畴,只是在大数据中得以更好的利用。
温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网