发布时间: 2017-07-31 11:25:22
本文全面地介绍了关于大数据的核心术语,这不仅是大数据初学者很好的入门资料,对于高阶从业人员也可以起到查漏补缺的作用。
上篇
算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,算法又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。
分析(Analytics):让我们试想一个很可能发生的情况,你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件,如果这个时候你拿着这张单子,开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作,你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么,如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下,我们就可以称之为大数据分析。所谓大数据分析,就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法,现在我们来对它们分别进行梳理。
描述性分析法(Descriptive Analytics):如果你只说出自己去年信用卡消费情况为食品方面 25%、衣物方面 35%、娱乐方面 20%、剩下 20% 为杂项开支,那么这种分析方法被称为描述性分析法。当然,你也可以找出更多细节。
预测性分析法(Predictive Analytics):如果你对过去五年信用卡消费的历史进行了分析,发现每年的消费情况基本上呈现一个连续变化的趋势,那么在这种情况下你就可以高概率预测出:来年的消费状态应该和以往是类似的。这不是说我们在预测未来,而是应该理解为,我们在用概率预测可能发生什么事情。在大数据的预测分析中,数据科学家可能会使用先进的技术,如机器学习,和先进的统计学处理方法(这部分后面我们会谈到)来预测天气情况、经济变化等等。
规范性分析(Prescriptive Analytics):我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费可以对整体消费产生巨大影响,那么基于预测性分析的规范性分析法通过引入动态指标(action)以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域,并想象一个负责人是如何通过观察他面前多种动态指标的影响,进而作出所谓由「数据驱动」的决策的。
批处理(Batch processing):尽管批量数据处理从大型机时代就已经存在了,但是在处理大量数据的大数据时代面前,批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop),后面会讨论,就是一种专门处理批量数据的方法。
Cassandra:是一个很流行的开源数据管理系统。Apache 掌握了很多大数据处理技术,Cassandra 就是他们专门设计用于在分布式服务器之间处理大量数据的系统。
云计算(Cloud computing):云计算这个词现在已经家喻户晓,这里大可不必赘述,本质上讲,软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问,那么它就可被称为云计算。
集群计算(Cluster computing):这是一个来描述使用多个服务器丰富资源的一个集群的计算的形象化术语。更技术层面的理解是在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(cluster
management layer)、负载平衡(load balancing)和并行处理(parallel processing)等等。
暗数据(Dark data):所谓暗数据指的是那些公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电话中心的记录,会议记录等等。
数据湖(Data lake):一个数据湖(data lake)即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。
数据挖掘(Data mining):数据挖掘关乎如下过程,从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。在数据挖掘中,你将会先对数据进行挖掘,然后对这些得到的结果进行分析。为了得到有意义的模式(pattern),数据挖掘人员会使用到统计学、机器学习算法和人工智能。
数据科学家:数据科学家是时下非常性感的一门行业。它指那些可以通过提取原始数据进而理解、处理并得出意见的这样一批人。部分数据科学家必备的技能有分析能力、统计学、计算机科学、创造力、讲故事能力以及理解商业背景的能力。
分布式文件系统(Distributed File System):大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。
机器学习(Machine Learning):机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法,它们持续地逼近正确的行为和想法,随着更多的数据被输入到系统,它们能够进一步提升。
下篇
Apache Kafka:它用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常快速。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。
Apache Mahout:Mahout 提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
Apache Oozie:在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。
Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项目都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(HBase 或 HDFS),这些功能将非常有用。
Apache Hive:知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Apache Pig:Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin。据说它很容易理解和学习。
Apache Sqoop:一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。
Apache Storm:一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。
数据分析师(Data Analyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。我会写一篇更详细的关于数据分析师的文章。
数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。
数据即服务(DaaS):我们有软件即服务(SaaS), 平台即服务(PaaS),现在我们又有 DaaS,它的意思是数据即服务。通过给用户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到高质量的数据。
数据虚拟化(Data virtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。
脏数据(Dirty Data):既然大数据这么吸引人,那么人们也开始给数据加上其他的形容词来形成新的术语,例如黑数据(dark data)、脏数据(dirty data)、小数据(small data),以及现在的智能数据(smart data)。脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。
模糊逻辑(Fuzzy logic):我们有多少次对一件事情是确定的,例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。
游戏化(Gamification):在一个典型的游戏中,你会有一个类似于分数一样的元素与别人竞争,并且还有明确的游戏规则。大数据中的游戏化就是使用这些概念来收集、分析数据或者激发玩家。
图数据库(Graph Databases):图数据使用节点和边这样的概念来代表人和业务以及他们之间的关系,以挖掘社交媒体中的数据。是否曾经惊叹过亚马逊在你买一件产品的时候告诉你的关于别人在买什么的信息?对,这就是图数据库。
负载均衡(Load balancing):为了实现最佳的结果和对系统的利用,将负载分发给多个计算机或者服务器。
元数据(Metadata):元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息,这使得查找和使用特定的数据实例变得更加容易。例如,作者、数据的创建日期、修改日期以及大小,这几项是基本的文档元数据。除了文档文件之外,元数据还被用于图像、视频、电子表格和网页。
MongoDB:MongoDB 是一个面向文本数据模型的跨平台开源数据库,而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。
Mashup:mashup 是一个将不同的数据集合并到一个单独应用中的方法,例如,将房地产数据与地理位置数据、人口数据结合起来。
多维数据库(Multi-Dimensional Databases):这是一个为了数据在线分析处理(OLAP)和数据仓库优化而来的数据库。
多值数据库(MultiValue Databases):多值数据库是一种非关系型数据库,它能够直接理解三维数据,这对直接操作 HTML 和 XML 字符串是很好的。
自然语言处理(Natural Language Processing):自然语言处理是被设计来让计算机更加准确地理解人类日常语言的软件算法,能够让人类更加自然、更加有效地和计算机交互。
神经网络(Neural Network):神经网络是一个受生物学启发的非常漂亮的编程范式,它能够让计算机从观察到的数据中学习。已经好久没有一个人会说一个编程范式很漂亮了。实际上,神经网络就是受现实生活中脑生物学启发的模型.......与神经网络紧密关联的一个术语就是深度学习。深度学习是神经网络中一系列学习技术的集合。
模式识别(Pattern Recognition):当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。
射频识别(Radio Frequency Identification/RFID):射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展,RFID 标签能够被嵌入到任何可能的东西里面,这能够生成很多需要被分析的数据。
软件即服务(SaaS):软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。
半结构化数据(Semi-structured data):半结构化数据指的是那些没有以传统的方法进行格式化的数据,例如那些与传统数据库相关的数据域或者常用的数据模型。半结构化数据也不是完全原始的数据或者完全非结构化的数据,它可能会包含一些数据表、标签或者其他的结构元素。半结构化数据的例子有图、表、XML
文档以及电子邮件。
情感分析(Sentiment Analysis):情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和文档中所表达的情感、情绪和意见的捕捉、追踪和分析。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。
空间分析(Spatial analysis):空间分析指的是对空间数据作出分析,以识别或者理解分布在几何空间中的数据的模式和规律,这类数据有几何数据和拓扑数据。
流处理(Stream processing):流处理被设计用来对「流数据」进行实时的连续查询和处理。为了对大量的流数据以很快的速度持续地进行实时的数值计算和统计分析,社交网络上的流数据对流处理的需求很明确。
智能数据(Smart Data):是经过一些算法处理之后有用并且可操作的数据。
可视化(Visualization):有了合理的可视化之后,原始数据就能够使用了。当然这里的可视化并不止简单的图表。而是能够包含数据的很多变量的同时还具有可读性和可理解性的复杂图表。
上一篇: {思科 CCIE} CCIE安全之ISE2.1-配置NTP服务器,并处理ISE和NTP服务器时钟同步失败故障。
下一篇: {大数据}你应该知道的大数据术语