什么是大数据分析?
发布时间:2018-10-29 作者:jason
“ 大数据适用于机器; 小数据适用于人。“
我们假设您的花园里的水管漏水了。
你拿一个水桶和一些密封材料来解决问题,简单吧?但是过了一段时间,你会发现漏洞要大得多,你需要专家(管道工)才能带来更大的工具。与此同时,你仍在使用水桶排水。过了一会儿,你会注意到一条巨大的地下溪流已经打开,你需要每秒处理数百万升的水。
你不仅需要新的水桶,而是一种全新的方法来解决问题,因为水的体积和速度已经增长。为了防止城镇洪水泛滥,也许你需要政府建造一座大坝,这需要巨大的土木工程专业知识和精心设计的控制系统。更糟糕的是,水从无处涌出,每个人都对这种变化感到害怕。
希望它能引起共鸣?
“数据”也发生了同样的情况。数据集变得如此庞大或复杂,传统的数据处理软件不足以处理捕获,存储,分析,数据管理,搜索,共享,传输,可视化,查询,更新和信息隐私。需要的是“大数据”!
“ 大数据是指涉及传统技术,技术,技能和基础设施的数据过于多样化,快速变化或大规模以便有效解决的技术和举措。”
大数据是描述大量数据(包括结构化数据和非结构化数据)的术语,它们每天都会淹没业务。但重要的不是数据量。这是组织对重要数据的处理方式。可以分析大数据的洞察力,从而获得更好的决策和战略性业务变动。
虽然“ 大数据 ” 这个术语相对较新,但收集和存储大量信息以进行最终分析的行为已经很久了。该术语自20世纪90年代以来一直在使用,有些人认为John Mashey可以创造或至少使其受欢迎。这个概念在21世纪初获得了动力,当时行业分析师Doug Laney将现在主流的大数据定义表达为三个Vs.
3Vs大数据模型
大数据是高容量,高速度和/或高品种的信息资产,需要新的处理形式以实现增强的决策制定,洞察发现和流程优化。
卷:生成和存储的数据量。今天,Facebook每天摄取500TB的新数据; 波音737将在美国境内的单次飞行中产生240太字节的飞行数据; 智能手机的激增,他们创造和消费的数据; 嵌入日常物品中的传感器很快就会产生数十亿个不断更新的新数据源,其中包含环境,位置和其他信息,包括视频。在过去,存储它将是一个问题 - 但新技术(如Hadoop)减轻了负担。
速度:生成和处理数据以满足需求和挑战的速度。数据以前所未有的速度流入,必须及时处理。RFID标签,传感器和智能电表正在推动近乎实时处理数据的需求。点击流和广告展示可捕获每秒数百万个事件的用户行为; 高频股票交易算法反映微秒内的市场变化; 机器到机器的过程在数十亿设备之间交换数据; 基础设施和传感器实时生成海量日志数据; 在线游戏系统支持数百万并发用户,每个用户每秒产生多个输入。
品种:数据的类型和性质。数据有各种格式 - 从传统数据库中的结构化数字数据到非结构化文本文档,电子邮件,视频,音频,股票报价数据和金融交易。大数据不仅仅是数字,日期和字符串。大数据还包括地理空间数据,3D数据,音频和视频以及非结构化文本,包括日志文件和社交媒体。
大数据代表了具有如此高容量,速度和多样性的信息资产,需要特定的技术和分析方法才能转化为价值。此外,一些组织已经添加了新的V来描述它。
可变性:数据集的不一致性可能会妨碍处理和管理数据集的过程。除了速度和数据种类的增加之外,数据流还可能与周期性峰值高度不一致。
准确性:捕获数据的质量可能差异很大,影响准确的分析。
实际上大数据有多大?
什么算作“ 大数据 ”取决于用户及其工具的功能,并且扩展功能使大数据成为移动目标。对于某些组织而言,首次面对数百GB的数据可能会引发重新考虑数据管理选项的需求。对于其他人来说,在数据大小成为重要考虑因素之前,可能需要数十或数百TB。
大数据和传统系统的局限性
对大数据速度的需求对底层计算基础架构提出了独特的要求。关系数据库管理系统和桌面统计和可视化包通常难以处理大数据。传统的数据库系统旨在解决较小数量的结构化数据,更少的更新或可预测,一致的数据结构。传统的数据库系统也被设计为在单个服务器上运行,使得容量增加昂贵且有限。快速处理大量数据和各种数据所需的计算能力可能会淹没单个服务器或服务器群集。它可能需要在数十,数百甚至数千台服务器上运行的大规模并行软件。
大数据和分析的应用和影响
大数据的一个例子可能是数PB或数十亿的数据,其中包括数十亿到数百万人的记录 - 所有记录都来自不同的来源(例如网络,销售,客户联络中心,社交媒体,移动数据等)。在大小为数TB的情况下,维基百科的文本和图像是大数据的另一个例子。
零售商可以跟踪用户网络点击次数,以确定改善广告系列,定价和广告资源的行为趋势。
公用事业可以捕获家庭能源使用水平,以预测停电并提高能源消耗效率。
政府甚至谷歌都可以通过社交媒体信号检测和跟踪疾病爆发的出现。
石油和天然气公司可以在其钻井设备中获取传感器的输出,以制定更有效和更安全的钻井决策。
当您将大数据与高性能分析相结合时,大数据有可能帮助公司改进运营并做出更快,更智能的决策。捕获,格式化,操作,存储和分析这些数据可以帮助公司获得有用的洞察力,以增加收入,获得或留住客户,并改善运营。您可以从任何来源获取数据并进行分析,以找到能够节省成本和时间,新产品开发和优化产品以及智能决策的答案。
影响:大数据已经大大增加了信息管理专家的需求,因此软件公司,甲骨文公司,IBM,微软,SAP,EMC,惠普和戴尔已经在专注于数据管理和分析的软件公司上花费了150多亿美元。
大数据分析| 行业用法
大数据以惊人的速度,数量和种类从多个来源到达。要从大数据中提取有意义的价值,您需要最佳的处理能力,分析能力和技能。大数据影响着几乎所有行业的组织。
银行业务:虽然了解客户并提高他们的满意度非常重要,但在保持合规性的同时将风险和欺诈降至最低同样重要。
教育:通过分析大数据,教育工作者可以识别有风险的学生,确保学生取得足够的进步,并可以实施更好的评估和支持教师和校长的系统。
政府:当政府机构能够利用和应用分析数据时,他们在管理公用事业,运营机构,处理交通拥堵或预防犯罪方面获得了重要的支持。
医疗保健:患者记录。治疗计划。处方信息。在医疗保健方面,一切都需要快速,准确地完成 - 并且在某些情况下,具有足够的透明度以满足严格的行业法规。
制造:制造商可以提高质量和产量,同时减少浪费。制造商可以更快地解决问题并做出更敏捷的业务决策。
零售:零售商需要了解向客户推销的最佳方式,处理交易的最有效方式,以及恢复业务失败的最具战略性的方法。大数据仍然是所有这些事情的核心。