大数据

巨量数据集合(IT行业术语)
大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助人类生活更高效、便利的资讯。[2]其数据类型包括结构化数据,半结构化数据和非结构化数据。[13]大数据具有“5V”特点,它们分别是数据量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)和价值(Value)。[14]
大数据的发展历史可以追溯到19世纪末,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)发明了电动读取设备,[15]初步实现了数据处理的自动化。[16]到1980年,未来学家阿尔文·托夫勒阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中首次提出“大数据”概念,突出其对社会的潜在影响。[17]2001年,Gartner的道格·莱尼提出了描述大数据的“3V”模型,即数据量、速度和多样性。[18]2003年至2008年间,随着Google等公司的关键技术发布,大数据技术快速进化。[19]到2012年,IBM将“真实性”加入“3V”模型,形成了“4V”模型,[20]后来又增加了“价值”维度,成为“5V”模型。[14]近年来,技术如Apache Storm[21]Databricks的Delta Lake推动了实时数据处理和数据湖技术的发展。[22]到2024年,大数据技术不断创新,支持AI等新兴领域的需求。[23]
大数据的技术架构涵盖数据采集、处理、存取、分析、可视化和管理等关键环节,[24]包括大数据安全、[10]实时处理[10]分布式计算等核心技术。[10]现代工具如Elasticsearch[25]和Apache Flink等,已显著推动数据处理和分析的发展。[26]大数据技术已在金融、医疗、教育和安全等众多领域得到广泛应用。[4]然而,随着这些技术的普及,数据安全和隐私保护、构建数据核心计算体系[27]以及应对数据垄断等成为了当前亟需解决的关键挑战。[28]

概述

定义