大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。[2]其数据类型包括结构化数据,半结构化数据和非结构化数据。[13]大数据具有“5V”特点,它们分别是大量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity)和低价值密度(Value)。[14][15] 大数据的发展历史可以追溯到19世纪末,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)发明了电动读取设备,[16]初步实现了数据处理的自动化。[17]到1980年,未来学家阿尔文·托夫勒阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》中首次提出“大数据”概念,突出其对社会的潜在影响。[18]2001年,Gartner的道格·莱尼提出了描述大数据的“3V”模型,即数据量、速度和多样性。[19]2003年至2008年间,随着Google等公司的关键技术发布,大数据技术快速进化。[20]到2012年,IBM将“真实性”加入“3V”模型,形成了“4V”模型,[21]后来又增加了“价值”维度,成为“5V”模型。[14]近年来,技术如Apache Storm[22]和Databricks的Delta Lake推动了实时数据处理和数据湖技术的发展。[23]到2024年,大数据技术不断创新,支持AI等新兴领域的需求。[24] 大数据的技术架构涵盖数据采集、处理、存取、分析、可视化和管理等关键环节,[25]包括大数据安全、[10]实时处理[10]和分布式计算等核心技术。[10]现代工具如Elasticsearch[26]和Apache Flink等,已显著推动数据处理和分析的发展。[27]大数据技术已在金融、医疗、教育和安全等众多领域得到广泛应 用。[4]然而,随着这些技术的普及,数据安全和隐私保护、构建数据核心计算体系[28]以及应对数据垄断等成为了当前亟需解决的关键挑战。[29]大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。[30] 概述
定义