“大数据”时代已经降临。人们纷纷预测,它对国家、社会、经济、科学的发展和个人生活将产生巨大的价值,并将积极推进人类从“后工业时代”向“智慧经济”时代的发展。与此同时,大数据时代中大数据的采集、存储、传输、处理、应用等问题对各行各业的文化、组织、管理、方法、技术等等提出了崭新的挑战与变革。近日,由中国科协主办、中国系统仿真学会承办的“大数据时代对建模仿真的挑战与思考”新观点新学说沙龙在吉林召开。
来自中国工程院、中国科学院、国防大学、清华大学、国防科技大学、解放军理工大学等单位的专家学者展开了观点碰撞和学术研讨。
中国工程院院士李伯虎研究员指出,“大数据”是继云计算、物联网之后IT领域又一次颠覆性的技术变革。它对作为科学研究第三种范式“计算科学”中重要组成部分的“仿真科学”带来了新的机遇、挑战与变革。“以大数据为基础的第四范式是否成立?大数据方法对仿真建模带来了什么挑战?大数据方法对仿真建模带来了什么机遇?”这些问题都需要以“大数据、大价值、大变革”的视角进行深入探讨。
国防大学胡晓峰教授指出,大数据具有“规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)”等特征,最根本的是大数据带来了全新的思维和方式。首先是“从局部到全体”的思维,将大(所有)数据作为分析对象,对数据的处理完全不同于传统数据库,要变“池塘里抓鱼”为“大海里捕鱼”;其次是“从单纯到繁杂”的思维,接受数据的繁杂和不精确,抛弃对有条理和纯净数据的偏爱,容忍凌乱数据;再次是“从因果到关联”的思维,更强调相关性而非因果性,放弃对事情原委的追究,而代之以对相关性的接纳;最后是“从简单到深入”的思维,更强调深度和间接分析,将简单分析方法发展为大数据的深度分析方法。胡晓峰认为,大数据时代正是信息社会从“量变”走向“质变”的表征,或者说,信息化社会在大数据时代才算真正到来,建模仿真也许在这个门槛上会发生根本性的变化,需要重构仿真科学的体系,增强仿真科学的活力。大数据为整体分析提供了条件,更接近人类认知的模型。同时,大数据也带来了一些新思考,例如,大数据提供了一个解释不明现象的新颖视角,为复杂系统建模仿真提供了一种绕开理论直接走向应用的新途径。
本世纪以来,“大数据”摩尔定律表明:全球数据总量每两年就可以翻一番。“数据为王”的大数据时代已经到来。中国电子科技集团首席科学家王积鹏研究员认为,不断增强的数据存储和处理能力,提供了从大数据中筛选信息、以洞察世界的新方法。网络计算环境的变革,带来了以大数据为核心的科学研究第四范式,为仿真技术发展提供了新的挑战与机遇。大数据的作用首先在于产生价值,以满足服务需求,而不是解释为什么,或者发现知识。人们更多地依赖海量数据相关性分析作出理解和决策,通过数据关联、多人和多群体关联,形成群体智能,通过数据交互和挖掘,发现其价值。王积鹏研究员认为,大数据发展引发思维模式变革,是更多的利用全体数据,而不仅是随机样本;是注重混杂性数据,而不仅是精确性数据;是更好关注数据相关关系,而不仅是因果关系。大数据促进认知分析学发展,开辟了机器学习和智能科学研究的新途径。大数据技术应用将彻底改变社会管控方式,彻底改变人们学习、生活、工作模式。从近代科学技术发展史看,信息技术发展呈现了一个非常独特的现象,即:技术发展超前于相应科学理论的发展,以大数据为核心的第四范式发展也符合这种现象。它不仅对科学理论发展提出了巨大的挑战,同时也推进了人类社会生存与运作模式的变革。
科学遇到大数据,带来哪些挑战?清华大学肖田元教授认为,大数据可分为两大类:来自科学实验与工程的大数据和来自互联网的人类社会活动大数据。对于第一类的大数据的挑战,仿真范式采取“以大化小”,在还原论的指导下,基于已知小世界的规律,建立与运行模型,以发现有组织的更大更复杂的系统的因果规律。现在,日本等许多国家已经实现科学数据密集型运用,包括生命与医疗、粒子物理、天气预报、基因学、地震预报。而面对来自互联网的社会活动大数据,新型应用将致力于为实际的决策提供信息,最终目的是帮助科学家、研究人员、决策者及社会大众做出有充分信息依据的决定。用传统IT技术和软硬件工具无法在可容忍的时间内对其进行感知、获取、管理、处理和服务的数据集合。这就对传统科研范式提出了挑战,需要考察大数据时代科学研究的未来,探索支持科学研究新范式。仿真范式难以解决无组织的大世界的问题,数据密集方法基于统计分析可从整体上研究大世界的相关性。大数据时代数据密集型科学范式是面向大世界,无需定义边界,无需规定规模,只受限于数据,无需模型,不受还原论约束。作为一种整体论的解决方法,可不受时间、空间尺度影响,由数据发现涌现性、演化机制,适应开放复杂大系统的要求。基于数据及其关联网络形成的数据界,通过“机器学习”、数据挖掘,发现这些节点和链接的关联,从而获得整体的知识。通过“众包研究模式”使大规模科学研究成为可能,如Google“流感趋势”项目、地球引擎项目。肖田元教授认为,需要发展仿真范式,与数据密集型方法相融合,实现密集计算与密集数据的集成,以实现无组织的复杂的系统的因果规律的发现。
