2016数博会:第一届大数据科学与工程国际会议纪要

本次数博会有接近150场大数据和信息化论坛,CCF大专委等单位主办的《第一届大数据科学与工程国际会议》只是其中之一,会议的总主题是“认识、科学、创新、人才”,会议设置一个主论坛和四个平行主题论坛。主论坛的主题是“大数据科学认识与理解”,平行论坛的分主题分别为“大数据分析与管理”、“大数据系统”、“大数据安全”和“大数据科学与人才”。

上午的主论坛均为院士和国际知名专家发言,主要特点是从广度和深度方面进一步分享了对大数据的理解。

演讲1:邬贺铨《大数据之博大精深》

:邬院士的观点是“大数据具有多个来源,其中包括社会空间数据、物理空间数据、信息空间数据三个方面。分局分类可以分为国家安全数据、商业秘密数据、个人隐私数据,但其中只有部分数据是开放的”。博的主要特点是类型和属性多,下图是对医疗大数据的分析。和后面专家的一个共同观点是:非结构化数据和结构化数据相结合可以更好描述对象

 image

:主要是指规模,邬院士举了一个例子,“2020年人类的数据量可能会到40ZB,装到光盘上,重量可以装几十艘现在美国的“尼克兹航母””。院士从政务、消费、企业数据分别介绍“大”,同时也指出“大”还包括维度,也指出数据和石油等资源是不同的,不能以大概全,要从小数据分析开始。

image

:主要是指数据的精确性。院士的观点是大数据虽然强调规律性,但是只要数据集合适,也可以得到精确的结果,大数据的计算是近似的求解过程,不同应用对数据的精度要求不同【这个我认同,运营商的位置数据用于规划完全没有问题,但是用于导航则不可以】。同时大数据有助于提高结果的精度【这和前面的近似求解的意思不同,意思是即便是近似的计算也可以提高结果的精度,关键是算法的改变】

image

:主要是指算法的复杂性。邬院士的观点主要是深度学习算法在工程中已经提升了算法的效果,但是理论机制尚不明确,目前在语音和图像识别方面已经获得很大的效果,需要建立模型。

演讲2:俞士纶《对异构数据源的思考》

俞教授主要的观点是要充分利用数据的多样性(Variety),整合结构化数据分析和非结构化数据分析的结果,形成全新的认知。并说整合所个数据源的信息是大数据研究的圣杯(Holy Grail)。俞教授用医学药品的研制为例介绍了异构数据整合应用。

image

【异源/异构数据的整合会提升数据的维度,而且也可以进一步提升结果的质信水平,但是感觉其中并没有什么通用的方法,需具体问题具体分析,有的行业还需要大量的实验来验证。http://www.kdd.org/kdd2016/papers/files/Paper_86.pdf

image

Joint Hamming Embedding

演讲3:高光荣《大数据系统软件前沿的几个开放问题》

高教授在演讲中分析了高性能计算领域发展历程,以及面对大数据的时候,面临的3个挑战:(1)产业链中大数据和超大规模计算之间的差距(2)数据和知识的差距(3)知识和“$$”的差距。高教授接着介绍了商用和科研大数据生态系统的差异。高教授介绍了Cyclops64、从SWARM到CrAMER、Yita流计算引擎等几个示例,得出的结论是提高计算能力的关键因素是计算模型(PXM),需要研究一种与之匹配的抽象机器架构

image

但是高教授并没有给出这个架构是什么,虽然可以从高教授经历的几个项目中看到一些暗示,但是面向深度学习的抽象架构到底是什么呢?这就是高教授的开放问题

image

演讲4:张晓东《大数据分析将对人类社会本身的了解达到前所未有的高度》

张教授演讲的主要内容是介绍大数据对人类社会的影响:大数据加速传统商业系统厂家的萎缩;世界级的大数据企业如Google等必须拥有成功的通用软件;大数据分析是走向理性决策的重要基础;接着张教授就从中国的“胡焕庸线”,以及建国后的移民政策失败;相反美国人口从1790年到2010年从东部到西部的成功。然后我就出去接电话了…

最后,张晓东感慨道,“上世纪90年代预测,互联网出现和完备将对整个工业生产和人类日常生活作出颠覆性的变化。现已被全部应验了。今天对大数据的分析,我们对人类自身的了解回答道一个前所未有的高度,越来越多的普适价值是以数据为基础的。数据是检验真理的一个重要标准。”

image

演讲5:郭毅可《数据科学与科学数据》

郭教授演讲的主要内容大数据在科学计算中的应用。“我们知道科学研究有三个主要要素,理论、计算、实验。这三个理论是这样的,从理论出发,我们可以建立模型。对这个模型的模拟可以产生数据。我们对事件进行假设,并进行观察,得到数据。我认为数据科学是当代科学的重要基础和方法论。实际上数据科学在当代的用处极其广泛,而且推动了许多技术的研究和发展。我们就是基于这个基础上做努力”【引用】

image

演讲6:华云生《大数据研究的战略思考》

华校长主管了科研投资,对世界各地关于大数据的投资是非常敏感的。华校长首先介绍了5个案例,包括PRISM(棱镜门)、2012美国大选、互联网情报分析等等,从中得出了3个成功经验:(1)工程解决方案。无需成熟理论基础;复用以往模式。(2)完整生命周期设计。完整基础设施;跨学科技术;长周期;核数据(Kernal Data)。(3)妥善定义成功标准。然后介绍了美国2012年大数据启动资金是2个亿$,中国在互联网、金融等领域开展应用,香港投资(1百万~6千万$)的科研资金、每个项目约6千万美元的研究主题。华校长认为从小型项目入手开展研究和试验更好。

image

应用的多样性

演讲7:方滨兴《云监控和云加密-打造可信的云》

方院士本来演讲的题目是《大数据催生大搜索》,由于这个题目在CCF演讲过,因此方院士将演讲题目调整为安全方面的题目。方院士认为要构建可靠、安全、可信、可控的云。通过分析现有CSP(云服务商),得出一个结论是CSP是不可信的,云计算的使用者必须自己保证云计算的安全。并给出了三种解决方案(实际上方院士是在介绍2个云计算安全产品,是云安宝提供的):云加密,通过数据加密;云监控,新型堡垒机

image

演讲8:梅宏《对大数据热潮的若干反思》

梅院士反思了目前的大数据热,首先从字面以及含义上分析了大数据概念,然后对大数据加以分类,并反思了大数据热潮下的盲目性,指出大数据发展还有很多条件不具备,一些领域的成功也未必代表整个大数据领域已经可以蓬勃发展。

image

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注