侵权投诉
订阅
纠错
加入自媒体

中国科学院院士徐宗本:用好大数据必须具有大智慧

2015-12-17 11:06
雷本祖
关注

    12月12日,2015中关村大数据日“共享共融数创未来”主题峰会在北京中关村国家自主创新示范区会议中心举行,在当天上午的主题峰会上,中国科学院院士徐宗本做了主题为“用好大数据必须具有大智慧”的主旨演讲。

  中国科学院院士徐宗本

  以下为徐宗本发言实录:

  各位领导、各位同仁,刚才成果发布无疑给大家展示一件事情,大数据确实能干很多很多的事情,有另外一句话说大数据的确具有大价值,但是最近也不能不说,有很多人在说另外一句话,叫大数据也有大忽悠的一面,所以我的标题就取成了中道,中庸之道,大数据确实有大价值,但是大数据用得不好就是大忽悠,所以我的结论是用大数据是大智慧,但是要用好大数据必须具有大智慧

  从国家层面深刻认识到大数据的 价值意义所在,问题在于我们大家怎么办?我的发言说三句话,理性认识数据、准确把握机遇和科学应对挑战。我把我的中心语放在第三部分。

  数据里面有太多的误区需要澄清,否则我们就以为数据是万能什么都能干,其实我的 结论是告诉大家,数据也并不是万能的。大家都知道什么叫数据?数据其实就是社会活动的这些资料的数字化,用标准的科学术语上讲,数据就是指具有编码形式的信息载体,好记的话就叫资料数字化形式。

  什么叫大数据,就在数据前加了一个大,不是全部,大数据基本上是说是大而复杂的数据,复杂是什么?复杂泛泛地说四大基本特征,第一,海量性。第二,确实是具有时变性,第三,集构性。第四,分布性。大而复杂的数据才叫大数据。

  什么叫大?一个误区。我给大家展示一个图,这是关于生活片断,假定积攒了20年,再过了五年,慢慢有了样子东西出来,这个时候只有很少数人看得出来,如果再积攒5年,大家看到,它就是个大象的轮廓,这个数据再积攒五年,不仅看到轮廓也看到上面的编码甚至更多的细节。这件事情告诉我们,数据在积累过程中间有一个从量变到质变的转变过程,这个点使得数据积累达到这么一个程度,我们叫做大数据临界点,超过临界点意味着我们通过数据对它背后的故事能够说出一二,大数据的临界点。

  大数据是指超过临界点的数据叫大数据,不仅仅是指存储量太大太大的那个叫大数据,那是一个误区需要注意。所以大数据两件事情必须记住,第一,对于决策问题而言。第二,大是个相对,我想这两件事情给大家做一个交代。

  大数据之所以有用数据积累到一定程度,集散能力提高,这件事情加在一起就变得非常有用。到底价值在哪儿?今天早上有很多 领导讲过了,概括说主要提供社会科学的方法论、形成高新科技新领域,形成社会进步新引擎,每一部分都能挖掘下去,我特别同意马校长讲的一句话,提供科学的方法论,使得科学决策变到基于事实的决策,变得客观的决策,人治、法治的概念,提供广泛遵循,被所有人接受的方法论,这是大数据真正魅力所在。

  大数据当然是很重要,另外我希望认识上,大数据到底是一个过眼烟云的技术还是一个永恒的技术,刚才讲了很多词,叫物联网、互联网、大数据、移动互联网,我们简称为物大云移。分析这几个技术,你会发现,物联网讲人、机器环境怎么交互。互联网云计算或者云存储讲的基础设施,大数据讲什么?大数据讲的是机器和机器、机器和人发生的交互,信息处理基本形式,所以说大数据是在从信息技术的底层含义来捕捉信息化的共性基础和未来发展趋势。从这个意义上讲,大数据技术是一个底层技术,基础性、内蕴性、普适性可以给它助力。

  第二,机遇。成果发布这么多,这一部分不必要讲,我反过来说管理机遇、产业机遇、科学研究机遇、学科发展机遇,我在大学当然关注学科发展机遇,一会做结论。传统所熟悉的统计学,传统统计计算科学面临大的改革和挑战这才是大学服务于社会,大学用于培养真正适应于大众创业、万众创新的人才第一个切入点。

  我讲的另外一个方面,我们到底挑战在哪儿?其实半年前我在中国科学报对我一个采访,大家记得有一篇文章写的我的观点,大数据产业需冷热结合。这篇文章基本观点,大家对大数据有很高的热情,适应大数据的潮流,但是确确实实需要冷静认识它能带来什么。我先说说这件事情。

  先说我们大数据,挑战在哪儿?我们首先看一看,我们对数据很熟悉的以后基础在哪儿?我们都知道,统计学是作为数据分析和处理的相当微积分的概念,这个概念是个什么概念?什么叫统计学,首先处理的是抽样数据,既然是抽样数据,当然 都会假设,ID,意思就是说独立同分部,大家按照公正性原则、简便性原则等等抽样出来的数据,这是第一。

  第二,我怎么来做推论呢?做推论是基于当我所说的这个事情能够重复无限次而得到稳定分布的结果来作为推断依据,概括一句话,什么叫统计学方法,传统的统计学方法是以抽样数据为对象,以极限分布为基础的数据分析方法。但是注意,这种分析方法大数据时代完全颠覆不成,首先我们的数据是个自然数据,不具有IID特性,第二,我这个数据既大同时又有决策结构不够,让它重复一千次不可能,数据用机器学习方法、辅助学习方法得出结论,大数据是没有成型的方法,大家不要觉得我们现在有那么成功案例,并不是说它完全成熟,我在那篇文章中间有一个基本观点讲,大数据和其它产业转化不一样,是理论、技术,产业伴生的产业形态,产业形态是完整性的产业形态,不同于其它的产业形态。

  带来什么后果?前些年大家看了很多书,这些书传递了一些是事而非的概念,我从严格意义上讲。比如说既然样本很大,样本就等于母体,样本是离散世界,母体是指从离散事件归于哪一个总类是母体,既然数据这么之大,相多的人认为不需要考虑母体,样本本身等于母体,对吗?孩子再多没有父母可能吗,这是第一个认识。

1  2  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号