在目前的南方大规模降雨中,百度、阿里巴巴等多家公司利用大数据,即时发布武汉等城市街道积雨状况的地图,提醒出行市民提前避让。这显示了大数据的巨大威力和前景。
在日前举办的中国大数据产业峰会暨中国电子商务创新发展峰会上,中国工程院院士、中国互联网协会理事长邬贺铨向记者表示,大数据不能追求以大盖全,而应当追求数据精准并强调规律。“对一个大数据集而言,我们很难要求所有数据都精准,但只要大多数数据有代表性,就不妨碍我们利用数据集合得到较为准确的结果。”
据介绍, 2015年、2016年两年内,全世界新产生的数据量约等于人类有史以来到2014年全球累积数据量的总和。邬贺铨认为,大数据具有增长性、颗粒性、异构性、移动性、多维性、隐私性等特点。他以医疗大数据为例介绍说,一个千万人口的国内城市50年累计的医疗数据量,预计能达到10PB级。这些数据具有多样性和碎片化的特点,颗粒性大小差别很大。未来,人们需要将这些非结构化数据转换为结构化数据进行处理和储存。
“我们正加速进入大数据时代,但并不是所有数据都能开放,而是按照分类来进行部分开放。”邬贺铨说,大数据有很多来源,包括社会空间数据、物理空间数据和信息空间数据。比如国家安全数据、商业秘密数据、个人隐私数据这三方面的数据就不能开放。