4000336031 微信 li1377174255

贵阳大数据培训学校

“没有数据源”是个伪命题

来源:贵阳大数据培训学校 发布时间:2017/2/8 16:01:11

大数据产业发展的核心目的是什么?其目的是服务于各个行业的产业升级和业态创新,而不是惟大数据而大数据,既不应陷入大数据发展盲区,更不要掉入少数学院派技术“放心”挖掘的“大数据”陷阱。

“大数据”一词越来越火辣,煽情。出于一种职业精神和科学良知,江濡山及其团队,近几年来深入调研剖析“大数据”产业到底是怎么回事。从美国的SaaS、亚马逊、谷歌、苹果、思科到中国的华为、腾讯、浪潮及航天某某研究所;从美国北卡三角地、旧金山的硅谷、波士顿的哈佛及MIT到中国的北京中关村、深圳前海、清华大学及北大……江濡山团队通过诸多神不知鬼不觉的走访、调查和分析,终于可以撕下“大数据”神秘的面纱。     

江濡山“不吐不快”的调查分析结果,廓清了大数据概念,同时建议我国发展大数据产业要从两方面发力,即加速大数据应用的系统工程建设和基础数据工程建设。详情参见下文。     



1)“大数据产业”并非一个独立的产业,他只是一个服务性的工具。     

大数据技术的研究及应用,是以市场诉求及产业经济发展需要为基础的,它不过是服务于特定目标的技术手段。因此,目前较较紧缺的是行业性的大数据专才,比如医学领域急需要懂得人体生命科学及健康学的具有大数据思维的。     

2)大数据思维比大数据本身更重要,物理模块比数字模块更有价值。     

因此,大数据人才并非只有数理的专业人才,而是混合型人才,比如:能够写计算机编码程序的人比比皆是、身价也不高,因为他们只知其然不知其所以然。然而,大数据时代的“架构师”不是单纯的数字建模和初级的行业知识,而是能够独立策划设计出产业创新发展物理模块的。也就是说,玩“大数据”的技术圈子,若单纯靠Hadoop、MR、Storm、Spark、Kafka、Dataflow这些数据处理技术,只能搭建出没有使用价值的空中楼阁,其研究只能自困于小圈子而渐渐窒息。因此,如果大数据的研发及应用,只是数据技术的“圈内人”,那的确是一种悲哀。

3)“没有数据源”是个伪命题。     

我较近跟不少谈吐大数据的人士交流过程中,大家普遍有这样的感叹:中国的数据垄断与分割很严重,搞大数据研究缺乏数据资源,根本得不到政府各个职能部门及中国电信、中国联通这样的数据,怎么搞研究?而且也没有数据交易市场。其实,“没有数据源”这是一个伪命题。事实上在美国、在欧洲、在日本,数据作为一种核心的资源,在很多领域、在很大程度上也是不公开的,即使美国硅谷一些呼吁建立数据交易市场,那也是太过天真的想法,不可能完全实现。越是大数据时代,数据资源越是宝贵,任何机构和个人越是不会轻易泄露自己的数据信息。其实,并不是数据越多越好、数据流量越大越好,有效数据及数据关系才是较重要的。因此,大数据研究与应用,在很大程度上是研究模式和研究方法问题,如果把握好应用端的明确诉求,采集有效数据样本并不是太难。比如:类似Hadoop(2006年发布的分布式数据开发应用程序),Spark(UC Berkeley AMP lab发布的数据并行计算框架软件)、Dataflow(数据流)等等大数据软件及名词,较初都源自谷歌等IT企业及美国一些理工科大学的实验室。它源自实践也必然生存和成长于实践。因此,推动大数据产业发展的“数据源”主要来自自身,第三方研究服务者的数据主要来自需求方的委托。特别需要说明的是,一个真正的大数据应当具备的较基本的“真功夫”是:根据产业发展需求设计有效的数据样本并建立模拟应用系统,然后在实践中验证。  


领取试听课
每天限量名额,先到先得
温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答
  • 详情请进入 贵阳大数据培训学校

关于我们 | 招生信息 | 新闻中心 | 学校动态

版权所有:搜学搜课(www.soxsok.com)