8月19-20日,由工业和信息化部批准,中国通信学会主办,中国电信、中国移动、中国联通协办,信通创展承办的2014中国国际大数据大会在北京国宾酒店成功召开,为期两天的会议吸引了八百多位嘉宾出席交流。高峰论坛、智慧城市、互联网创新、技术创新、行业应用、产业趋势六大主题论坛场场爆满,反应热烈。大家从大数据顶层规划、政策标准、发展趋势到关键应用等热点问题展开深入探讨分析,洞察行业走势,共同见证和推动大数据产业创新与发展。
中国科学院虚拟经济与数据科学研究中心常务副主任石勇教授应邀参会,并在会上发表主题演讲,以下为演讲速记内容:
非常高兴来到这个会场。我今天到这里还没开始就遇到我的毕业生,是很高兴的事,我来自中国科学院虚拟经济与数据科学研究中心。我们数据科学中心比哥伦比亚大学的数据科学中心早成立五年,我们最近又成立了一个大数据挖掘科学实验室,我不是讲具体算法,我从事数据分析科研已经三十年了,怎么叫法不重要,也许五年以后不叫大数据了,我们还得搞数据分析,这是我们的本行。
这张图片可以讲明大数据的三个含义,这个客户到某一个地方需要一个服务,办事员却很高傲,他说我从数据库里面的数据和网上的数据以及政府的数据,三个数据通过分析、通过挖掘以后,发现你在我们这受欢迎程度只有23.5%。这个例子表明三层含义:第一,大数据来源众多,有网上的数据,有政府的数据,有数据库的数据;第二,一定要通过挖掘,这是最重要的;第三,大数据隐含的意思是说它颠覆性地改变了管理决策结构,作为办事员的他,变成了决策者,而且非常精准,绝对不会出错,这就是大数据的应用。
大数据时代到来,大家对这个东西有不同的看法,我们认为有几点是要注意的。第一,它是环境:不管怎么样,我们是离不开大数据的,我们今天在座的不管做什么事,问不到三个不同的问题,就会跟数据联上关系。第二,它是现象:我们看到的东西,它后面隐藏的都是数据。第三,是口号:我们60年代初讲数据库管理,到90年代初讲数据挖掘,五年以前讲BI/BA,这些东西都不如大数据这个口号好,因为大和小是非常清楚的。大也相对小而言。美国70年代就有小数据的说法。对大数据的量有不同的看法,这是IDC的报告,是比较保守的,这个报告讲中国数据占13%,2020年将占22%。我认为这个预测可能被超过,中国现在已经超过5.6亿网民,4.2亿手机用户。大家可以看到,今天的数据可能比这个还要多,不管怎么样,我们那么多人在用IT工具产生数据。中国很可能成为大数据第一大国。
大数据的内涵第一是体量巨大,第二是类型繁多,第三是价值密度低,第四是需要处理迅速。关于大数据的概念有很多种,现在比较统一的概念是美国NSF提出的概念。我们中科院与其他单位合作举办了三次香山会议,香山会议在中国是级别比较高的会议,我们第二次会议结果就促成了两个973计划。第三次会议为国家成立网络安全信息领导小组提供了决策依据,在该会上我们提出了自己的大数据定义:大数据是来源众多,类型多样,大而复杂,具有潜在价值,但是难以在期望时间内处理和分析的数据集。这个定义比较简明,相对美国的概念要简单多了。另外为了让高层领导知道什么叫大数据,我们提出了大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。这个定义是普及性的。
大家知道大数据有三个来源,第一政府,第二企业,第三网络与开源数据。我们到现在还在给政府写报告,希望政府开放数据,G8去年在会上通过决议要开放数据,结果最后到了去年年底日本也开放了数据。我们中国政府也应该开放数据,应该统一的网站,应该是原始的数据,而不是处理过的数据,数据是人民的财产。第二关于企业数据,希望政府出来做管理条例和法律,让企业之间的进行数据共享。如果不共享,数据就没有生命力。关于网上的数据不用说了。
关于数据的发展是这样的,这是我们的看法,人类分析数据已经上千年历史了,但是真正用科学的方法处理数据只有不到三百年的历史,第一步是数据分析的方法,数据收集,数理统计到描述性的方法,第二种方法就是数据挖掘的方法,从数据收集、预处理,数据挖掘算法,到商务分析性的知识发现。这两种东西一般都是基于结构性的数据。大数据挖掘方法怎么做,这是需要大家研究的内容。
回顾历史,大家也许知道这样一个人叫Richard Price,是英国统计学家,他在1783年收集了大量继承花费的样本数据来计算与预测人寿保险和英国国债,这个东西在我们今天看来就是多维数据库,我们数据挖掘分析的工作都是基于这个表格来进行的,只是说线性的还是非线性的,结构化的还是非结构化的。今天从大数据角度看,多维数据库中间每个点可能不再是数据,而是图片,是文字。我们不需要分析他们的内容,而是需要分析他们的结构。但是,要把非结构化的数据结构化是困难的。数据挖掘过程是一个决策的过程,选取数据怎么选,是根据你的目标去做的,这是一个管理决策。如何把数据进行变换,什么方法都有。到了挖掘,这就跟计算机算法有关系了。到了最后,当你得到数据挖掘的结果以后,这个东西还不一定是知识,为什么? 因为它对某些人是知识,对另一些人不是知识。不一定懂数据的人才懂数据挖掘,只要你有好的工具也是可以的。
我想进一步提醒的就是数据挖掘方法的背后有许多的数学工具。过去两百年来人类历史上对人类影响最大的数学工具是什么?第一当之无愧的是统计学,第二位不是我们知道的是决策树或是神经元分析,而是数学规划,数学规划非常重要。比如,当我们要去买飞机票时,选取航班这种方式就是典型的数学规划,数学规划用处非常广。
《大数据时代》这本书在座每个人可能都看过,这两个作者是非常优秀的作者,但是还不够,他们仅是从商业的角度在启动这个市场。而且他们的三个观点都是不完整的,缺乏科学性。第一他们说大数据只需要全体,不要抽样,这是不对的。第一没有全部数据,全部是相对的,你分析全部也没用,你怎么用全部去预测呢,不可能。第二他们说只要粗糙分析就行了,其实应从粗糙中寻找精确,粗糙只能用于一时,精确才是追求。第三他们说大数据只需要寻找相关关系,这也不对,而应从相关关系中把握因果关系与必然关系,以便预测。他们只看到大数据的表面现象,没有看清其科学的原理。
关于大数据的技术问题,大家比较关心,香山会议开了很多次,我的一个学生叫刘成城,是36Kr的老总,他让我写了一篇文章,讲大数据的三个技术难点。第一个难点就是结构化问题,在云存储和云计算基础上,如何利用信息技术等手段对非结构化和半结构化数据进行有效处理,这已成为各国大数据专家共同关注的前沿科研问题,我相信我说这个话,每个企业家都非常明白。做事的难点在于分析非结构化的数据,如果你把它处理好了,大数据决策就容易了。
难点二,数据只能表示一个事物的侧面,不能表现全部。我们用数据刻画事物仅是事物的一个侧面,就像盲人摸象一样,我们做数据挖掘做出来的东西也是一个侧面的东西,不是全面的东西。怎样把不同侧面的数据挖掘结果来体现事物能产生的知识呢?
难点三,研究数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响,由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题。
我们讲的大数据大都是讲应用,实际大数据背后是数据科学,目前,我们还没有公认的数据科学的定义。笼统的讲,数据科学可能是将数学、统计学、数据挖掘、管理科学、模式识别、机器学习、先进计算、可视化、不确定模型、数据仓库、高性能计算等领域知识相融合。探讨数据获取的公理存在性或科学定律。但要找一个普遍的规律很困难,因为大数据的复杂性。找行业性的大数据规律是有可能的,比如金融数据有金融数据的公理存在性问题,健康的数据也有它的规律性。从应用问题上来讲,比如,人机物耦合方式及其综合集成决策过程,他们跟云计算有什么结合的方式,大数据的知识表达、测度与结构有效性等问题都有待研究。
大数据应用非常广泛,从互联网,从电商,从广告,从旅游,从网络视频统统都有,金融与大数据更不用说了。大数据与风险投资也相关,比如我有一笔钱要做风险投资,怎么能赚回来,这实际是大数据问题。大家看看36Kr的网站就知道了。城镇化、智慧城市与大数据,其中大数据是基础。大数据与金融创新会产生颠覆性的方式。
大数据培训工作也十分重要。我们中科院、清华大学、复旦大学等学校与机构都开始做培训工作。但一定要把研究机构和业界联合起来一道做。分析师不一定懂数据,但是他知道数据怎么用。我下面用五分钟时间结束我的报告,否则就超时了。我跟大家讲讲我们这些年从国际国内各种跟大数据有关系的一些项目报告,跟大家做一个简单的展示。
首先是Credit Card Intelligences,这个信用卡市场在美国是两百亿美金的市场,是非常大的市场,我简单地给大家说说我们做了什么,这是业界的成果,衡量数据挖掘结果好坏的东西,这是我们的一些算法,这种东西进行比较,大家可以看这是真实的数据,这是美国28个州的信息卡数据,上面是坏的累计函数,下面是好的累计函数,可以看到它们之间怎么变化。这是预测结果,这是四类人的分析结果。这是五类人的分析结果,上面一组人就是彻底破产,第二部分破产,第三是呆账,第四是正常人,第五叫高端客户,在国外做精准营销就是这样做的。我们帮助了中国人民银行在全国个人征信库上的8.5亿自然人进行数据挖掘,并建立了中国信用评分系统,这个信用评分精确度比美国的还要高,因为我们中国数据库非常准确,包括你在ATM取钱的数据都有。这是人行副行长对我们的评价,我们远远超过国际水平,其实我们的数据库是远远超过国际水平的。
2009年我们撰写的有关建立我国社会征信系统的政协提案报告被选为重点办理提案,后来我们和几个部委一道去调研,然后向高层领导写了一个相关报告,希望我国早日建立社会征信系统。这是我们给美国巴菲特公司做的实时信用卡审批系统。在中国办信用卡大约需要一个星期,其中两天是属于审计过程,是不能省掉的。剩下三天都是用来跑程序,美国办一张卡是两天时间。我们的系统仅需要五秒钟,只要你把信息输入机器,整个数据计算仅两秒半钟就能将与你相近的客户信用额度找出来,并对你精确决策。这是我们给相关部门做的项目,将多种半结构化或非结构化数据转化成多维数据表,用已知数据挖掘方法进行分析预测。这是我们做的东西,做的非常好,大家可以看这是从底层到上层。做到不冤枉一个好人,也不放过一个坏人。它可用于网上媒体的管理。这个是关于SOJERN公司的项目,它开始专门从事网上或手机办理登机牌,再利用产生的大数据做精准营销,因为它就掌握了旅行者的大数据。比如一个客户到洛杉矶去,要想办法租用最便宜的车,在他没出发以前,可为他约定租车。我们给中国金融交易所做的项目,他们每天收益费是几千万人民币,他们有几十个结算会员,每个结算会员里面有许多交易会员,我们要管理他们,不让他们买空卖空。
什么叫大数据挖掘?我们可用“庖丁解牛”的故事用作比喻,只要看牛的结构,不要看牛的内容。比如,我们不看成千上万的图片的内容,只要看其结构。举个例子,这个图片里面有人还是没有人,这就是一个结构指标,他是男的还是女的,又是一个指标,一旦指标找好,我们就对其结构性的进行分析。这是我们一个思想,我相信我们这个思想是对的,大家可以验证。
最后一号店的项目,我们给他们做了客户信用评分、客户价值评分及商户信用评分。我相信一号店将来生意会非常好,至少竞争者还没有这样做。什么叫大数据,将来怎么发展,这张图是大数据发展趋势,现在我们的程度,我们对社会媒体数据只简单的观察,如果我们进行分析的话,进行挖掘,至少要在2至5年左右才行。如果我们要讨论数据科学的问题,要10多年。我们还不知道何时才能有大数据的全面运用。当然,这个趋势预测是比较保守的。比如,从研究上讲,我们学者们在某些方面已经超前了,但是并不是整个都超前。业界的人也许知道。这是我们自己的杂志,今年刚成立的新杂志。这是我们的国际会议,我们去年和今年在莫斯科和中国召开的会议,这是我们国科大新校区举办的大数据的会议。这是我有关数据挖掘的书,它已经脱销了,在台湾也有繁体版,大家可以在网上买,100多美金一本,我们在书中把数据挖掘讲得非常清楚,你不懂数据的人,稍微懂一点计算的人都可以看。大数据在发展,前景很好,业界人感兴趣是对的,希望将来每个人都可以在大数据行业里找到很好的工作,对你自己好,对社会也好。谢谢各位!(资料来源:移动Labs,内容经石勇教授本人调整确认)