首页 >> 跨学科 >> 理论与方法
大数据时代与社会科学研究范式变革
2020年05月15日 16:55 来源:《理论探索》 作者:刘涛雄/尹德才 字号

内容摘要:

关键词:

作者简介:

Big Data Era and Social Science Paradigm Transformation

  作者简介:刘涛雄,尹德才,清华大学,北京 100084 刘涛雄(1973- ),男,湖北崇阳人,清华大学社会科学学院教授、博士生导师,主要研究方向为宏观经济、大数据经济分析、产业经济等;尹德才(1982- ),男,山东临沂人,清华大学社会科学学院博士后,主要研究方向为宏观经济、大数据。

  原发信息:《理论探索》(太原)2017年第20176期

  内容提要:大数据时代的到来对社会科学研究产生巨大影响。除“全样本”数据、大数据技术以及数据驱动的知识发现三个方面的直接影响外,大数据还将进一步推动社会科学研究范式三个层面的变革,一是研究路径变革:大数据“数据驱动”模式与当前社会科学“理论假设驱动”模式相结合形成新的研究模式;二是研究手段变革:大数据及相关技术将成为因果发现的强大武器;三是功能变革:预测问题和因果问题将得到同等重视,并将有机统一于有关研究特别是政策研究中。

  关键词:大数据/社会科学研究范式/知识发现/传统社会科学

  标题注释:国家社会科学基金重大项目“基于大数据的中国宏观经济景气衡量方法研究”(16ZDA008),负责人刘涛雄。

 

  特邀主持人:刘涛雄(清华大学社会科学学院教授、博士生导师)

  主持人语:毫无疑问,大数据已经掀起一场革命,正在深刻地改造人类社会、经济和政治秩序的各个方面,我国亦于2016年明确提出“十三五”期间将实施国家大数据战略。无论大数据作为研究对象抑或是研究方法,均对社会科学研究范式的创新产生了深刻影响。为了加深学术界对于大数据与社会科学发展的认识,促进学术对话与交流,我们组织了两篇文章集中探讨大数据对社会科学研究范式的复杂影响。第一篇文章区分了大数据对社会科学研究范式的直接影响和间接影响。大数据时代通过为社会科学研究提供“全样本”数据、大数据技术和数据驱动的知识发现产生了巨大的直接影响,还间接地推动着社会科学研究范式在研究路径、研究手段和研究功能上的深刻变革。第二篇文章以“计算社会科学”为研究对象,阐述了这一交叉学科的缘起、学科嬗变以及其推动社会科学研究范式转换的方向。大数据为新兴学科发展与范式突破创造了机遇,并形成了一系列围绕着数据驱动和算法驱动采取不同融合方式的“问题解决性、应用导向”多元化研究进路。作为技术进步、数据爆炸和方法创新的产物,计算社会科学融合了社会科学的计算传统,基于海量数据资源和多元化数据分析学推动着社会科学范式转换。

  随着网络的普及和信息技术的发展,人类社会进入大数据时代。尽管“大数据”的定义存在差异,但大数据已深刻影响到社会的各个方面,引起人类生活、工作与思维的大变革。科学研究,特别是社会科学研究同样受到强烈影响。大数据的出现不仅提供了“全样本”数据,还为社会科学研究提供新的研究方法和技术手段。同时,一些观点认为大数据强调重视“相关而非因果”也引起诸多争议,对以因果探究为核心的传统社会科学研究产生冲击。在这种情形下,社会科学研究者该如何看待大数据带来的机遇和挑战?如何利用大数据进行社会科学研究?大数据将如何影响社会科学的研究范式?现有文献对此类问题的研究较少,为此基于对大数据时代社会科学研究面临机遇与挑战的分析,本文探究大数据时代社会科学研究范式变革的方向。

  一、大数据时代社会科学研究范式面临变革

  “大数据”一词正式出现于1998年《科学》杂志刊登的《大数据的处理程序》一文,此后《自然》杂志2008年出版“大数据”专刊,“大数据”一词得到普遍认可和使用。关于大数据的定义学术界并没有达成共识,由于关注点不同,科技企业、研究学者、数据分析人员和技术实践者对大数据有不同的定义。从狭义上讲,大数据是指数据量的大小超过了传统意义上的尺度,一般的工具难以进行捕捉、存储、管理和分析。[1]该定义仅仅描述了大数据的“大”,没有涉及大数据的其他属性。当前一般认为,大数据的典型属性概括为“4V”,即数据体量大、数据产生速度快、种类多样和价值密度低。

  就社会科学研究而言,大数据时代到底为我们带来什么?借鉴Einav & Hendry的概括,至少有四点很重要[2]。一是数据的实时可得。如互联网上的大量信息是实时的,移动互联网和物联网的发展导致每个人可能随时随地在制造数据。社会科学应充分利用数据的实时性,大大提高研究的时效性。二是可得数据是海量的。正如Mayer-Sch.nberger和Cukier所言,传统统计学处理的主要是样本,而在大数据时代,你能得到的数据可能就是总体本身[3]17。如就个人迁徙而言,手机等随身设备可能将每个个体的移动都记录在案。大数据时代的到来,许多数据贫乏的学科成为数据富集的研究领域,而“社会科学是被‘样本=总体’撼动得最厉害的学科”[3]42。大数据提供的“全样本”数据不仅使得许多因数据缺乏而无法开展的研究得以开展,同时也带来新的挑战。大数据其量之大超出一般传统统计软件所能处理的范围,而且解释变量增加会导致高维数据中的“维数灾难”,解决这些问题需要新的分析方法和工具。三是数据的非结构化。大数据的来源和形式都十分多样化,如互联网信息包含文本、图片以及影音等多种形式。这些信息中到底哪些包含我们所需要的信息?社会科学研究如何充分利用数据挖掘技术,将这些非结构化信息转化为统计模型所能利用的形式?这些都是需要解决的问题。四是数据分析的技术手段日新月异。伴随着数据规模的扩大,新的大数据分析技术不断地涌现,机器学习、并行计算等技术的发展和改进加快了大数据的处理速度。社会科学研究如何吸收和利用这些强大的技术手段,使之成为社会科学家工具箱中的利器是未来社会科学家们必须面对的问题。[4]

  但是,相对于上述直接影响更为重要的是,我们需要思考大数据时代到底给社会科学基本的研究范式带来哪些影响?社会科学的研究对象为社会,目标在于认识各种社会现象并尽可能地发现关联,而核心在于探究因果关系。正如哈耶克所言“社会科学研究的不是物与物的关系,而是人与物或人与人的关系。它研究人的行为,它的目的是解释许多人的行为所带来的无意的或未经设计的结果。”[5]7各种社会现象可视为已发生的不可控试验,其背后存在某种潜在的本质规律或因果关系。考虑到因果联系的普遍性和复杂性,数据作为对不可控试验的特殊描述必须尽可能的丰富,唯此才是更全面、更接近真实的描述。大数据驱动的知识发现已经对传统社会科学认识论和方法论的研究方法产生巨大挑战。Steve Kelling等认为,传统的认识论“以专家为中心”,传统科学方法论的研究依赖于以“专家为中心的参量分析”,其研究中心是理论模型与经验证据的关系[6]。该方法论在大数据时代具有局限性,对单个专家而言大数据分析不可行[6],而且科学哲学经验——理论这一单线理解模式也难以应对大数据时代的认识论这种新情况[7]。另外,流行的观点认为,大数据分析关注的焦点不再是因果关系,而是相关关系。大数据的支持者认为,“有了足够的数据,数字会自己说话”,因而“相关关系足够了”[8],“大数据时代最惊心动魄的挑战,就是社会将需要从对因果关系的某种痴迷中蜕出”。《连线》杂志主编Anderson甚至认为“数据爆炸导致科学的研究方法落伍了”[8],大数据时代分析和理解世界,只关注数据就足矣,数据分析可揭示一切问题,理论变得可有可无。这一观点撼动了不少社会科学研究者,使他们开始憧憬“传统方法的终结”。此外,不少研究者至今仍然认为大数据虽然不是绝对精确,但由于数据量极大,所以误差必然在可以接受的范围之内。

  较之于大数据而言,传统社会科学研究中使用的数据可称之为“小数据”。传统“小数据”方法的缺点是往往采用人工收集数据的方法,成本高昂,数量较小,时效性较差,滞后性严重。但其优点是在严格的统计抽样规范下形成,数据质量相对较好;而且“小数据”通常是根据研究需要有目的获取的,比被动收集的“大数据”具有更强的针对性。因此,对那些具有理论意义和理论突破的研究,小数据可能比大数据更适合[9]。另外,很多时候我们采集到的大数据并非真正的全样本数据,它可能是总体中某一部分的数据,比如就互联网上的在线数据而言,网民并不等同于“公民”的总体。进一步而言,实际上以当代计算机信息技术领域的数据挖掘专家为代表的大数据分析方法和社会科学家们拿手的小数据实证方法代表的是不同的研究范式。前者产生于大数据社会,充分利用信息产生和获取的便捷,基于计算机计算能力的不断增强,直接对海量的大数据进行分析处理,通过数据量之大和计算力之强减少对理论的依赖。后者是在信息收集成本高昂的工业文明时代发展形成的,注重基于已有的理论知识缩小研究范围,以先验的理论假设明确研究方向,依据严格的统计抽样规范收集数据以提高数据质量降低收集成本。在大数据时代来临之际,我们应该在洞察两类不同范式形成的不同机理,深入分析各自优越点和应用场景的基础上,探寻未来社会科学研究的新范式。而本文认为,大数据时代社会科学研究范式的变革至少包括以下三个方面。

  二、研究路径变革:“数据驱动”的知识发现

  数据驱动的知识发现,是指利用统计学、机器学习等方法从掌握的大数据中提取隐含在数据背后、人们事先不知道,但存在潜在效用、能被人理解的信息和知识的过程。其中,精细的概率模型、统计推理、数据挖掘与机器学习相结合,成为从大数据中提取知识的有力途径。基于数据的知识发现催生了2007年图灵奖获得者吉姆·格雷(Jim Gray)提出的科学研究“第四范式”。他指出,科学发展经历了几千年前的实验科学(主要用于描述自然现象)、几百年前的理论科学(用模型或归纳法进行科学研究)、计算科学(主要模拟复杂现象),而当今“科学世界发生变化,对此毋庸置疑。新的研究范式将首先基于计算机模拟或者仪器捕捉获取数据,然后利用软件处理数据,并在计算机中保存得到的知识或信息。科学家仅在该过程的最后阶段才开始审视他们的数据。这种数据密集型科学的技术和方法是如此不同,应该将其作为科学探索的‘第四范式’以区别于计算科学”。[10]

  相对于“数据驱动”而言,当前社会科学的主流研究范式可称为“理论假设驱动”。社会科学家进行一项研究时,强调首先要通过广泛的文献调研以了解现有知识体系的前沿边界,然后提出本研究可能给现有知识体系带来的贡献,即研究的基本“问题”所在;然后从该问题出发,在一定的理论框架和必要的理论推演下提出待实证检验的“新知识”,也即“理论假设”,然后设计统计模型、收集数据,最后利用所得数据验证理论假定并得出结论。这一过程深受波普尔证伪主义的影响,实证研究一般被定位为对理论假设的证伪。此外,理论假设的提出过于依赖于已有理论体系及研究者的知识和观念,致使社会科学的知识发现具有两个明显的特征,即“路径依赖”及对研究者主观观念的“个性依赖”。

  可以预见,大数据时代的社会科学研究将充分吸收“数据驱动的知识发现”模式的优势,形成“数据驱动”和“理论假设驱动”相结合的新范式。“数据驱动的知识发现”对社会科学研究产生挑战并将重构研究过程,但这并不意味着理论假设驱动的社会科学研究范式的终结,两者的结合将更好地认识世界。实际上理论假设驱动的研究路径为广大社会科学研究者所接受的重要原因是,其在信息不足条件下带来的高效性。在传统的技术条件下,社会科学研究者搜集信息、处理数据面临着高昂的成本。基于已有知识体系提出理论假设,有助于迅速聚焦研究的问题,而基于核心问题出发收集和处理数据,有利于节约成本。但这种先给出理论假设的作法也往往局限了研究的理论创见,因为选择了某一理论假设就意味着放弃了很多其它的甚至更有价值的理论假设。随着大数据技术的发展,收集和处理数据成本大大下降,研究者可避开现有理论和个人知识的束缚,在先验假设尽可能少甚至没有任何假设的情况下,通过大范围的数据挖掘发现一些基本的模式,从中提出更重要的研究问题和理论假设,并结合已有理论知识凝练理论假设;然后基于理论假设对数据进行进一步的问题导向、更集中的深度挖掘来验证假设的合理性;如果此时已有数据不能满足假设验证的要求,可进一步收集数据,当然也可以采用传统方法收集小样本数据,以保证假设验证的科学性。因此,大数据时代一项典型社会科学研究的实施过程将包括初步数据挖掘与问题发现、问题聚焦与理论假设确立、深度数据挖掘与假设检验、知识形成与研究结论等环节,而基于数据的知识发现模式及大数据分析技术将深度融合于以上各个环节之中。

  值得注意的是,在两类研究路径结合的过程中常会面临一个选择,即应该采用传统的社会科学统计分析方法还是采用大数据方法。我们认为这需要理清两者研究目标的异同、对数据特征的侧重以及技术方法的差别,然后根据具体研究场景予以取舍。从统计分析的一般规律来讲,假设的强度和结论的精确性、稳健性之间存在此消彼长的关系。理论假设越多,统计分析的结论通常越精确,但如果假设不成立,稳健性则越差;反之则反。传统的社会科学统计分析方法和大数据方法反映了不同的统计哲学。传统的统计分析方法往往从一定的理论假设出发,构建指标和模型,其优点是理论相对严谨,结论明确,可证伪度较高;缺点是对假设的严密性及数据的质量均有较高要求,对研究对象发生结构性变化时的适应性较弱。[11]而大数据挖掘方法,则以“基于数据的知识发现”为基本原则,以数据的量大弥补理论前提的不足,优点是前提假设少,对数据质量要求相对较低,缺点是对内在理论机制的揭示不足,数据量要求大。

作者简介

姓名:刘涛雄/尹德才 工作单位:

转载请注明来源:中国社会科学网 (责编:李秀伟)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们