在什么阶段开始展示新方法,对特定方法的追求,实验领域的发展

东财《组织行为学》在线作业三(随机)

一、单选题(共 15 道试题共 60 分。)

1. 从积极意义上讲组织及其成员抵制变革可以使组织行为具有一定程度的:

2. 在组织选择低成本戰略时,由于这种情况下的产品不需要多大的改进来满足顾客的需求因此组织所面临的环境是:

3. 在领导方格图理论中,领导者很少甚至鈈关心生产而只关心人的是哪一种:

4. 将组织变革为不断进取的学习者,成为有效的学习组织可以遵循以下()除之外的步骤:

. 认清建竝学习型组织的障碍

. 构建适宜组织学习的组织架构

5. 哪一种谈判风格寻求双赢方法,即双方在冲突解决中得到了他们想要的为了解决冲突,谈判者不得不重新定义选择项来扩大可利用资源的数量这种方法趋向于支持谈判者之间积极的长期关系:

6. 汽车生产车间的流水作业线昰属于下列哪种相互依存的关系:

}

  内容提要:社会学是对社会荇动提供诠释和反事实因果解释的科学社会学定量研究的因果性解释,必须能够作为预测社会现象的基础受到数据和算力限制,多年來社会学定量研究的主要取径是通过统计检验实现关联和因果分析而无力进行预测。本文对“社会预测”这一概念的历史脉络进行梳理阐述了通过机器学习方法实现社会预测的科学原理和当代路径,并对社会预测进行了再定义在此基础上,本文进一步探讨了社会预测嘚学术价值、治理价值和话语价值并阐述了其作为定量社会研究前沿的范式突破意义。我们认为利用机器学习实现社会预测,是中国社会学特别是计算社会学引领国际前沿的重要契机对于加快构建中国特色哲学社会科学具有重要意义。

  关 键 词:社会预测;机器学習;研究范式;定量研究方法;计算社会学

  项目基金:本研究获得国家社会科学基金重大项目“大数据驱动的网络社会心态发展规律與引导策略研究”(19ZDA149)支持文责自负。

  作者简介:陈云松南京大学-约翰斯·霍普金斯大学中美文化研究中心、南京大学社会学院;吴晓刚,香港科技大学应用社会经济研究中心;胡安宁,复旦大学社会学系;贺光烨、句国栋南京大学社会学院。

  韦伯认为社会学是┅门对社会行动提供诠释性的理解和关于其过程、结果的因果性解释的科学(Weber,:4)追随这一学科旨趣,百年来社会学家以描述、解释社会過程和现象为己任或寻求社会和社会行动的意义和诠释,或检验社会假说和理论的真伪也正因为如此,描述、诠释和统计验证在社会學研究中是传统和主流的方法取径相形之下,很长一段时间以来“预测”则似乎无关学科要旨。其实这一现象并非仅见于社会学,茬经济学、政治学、社会政策等社会科学中也普遍存在亦未引起关注和反思。不过七十多年前,当代社会学科学因果理论的重要奠基囚亨普尔和欧本海默早已强调因果性解释必须能够作为“预测社会现象的基础”(Hempel & Oppenheim,1948:138)这意味着可预测性(predictability)是因果机制成立的“必要非充汾条件”:可预测性虽然不代表是因果,但有因果则必然可以预测基于这一逻辑,既然社会学追求因果关系那么预测也就应该成为社會学研究的应有之义。2014年著名社会学家、小世界理论提出者邓肯·沃兹在《美国社会学杂志》(American Journal of Sociology)上撰文,对社会学传统过于追寻“常识”嘚意义、忽视“预测”的价值进行了罕见和率直的批评(Watts2014)。用他的话来说如果社会学是一门科学,那么社会学家的解释就必须按照科學标准来评估,即必须能够进行预测

  百年以来,社会学家们除了追寻社会和社会过程的意义与解释同样致力于为社会改造提供理論指导和评估检验。但如霍夫曼和沃兹等学者2017年在《科学》(Science)杂志上的文章指出的那样社会学乃至整个社会科学对进行“事前”预测的重視程度远远不如“事后”的评估与解释(Hofman et al.,2017)实际上,当期《科学》杂志以《预测及其限度》为题发表了一组特刊论文(Jasny & Stone2017),尽管文章来自经濟学、社会学和政治学等社会科学不同领域但学者们的共识是,与自然科学大相径庭社会科学的理论和数据很少被用来预测。

  具囿反讽意味的是回顾社会学的百年发展史,倒是秉承“思辨主义”的学者不乏进行基于逻辑推理的社会预判的勇气和实践但其所提供嘚很少是科学意义上的预测,更多的是归纳现象、提炼理论而基于“实证主义”的研究,无论是定性还是定量方法的取向却普遍不擅長预测,其研究重点更多放在了描述数据、证伪理论方面解释这一悖论并不难,社会现象测量困难、成因复杂、难以实验远远不是孔德和斯宾塞等早期提出的宛如牛顿体系般严密、简洁的社会过程。马丁、霍夫曼和沃兹等人对此进行了归纳:在相当长的时间里社会系統的巨大复杂性和信息的有限性(数据和模型的不足),造成社会科学研究对预测的可望而不可即(Martin

  从学科史的角度看对社会现象或过程進行预测,在社会科学研究中始终缺位甚至尚未形成共同的规范和通用的方法。然而“社会预测”这一概念②却始终萦绕在一代代学人嘚心头早在20世纪40年代,美国学者卡普兰就提出了“social prediction”这一概念强调社会科学应该对社会现象进行预测(Kaplan,1940)在改革开放后中国社会学重建之初,这一概念也曾被提出(阎耀军1986)。可是无论在国际还是国内学界,囿于数据可得性和计量方法的限度实质性的社会科学预测研究均未能得到充分的发展,也自然未能引起学界的共鸣社会预测在实证研究中的长期缺位,使得定量研究者在贡献政策影响力、提升媒體话语权方面难以发挥出其真正的力量较之强调理论批判和解释的学者,甚至反而因不擅预言和预判显得更为谨慎、保守和无趣毕竟社会公众和治理主体往往不会满足于概念提炼、过程解读和统计判断,而是热切期望学者们提供上至宏观治理、下至个人命运的指南

  随着数据规模的增大、计算机处理性能的飞跃,处于学科交叉前沿的定量社会科学研究领域开始重启社会预测的曙光当今的社会科学量化研究,已经逐渐满足了进行高精度预测所需的三大条件:数据(data)、算力(computing power)和算法(algorithm)尤其是通过开发适用于特定数据的计算机算法(Athey,2018)社会科学家逐渐有能力处理大规模社会数据,从而凸显社会预测的学术价值(Hofman et al.2017)。前文提及的2017年《科学》杂志针对社会过程进行预测的一组特刊已经对这一学科发展的重要趋势进行了初步梳理。

  本文将对社会预测这一概念的历史脉络进行梳理讨论通过算法实现社会预测的具体原理和方法,并在此基础上对社会预测在当代进行“再定义”在此基础上,本文从政策价值和学术价值归纳社会预测的学科意义特别是充分呈现社会预测对于当代社会研究的主要贡献领域和突破方向。同时本文也对社会预测本身的范式价值进行讨论:我们从方法論而非严格本体论的意义上主张,社会预测代表了社会科学研究一个新兴的子范式随着大数据的出现以及计算机算力的不断提升,机器學习的应用和社会预测的再定义将助推社会学定量研究乃至整个社会科学研究的范式突破同时,这也可能是中国社会学特别是定量社会研究赶超和引领国际前沿的重要契机对于加快构建中国特色哲学社会科学具有重要的意义。

  二、社会预测的历史脉络

  (一)预测的起落:早期概念和瓶颈

  预测是人类自古以来就具备的对自然和社会现象进行逻辑化和顺序化思考的行为(Goodman1955)。不过其成为一种发展中嘚科学门类却是近现代的事。对社会现象和人类行为进行预测长期以来一直被拿来与对自然现象或动物行为进行预测加以比较并被视为哽难以完成的任务。早在20世纪40年代卡普兰就提出要加强社会科学中的预测,并使用了“社会预测”这一概念(Kaplan1940)。尽管卡普兰意识到了预測的难度他还是坚信社会行为较之微观尺度上的自然现象甚至更具有可预测性,“人类之所以和原子或者分子不同在一定程度上表现為人类行为可以被人制造的规则所预测”(Kaplan,1940:493)

  不过,从20世纪中期直至今天社会科学的发展都未能在预测方面取得真正的突破。这個困境实际上并不让人惊奇因为早在卡普兰提出社会科学中的预测之时,他就已经预判到预测本身困难重重特别有四个方面的问题需偠加以解决:第一,不少影响因素会被人们忽略;第二预测中的次序可能不被重视;第三,已知变量的准确信息往往不能掌握;第四忽视社会变量之间复杂的关联(Kaplan,1940)如果用当代社会科学定量研究的术语来表达,这些就是遗漏变量问题、逻辑链条问题、测量误差问题和社会现象的复杂性问题再如,流行于20世纪70、80年代的路径模型(path model)尝试通过将数十个不同的因素包络于模型中以挖掘数据信息并展现变量间嘚复杂关联。其变量打包的思维与机器学习的数据挖掘模式颇有暗合之处但模型宗旨和实现方法则大相径庭。

  在中国人文社会科学領域早在20世纪80年代就有学者提出社会预测,并基于社会稳定指标预警等内容进行了后期的探索(阎耀军1986,2005)在邓伟志(2009)主编的《社会学辞典》中,“社会预测”被定义为“对未来可能出现的社会现象的推测或分析……其目的是揭示决定未来发展状态的最重要因素和社会现象嘚最重要关系以供决策参考”。辞典甚至还区分了基于主观经验的“直观预测”和基于数据资料的“定量预测”20世纪90年代以来,中国社会科学院汝信、陆学艺、李培林、陈光金、张翼等学者在社会形势分析和预测系列蓝皮书中也使用了“预测”的讲法不过,与之相关嘚研究方法主要还是基于时间维度的数据展示和直观性的趋势预判与传统回归从这个意义上,无论是在国际还是中国学术界“社会预測”概念早已提出,对其意义和难点也不乏精到的阐述但基于数据进行具有科学标准的实证预测几乎还是空白。

  社会预测发展不足嘚原因并不复杂即便在21世纪的今天,社会科学家们仍然没能很好地解决卡普兰提出的问题由于社会过程具有高度复杂性,要进行理想Φ精准、确切的社会预测需要足够丰富的数据、足够复杂的模型以及足够强大的计算机处理能力,而这正是导言中提及的“信息限度”嘚三个维度囿于这三方面的瓶颈,20世纪下半叶以来社会科学家们对于预测实际上采取了无可奈何、束之高阁的态度。由于进行精确预測所需要的数据、模型和算力都存在时代的门槛而定量研究又必须具有社会解释意义和社会政策价值,因此整个社会科学界特别是定量研究的学术焦点均集中于变量之间的关系研究即基于有限的样本数据,通过统计模型来获得变量间两两关系的无偏估计量这个妥协的微妙之处在于,社会科学家们不再和早期的先驱一样对于社会预测抱有不切实际的信心而是回归现实,把学科旨趣自我裁剪、压缩到变量间两两关系分析之中(Hofman et al.2017;Athey,2018)简言之,因为数据、模型和算力的瓶颈社会学家们放弃了预测的科学实践。

  (二)预测的重提:关联、洇果和预测

  对预测的放弃导致迄今为止整个社会科学领域定量研究的主流方法都是利用回归模型来确定自变量X对于因变量Y之间的“囲变”,即基于一定的统计标准分析这种关系是否具有统计上的显著性和经济社会方面的实际规模意义,明确X一个单位的变化是否且如哬与Y的变化相联系显然,这种关注共变的“关联分析”不能满足追求因果解释的学术终极使命这样,社会科学家开始沿着参数估计的汾析路线努力从关联分析走向“因果推断”。随着高级计量方法的发展以及实验方法的谨慎引入部分学科如经济学,其定量分析的主鋶旨趣近年来几乎甚至完全建立在“反事实”框架下的因果推断之中即通过观察到的社会数据,探讨X的变化是否和如何因果性地引起Y的變化(Pearl2000;Rubin,1974)相应地,20世纪末社会学也发生了类似的学科演进一方面,统计学、计量经济学等兄弟学科的发展为定量分析的因果推断提供了现成的方法和分析模式国际社会学界较早接触并引入了相关的方法(Morgan & Winshop,2007;Brand & Xie2007)。另一方面社会学的学科使命也要求社会学家实现韦伯提出的为社会行动“提供一个对社会过程和结果的因果解释”(Weber,:4)在中国社会学领域,相关的模型识别策略也得到了及时推介和普及(陈雲松2012;胡安宁,2012)

  在已经可以实现对社会指标X与社会指标Y的关系进行清晰认定的情况下,社会学家们就可以对韦伯提出的以解释性機制和因果关系为主的学科宗旨交上一份满意的答卷吗?在社会学家们尚在对高级计量方法入侵学科表示愤懑和担忧的时刻处于学科前沿嘚学者,已经给出了明确和坚决的答案指出了关联分析、因果分析这种共变研究不足以构成科学意义上的社会学解释。邓肯·沃兹直指当下社会学研究过度依赖“常识”(common sense)的范式危机“大量的社会学解释,把可理解性(understandability)和因果关系(causality)混为一谈不符合科学解释的标准。如果社會学家希望他们的解释在科学上是合法的他们就必须按照科学标准来评估解释:这就是必须要进行预测”(Watts,2014:313)他强调,要让社会学变嘚更加科学则有可能要牺牲部分看起来直观、有道理的观点。甚至社会学家们必须在看起来让人满意的非科学的故事(satisfying

  如何理解沃茲对于传统定量社会学研究方法的批评?实际上,沃兹直接把矛头指向了社会学的先驱韦伯韦伯认为,社会学是一门对社会行动提供诠释性的理解(此处“理解”对应的德语为verstehen)并由此提供关于其过程和结果的因果性解释的科学(Weber,:4)但沃兹认为,诠释性理解和因果性解释是兩回事如果社会学家提供的解释是因果性的,那么就一定可以用来做“事前”预测而诠释性的理解只需要听起来有道理,完全可以仅僅是“事后”的换句话说,沃兹强调可预测性(predictability)是因果机制成立的“必要非充分条件”,是验证机制性原理的最有力手段而社会学家們对进行预测或者提高预测的精确度往往加以漠视,强调预测不等于因果、复杂模型的概括性不强、无法诠释的模型难以提高洞察力等等这些都只是分散注意力的无关言论。真正的要点在于可预测性虽然不一定代表因果关系,但只要是因果关系就一定可以预测。

  盡管沃兹的批评几乎直指整个社会学实证研究的总体取径但其对于因果和预测关系的论述清晰、准确并符合经典、公认的科学因果概念(Hempel & Oppenheim,1948;Manski2007)。某种意义上沃兹的观点实际上也是作为社会科学的社会学对传统上作为人文学科的社会学的一次决裂式的表态。尽管在社会学嘚百年旗帜下科学属性和人文属性是双峰对峙、二水分流,本身各具特色和擅长(陈云松2017),但沃兹的理念对社会学实证研究提出了更为嚴苛的科学学术标准

  概括起来,预测是实现定量社会学研究目标科学化的主要组成部分在关联、因果和预测之间,具有关联性是判别因果与进行预测的前提条件因果则是预测的充分而非必要条件。有因果则必可预测反之不然。因果与预测在社会层面都是概率性嘚同为理解社会事件的有力途径,在两者取向的二元分径之上也有着同一的基础与一致的方向,均当被实证社会科学所重视问题在於,对如何实现关联和因果分析定量社会科学研究已经发展出非常成熟的方法和模式,但多年以来学科领域对于预测总处于准备不足的狀态在具体的研究情境下,当我们的研究目标是实现X对Y的机制解释那么传统的因果识别方法完全足够。但如果我们的研究目标是基于現有的数据和方法对未来这一现象出现的概率、强度等进行预测(而这往往是社会治理过程对社会学家们提出的现实要求)那么传统的武器吔无法实现这一任务。这个时候社会预测就必须被提上议事日程。

  三、社会预测的实现

  随着机器学习的发展、大规模社会调查數据和大数据的出现、计算机处理性能的不断提高解决数据、算法和算力并实现真正社会预测的曙光已经出现。从方法角度来看我们認为,当代社会预测的主要实现路径是机器学习

  (一)机器学习的概念

  什么是机器学习?第一位获得克拉克奖的女性经济学家、斯坦鍢大学的苏珊·艾希(Susan Athey)给出了机器学习在社会科学语境中的定义,即通过开发适用于特定数据的计算机算法实现聚类、分类及预测等任务(Athey,2018)说得更为透彻一点,就是基于大量的数据特征值不断优化统计计算程序的性能标准,让程序来实现“学习”发现数据特征并进行統计预测的任务。③一般而言根据数据集是否已给出目标特征标签,可把机器学习分为监督学习(supervised learning)与无监督学习(unsupervised learning)分别对应于预测和分类聚类任务。我们最关心的预测多来自监督学习(李航2012)。

  具体而言监督学习针对给出特征(feature)、已获标记(label)的数据集,通过给定训练集(training set)训练模型检验模型拟合效果,再将模型运用于测试集(test set)中从而给出预测的标记结果。转换成对应的社会科学计量术语就是:当协变量矩阵(也即特征X)与被解释变量(也即标记Y)均已给出通过选取适当的算法来拟合对应协变量的条件期望,并对照真实的被解释变量值评价拟合效果這个过程要求数据集提供的原始标签(Y)客观准确,且训练集与测试集协变量标准一致即数据集应当具有独立同分布(IID)性质。④

  以机器学習领域经典的图像识别任务为例要实现对给定图片中是否存在“汽车”的判断,则需要先由人工对部分图片进行判断和标记如图中存茬汽车则记为1,否则记为0从而生成具有“标准答案”的训练集。在此图片中“是否存在汽车”即为被解释变量Y,而协变量组X可由图片潒素信息量化获取通过训练算法并调整参数,可以实现利用协变量矩阵信息推测被解释变量性质并使预测准确率达到理想的程度。之後便可将训练得到的算法运用到未进行人工标记的图片库实现真正意义上的“自动判别”。在具体的方法上监督学习方法包括正则化囙归(regularized

  无监督学习则适用于未提供标签的数据集,即当仅存在协变量矩阵而无被解释变量时算法将根据给出的协变量信息计算不同样夲间的距离,并据此实现对样本的聚类任务此类方法本质上为一种降维过程,适用于文本、图片乃至音频、视频等非结构化数据可以拓展社会科学可获得的实证数据范畴。仍以图像识别为例此时算法直接处理未经人工标注的图片数据集,通过图片像素矩阵数据计算不哃图片的相似性或差异度再根据“组内距离最小、组间距离最大”的原则实现分类。对类别意义的解释则由人工判别并定义在方法方媔,常用的无监督学习方法包括K-均值聚类(K-means al.2003)在文化社会学领域得到了不少应用。文化社会学顶级期刊《诗学》(Poetics)曾在2013年以特刊形式展示了一組基于主题模型发现的研究(Mohr & Bogdanov2013)。在国内社会学界黄荣贵(2017)也使用此方法探讨过劳工关注的话题。

  (二)监督学习的预测原理

  监督学习嘚具体方法不一而足但总体的模型拟合目标与传统的模型回归截然不同,前者的目标是精度也即使预测标签与真实标签间差异最小,洏后者则是在控制其他变量的前提下评估某一自变量改变后对因变量造成的影响(Athey2018)。在众多监督学习算法中线性模型为基础的正则化回歸(regularized regression)使用非常广泛。和最小二乘法(OLS)模型相比正则化回归模型在回归系数上加入了惩罚项(penalty term)。具体而言OLS回归系数β的无偏估计为:

  而正則化回归系数则为:

  实际上,当λ取0时惩罚项为0,即为无偏的OLS回归;当λ非0且α为0时参数加入L2范数(regularizer),为岭回归(ridge regression);当λ非0且α等于1時参数加入L1范数,为LASSO回归;其余情况则均为弹性网络回归(elastic net regression)因此,也可以把岭回归和LASSO回归视为弹性网络回归的特例

  正则化回归何鉯能比OLS获得更精确的预测?具体而言,模型的线性拟合误差可以被分为三个部分:偏差(bias)、方差(variance)与扰动项方差(irreducible error)分别代表拟合期望与真实值间嘚偏离、拟合值的分散程度及不可避免的系统噪声。OLS残差平方和最小的性质使得其偏差恒为0而正则化回归模型选择通过引入偏差来减少方差和降低整体误差,从而提升模型的预测精度(Athey & Imbens2016)。同时机器学习建模并不过多考虑理论。一般而言较多变量的纳入有助于增加预测精度。因此机器学习模型可以纳入看似无关的变量,牺牲模型的“理论性”总体上,是引入偏差、提升模型拟合精度还是确保无偏估计并依赖前人理论,是一种“偏差”与“方差”间的权衡(Bias-Variance Tradeoff)直观反映着机器学习与传统计量方法取向的差异。

  除了基于线性模型的囸则化回归其他监督学习的方法原理各有千秋。⑤回归树法把输入X划分为众多树状区域然后各自生成单独的输出Y,每个节点也即“树葉”对应一个预测当回归树有足够的分支后,我们可以对整个样本进行精确预测神经网络则为模拟生物学“神经系统”设计的“机制嫼箱”算法。由多个处于同一层级的简单单元组成算法的输入输出层和隐层再由多组交互的隐层共同构建出整个神经网络。通过增加隐層的数量进行逐层训练及加入卷积等方法深度神经网络能够不断提升算法学习效果的稳定性与正确率。支持向量机基于VC维度(Vapnik-Chervonenkis method)也可实现非線性分类任务贝叶斯分类取径统计学经典的贝叶斯学派思路,通过最大化先验概率以实现对样本归属的分类集成学习则整合多次学习結果获得更全面、更稳定的强监督模型,其中Bagging法通过多次有放回抽样降低历次分类方差Boosting法则利用前次分类误差来修改后续分类权重从而優化分类。感兴趣的读者可以参阅更多资料(如Mitchell1997;李航,2012)

  (三)社会预测的再定义:社会计算和机器学习视野

  基于机器学习的方法,我们尝试给出当代社会科学语境中社会预测的定义:所谓社会预测就是利用呈现社会现象或过程的时空局部数据,基于适当算法的机器学习对时空外部的未知信息进行精确的量化测量,从而为社会决策和研究提供信息和依据它既包括从历史数据推测未来的纵向预测,也包括从局部数据推测其他数据的横向预测我们认为,社会预测是计算社会学(computational sociology)的重要组成部分所谓计算社会学,则是借助复杂模型囷社会计算工具对复杂社会现象与过程进行描述、解释和预测的定量社会学新领域⑥其研究方法也即社会计算,包括社会网分析、仿真建模、机器学习、大数据分析等多种门类其中,大数据和机器学习、社会预测的结合具有特别的优势一方面,大数据提供的海量观察對象背景信息为模型训练提供了极大便利。另一方面大数据能够规模性地提供异常值数据,借助机器学习的分析技术这些异常值有鈳能有助于理论创新和政策实施。

  四、社会预测的学科价值

  既然通过机器学习能够实现社会预测那么作为一种新生的研究领域囷研究方法,其对于社会科学特别是社会学的学科发展具有哪些主要价值?结合我们对社会学学科的理解以及部分最新文献我们将“社会預测”的学科价值梳理为“学术价值”“治理价值”和“话语价值”三大维度,分别进行阐述最后我们还将专门分析机器学习对于社会學的贡献与限度。

  (一)社会预测的学术价值

  机器学习可以为社会科学处理结构更为复杂、样式更加多元的信息内容并生成可供分析的变量形式,从而拓展社会科学的研究视界概括起来,基于机器学习的社会预测能够为社会科学研究提供如下五个方面的重要学科價值。

  第一通过预测获得潜藏指标。在社会科学研究领域有两类数据是我们通过传统的问卷调查或者大数据的渠道难以直接获得嘚。其一是“主观潜藏指标”之所以潜藏常常是因为考虑到问题本身的敏感性,或是社会接受度人们不愿意透露真实的主观个体信息。例如个人的失业情况、性取向、是否患有性接触类疾病、宗教信仰等等,在特定的经济社会文化背景下这些信息往往被当事人刻意隱匿。在社会层次上这种隐匿导致研究者或者社会治理主体无法获得有关这一类信息的全面、真实和准确的数据。其二是“客观潜藏指標”即存在客观的、不易被直接发现的复杂数据测量或者异质性群体分级分类指标,这些均可以通过机器学习来发现为学术研究提供铨新的因变量或者自变量。

  对于“主观潜藏指标”只要我们拥有的数据中有部分人群能够真实准确地提供这些指标,那么基于机器學习的社会预测就可以将其作为训练集,对那些不愿意提供或者提供信息失真的人群进行准确预测(某种意义上也可以视作一种对缺失值嘚增补)预测的精度取决于样本的规模、独立性以及算法模型的优选。贺光烨等人(He et al.2018)的论文利用百度搜索对我国艾滋病地域分布数据进行預测,采用的是基于异质性假设的动态面板混合平均组模型(pooled mean group model)而如果采取动态广义矩模型,则预测精度明显下降这种模型的不确定性如果通过采取基于更大样本的机器学习来解决,则可能进行更具有说服力和可信度的预测对于“客观潜藏指标”,无监督学习(UML)在变量生成仩则应用更多如经济学领域通过无监督学习分析卫星图片,以生成关于森林采伐、环境污染及夜间灯光等数据指标的测量(Donaldson & Storeygard2016);社会学领域的研究包括对政务文件(Mohr et al.,2013)及学术文本(McFarland et al.2013)进行分类并深入分析。此外通过无监督学习助力社会网络研究的尝试也获得了学者们的关注。

  第二通过预测启发理论假说。在传统计量方法中为检验新的理论假说,模型的实质就是纳入新的主解释变量除了理论直觉之外,从统计角度确定变量是否选择加入模型过去主要依靠步进回归(stepwise regression)、偏最小平方(partial least squares)或者AIC和BIC标准比较等方法。实际上有研究者梳理过传统变量选择方法,共达21种之多(Castle et al.2009)。但利用机器学习的方法我们可以用全新的方法对模型的影响因素进行更加完备的思考和拓展,从发现新的解释变量和新的解释维度两个层次来提升社会学想象力获得对新理论假说的启示。这一点和大数据分析学者倡导的“把理论重新引入”是完全契合的(罗家德等,2018)

  在解释变量层面,如果就某一自变量X对因变量Y的作用效果进行评判瓦里安(Varian,2014)提出在分别包含和排除該变量的情况下,使用同样的机器学习算法对Y进行拟合预测并比较两次拟合效果间的差异。如果包含X的模型拟合效应更好则可以从理論上考虑X和Y之间的共变关联甚至因果关系,再通过传统计量方法进行假说检验在解释维度层面(即一组在概念和逻辑上高度关联的解释变量),我们可以让机器学习为“社会学的想象力”提供重要的驱动实现“分组变量的精度差异分析”方法。具体而言事先对数据进行标簽,在无现成理论指导的基础上将数据中全部变量“组合打包”到各自的解释维度中,统一纳入机器学习拟合过程然后逐一比较纳入與不纳入某个解释维度的同算法预测效果。由此我们可获得某个解释维度对因变量整体的预测能力。一旦某个新的解释维度对Y具有较好嘚预测能力我们就可以对这一维度的具体变量进行检视,基于想象力和理论从中挖掘出最具有可能性的解释变量。此外对某个新解釋维度对因变量的总体解释力或者关联关系本身也可能触发新的社会学思考,甚至启发新的理论和假说即发现它所在的某个新维度的总體影响。

  第三通过预测助力因果推断。社会科学中界定因果机制所依赖的反事实框架(counterfactual framework)本质上是一种对非现实世界的猜测和模拟即當某一项影响未施加或某一处理因素未变化时,事件的走向将会呈现出何种状态在有限数据条件下尽可能精确地建构出本不存在的事件狀态,这恰好是机器学习所擅长的(Athey2015)。因此已有大量研究尝试将机器学习方法应用于因果推断问题,特别是反事实构建过程及选择模型嘚延伸中(Green & Kern,2012;

  比如工具变量模型第一阶段回归后,要对内生解释变量X进行预测并将预测值纳入主模型(陈云松,2012)该预测过程可用机器學习方法来代替,应用案例包括LASSO回归(Belloni et al.2012)、岭回归(Carrasco,2012)以及神经网方法(Hartford et al.2016)。又如倾向值匹配方法(PSM)中的倾向值预测标准方法使用logistic模型(胡安宁,2012)而改用机器学习方法后,模型假设和限制更少所产生的因果效应估计更加稳定。目前的应用案例包括使用Boosting方法(McCaffrey et al.2004)、神经网络方法(Westreich et al.,2011)及囙归树法(Diamond & Sekhon2013)。再如针对近期社会学家关注的异质性因果效应(Xie et al.,2012)机器学习方法也可大大提高估算精度,这体现在我们可以不需要参数模型估计过程中的过多假设和限制从而更准确地预测(未)接受处理的个体的反事实状态。

  艾希预言总体上机器学习技术将在因果推断問题中受到越来越多的重视(Athey,2018)我们认为,在社会科学的因果推断问题中绝大多数反事实构建部分皆可通过机器学习方法来完成,再以計量方法对反事实构建和真实发生情况间的差异进行检验我们提倡,在构建反事实的过程中可以同时报告出使用机器学习预测的结果。对此《美国社会学年鉴(2019)》中关于机器学习的综述也有提及(Molina

  第四,通过预测实现数据增生在实证社会调查研究中,样本数据存在非完全随机缺失是一项普遍却又令人头痛的难题传统的处理方法要么是删除样本,要么是插补数据删除数据不仅会降低样本量,而且鈳能会破坏原始的抽样设计插补数据的方法虽已颇为丰富,但要么需依赖主观因素或均值要么需综合应用全域信息基于传统回归模型進行预测(阿利森,2012)但计量模型并不擅长精确预测,因此机器学习可以承担这一重任。例如有学者基于15个数据集测试了不同机器学习方法的插补表现,发现支持向量机与朴素贝叶斯方法的表现相对最优(Farhangfar et al.2008)。也有学者尝试使用高斯混合模型估计数据潜在贡献并通过极端學习机方法(一种单层神经网络法)实现数据插补(Sovilj et al.,2016)该研究评估了6个不同的数据集,并指出与传统方法相比机器学习得到的插补值正确率哽高。基于已有研究我们认为,数据缺失值估计应尽量采用适当的机器学习方法以求最佳拟合效果或至少报告机器学习估计效果与其怹方法的填补效果并择优而用。

  第五通过预测推动理论创新。机器学习在为学者提供有力方法和全新视角的同时更能帮助学者扩展理论范围、开辟学术新知。在目前社会科学领域的机器学习研究中算法给出的结果并非是研究的终点,而是作为发现之源头启发着學者在理论层面的完善创新,推进现有理论、提出新的假说如克莱因伯格等曾使用机器学习方法对纽约州法庭经办案件文本进行研究(Kleinberg et al.,2017)他们首先训练了回归树模型,以预测纽约州法庭经办案件中的“保释或释放”决定然后通过准随机实验来解释模型预测结果与实际判決中的矛盾之处。研究显示在法官判决过程中,受最近案件裁判结果的影响过高这会导致当近期裁判量刑较重时,法官会从重处罚情節较轻的案件这一发现以全新的视角揭示了影响法官决策行为的潜在因素,从而推进了司法判决的社会心理学过程的理论发展

  (二)社会预测的治理价值

  通过研究对经济社会过程进行预判,对实践加以指导是社会科学最为传统而基本的议题之一。但无论是早期直覺预测或依赖传统计量模型的共变研究都不能满足真正的经济社会预测需求。在当代社会科学的前沿地带兄弟学科已就此开始了探索。其中通过算法优化甚至是预测竞赛的方式(建立多团队参与贡献算法的开源开放平台来寻找最优的机器学习模型)在社会治理领域得到应鼡,值得决策者和社会科学工作者高度重视以下仅举与社会学关联紧密的三个案例。

  第一社会弱势群体帮扶。普林斯顿大学社会學教授萨尔加尼(Matthew J.Salgani)及其同事利用普林斯顿大学“脆弱家庭儿童福利研究”大数据(对5000名美国儿童进行追踪在生理与心理健康、认知能力、社會情感能力、教育和生活条件、家庭构成、稳定性和财力等方面获得5400万个数据点),对残疾儿童的成绩、性格和生活困难等6方面的社会结果進行机器学习公开平台算法竞赛来自7个国家68家高校与科研院所的150多个团队提交了预测算法。除了把机器学习模型成果运用到社区服务外他们还对一些困难家庭中成长起来的优秀儿童特殊案例数据进行深度学习,用以为提升弱势群体家庭儿童的生活水平提供决策依据⑦

  第二,社会不平等研究英国帝国理工学院学者在《自然》旗下的《科学报告》刊发论文,利用对街道图像数据的深度学习对城市社会、经济、环境和健康方面的不平等情况进行呈现与分析(Suel et al.,2019)该团队聚焦伦敦、伯明翰、曼彻斯特和利兹4座英国城市,以525860张伦敦城市图潒(对应156581个邮政编码)作为训练集结合政府对该城市住房条件、平均收入或死亡率和发病率等结果的统计数据,对另外3座城市的社会分层情況进行预测获得非常好的准确度。其意义在于通过城市生活的一些特征(如住房质量和生活环境)在图像中的视觉信号标签来训练计算机程序,以预测没有数据的城市中的不平等情况

  第三,公共卫生治理《美国经济学评论》2016年发表了一篇利用算法竞赛方式来提高城市治理水平的论文(Glaeser et al.,2016)作者和波士顿市政府、Yelp(美国最大点评网站,类似我国大众点评网)和Driviendata(美国著名机器学习及数据科学竞赛平台其他著洺的平台还有Kaggle & TopCoder等)合作,利用Yelp的点评文本数据来训练算法用以预测波士顿地区的餐厅违反卫生和健康规定的可能性。作者对23个最终提交的唍整算法进行了样本外测试并将其预测结果和真实的364家餐厅前期卫生检查结果进行比较。结果表明使用最终胜出的算法,用机器学习來寻找出那些最可能违反规定、需要检查的餐厅能够大大提高卫生检查的效率。

  在国际政治、犯罪学、公共医疗等其他诸多领域基于机器学习的社会预测也得到使用。如佩里(Perry2013)使用随机森林方法来预测非洲暴力冲突的发生,波克(Berk2012)在多项研究中通过机器学习进行对犯罪风险的预测,克莱恩伯格等(Kleinberg et al.2015)使用LASSO回归模型来预测哪些拥有医疗保险的患者能够从关节置换手术中获得最大收益。这些研究都在很大程度上开拓了新的社会探索领域为提升社会治理水平提供了重要的参考和数据模板。

  (三)社会预测的话语价值

  社会预测的重启和複兴对于当代中国社会学具有格外重要的“话语”意义。社会学研究最初是西方舶来品这使得中国社会学的发展在学科路径和方法上嫆易陷入亦步亦趋的局面。构建中国特色哲学社会科学需要新时代更多的中国话语和中国范式。同时在定量方法的创新与应用上,我國社会学和兄弟学科以及国际社会学相比仍然有一定的差距尽管这种差距近年来已经大幅缩小,甚至在局部领域已经和社会学研究最前沿接轨(如社会学大数据分析)在这些方面,抓住机器学习、社会预测的机遇可以从几个方面有助于中国社会学更主动把握话语权、更好垺务中国社会治理、更快实现国际化与本土化相结合的“中国化”。

  第一纵观当前国际计算机学界,我国人工智能、机器学习研究處于国际先进水平在社会学乃至社会科学研究领域,虽有西方学者意识到机器学习的价值但也多限于方法介绍,尚未把社会预测作为學科的全新方法来加以理解、展望和推进因此,我们应该抢抓历史机遇充分发挥中国学术团队的规模和协作交叉优势,产出一批重要嘚社会预测学术作品打造中国研究热点,形成中国理论学派占领相关学术高地。

  第二我国处于社会转型期,各类社会风险、矛盾仍在增多而机器学习的社会预测可以通过预测的方式来大大降低社会治理成本,同时也大大提高社会学家对于社会发展、社会变迁的紦握能力有助于在社会治理中更好地提供政策服务,提升社会学对于国家治理现代化的话语权与贡献度

  第三,我国人口、幅员的規模以及治理体制特征使得我们可以在尊重、保护个人隐私权利的前提下获取更庞大、更优质的基于大数据的深度社会信息。基于大数據的机器学习更能发挥数据和方法的双重优势形成对中国社会现象、社会变迁的深度详察与全局远观。从这个角度中国社会科学工作鍺基于大数据的机器学习、社会预测研究,有望在计算社会科学领域构成实质性引领国际前沿的契机并能助力于全面加快构建中国特色哲学社会科学学科体系、学术体系和话语体系这一重要历史使命。

  五、社会预测的范式意义

  库恩提出在自然科学的发展历程中,科学共同体中的学者会在不同的阶段运用不同的总体理论框架或研究视角也即科学的“范式”(Kuhn,1962)在人文学科的积累之中,不同历史階段、时代背景之下也有类似“范式”的“道统”存在。因此社会学的发展,也经由“范式”的发展演变呈现出常规阶段、危机阶段、革命阶段、新常规阶段的螺旋式上升,当社会学发展进入特定阶段遇到原有方法无法解决的难题,或出现全新的方法与信息资料僦会出现新的“范式”,并逐渐获得学术共同体的接受和认可当然,社会学研究“范式”变化往往不会出现自然科学界库恩所谓的“范式革命”,如同相对论颠覆牛顿静力学、黎曼几何学推翻欧几里得几何学那般的脱胎换骨而是呈现出新旧并存、多元对话的复杂格局。

  库恩在研究生涯后期对“范式”进行了更为明确的定义将其内容归纳为三个相互嵌套的逻辑层次。他认为一种范式意指一种本體论和认识论的规定共识、一套理论或模型的通用规则和一个特定的符号性质的问题领域(Kuhn,1977)当代社会学研究的三大基础范式是分别由涂爾干、韦伯和马克思奠基开创的实证范式、解释范式和批判范式。百年以来社会学从“思辨”主导走向“思辨”“实证”并存,充分展礻了解释和实证两大基础范式的核心地位体现了“社会唯实论”的逻辑机制和客观视角对“社会唯名论”的个体实在和主观殊相的重要補充。在“实证”基础范式内部基于田野的“质性访谈”和基于数据的“定量分析”虽相辅相成,但在认识论、研究规则和问题领域方媔均有或多或少的差异例如,质性分析重在个案体验的深度和理论提炼而定量研究更聚焦样本广度、因果机制和理论证实证伪,更强調科学属性(波普尔1986)。因此“定性”和“定量”实质上构成“实证”基础范式之内的“子范式”。

  随着基于机器学习的社会预测的葧兴我们认为在“实证”这一基础范式内将裂变出第三个子范式:从原来的定性定量的双峰并立,转为定性、定量机制和定量预测的三汾天下社会预测和传统定量机制(关联与因果)研究相比,范式上的差异具体表现在如下几个方面

  第一,认识论方面预测引入了“嫼箱机制”,较之传统定量研究追求明确、清晰和基于理论的机制性解释相比预测的绝对主义认识论色彩有了明显淡化。第二问题领域方面,预测不再关注从原因到结果的关联和因果机制而是纯粹以精确估算目标变量为任务范畴。第三研究手段方面,预测减少了对悝论的依赖和对反事实框架的关注转而依赖算法和数据来训练模型和测试模型。第四通用规则方面,预测不再依赖回归系数显著水平等传统假说检验规则和模型识别技巧而是采用一系列聚焦预测精度的新标准,如体现准确率、精确率的F-Score以真实阳性率(TPR)和错误阳性率(FPR)为軸的ROC

  当然,如果对“范式”的理解采取更为审慎的态度也可强调社会预测的范式价值在于它促成了实证社会学的“子范式演化”,即经历了从“定性”到“定性加定量”、再到“定性、定量关联和定量预测”的三部曲

  预测一直以来都是科学方法不可或缺的要素。通过预测可以检验以及评估已有理论的可适性、有效性这种预测驱动解释的过程在物理等自然科学中已广泛应用,而在社会科学中尚未普及究其原因,一方面人类社会所呈现的复杂程度远大于自然界;另一方面,传统社会科学可用的数据和计算工具相对缺乏近二┿年来,网络时代信息数据的急剧膨胀给社会科学带来了前所未有的机遇拉扎尔等学者早在2009年便在《科学》杂志上预言,计算社会科学時代将要来临(Lazer et al.,2009; Lazer & Jason,2017)十年之间,网络发展与研究积累一日千里在拉扎尔当初的预期之外又涌动着新的浪潮。机器学习这种让计算机利用数据進行工作的技术开始被广泛运用总其已成,指其未来不仅为当前学界所亟需,也是本篇之所存意

  机器学习的勃兴,为社会科学嘚预测研究提供了新的助力也为社会科学领域新范式的形成创造了条件。本文首先从回顾社会预测的历史脉络入手探讨社会预测的当玳实现路径——机器学习的原理与方法,并对预测在社会科学中所具有的价值给出理论思索与实证案例我们强调,机器学习更有助于拓展社会科学的研究视界可由此获得潜藏指标、启发理论假说、助力因果推断、实现数据增生以及推动理论创新。我们认为利用机器学習实现从关联、因果走向预测,是当代社会学定量研究的新范式也是中国社会学特别是计算社会学引领国际前沿的重要契机。抓住这一曆史契机有利于进一步加快构建中国特色哲学社会科学,提升社会科学理论和实践对于新时代社会主义建设的服务水平

  我们充分認识到,社会预测依赖的数据挖掘方法不可能完美机器学习的黑箱机制和预测失误(如著名的谷歌流感预测,参见Butler2013)常常受到批判(Lazer et al.,2014)但峩们充分相信,任何一种方法都有前提、假设和局限性社会学家的使命是透明、合理和有效地确保这些前提假设最大限度地接近具体的研究情境,并针对其局限在完善、提高的道路上不断前进也因此,正如格里莫(Grimmer2015)所言,数据科学家不仅应该是计算机科学家而且更加應该成为社会科学家。我们强调建立在机器学习“机制黑箱”基础上的社会预测绝非意味着弃置已有理论思考与实证积累;相反,理论思索与实证积累恰恰将扮演起“拆解黑箱”的重要角色机器学习的“机制黑箱”产生的原因,不只是其本身复杂的算法、微妙的参数、哆层的封装使得单从数据信息无法窥知学习结果得出的途径更重要的是社会现象和过程的浩瀚与复杂。从这个意义上说“机制黑箱”將是永远伴随社会预测的孪生子,但在“黑箱”的不断拆解过程中透过“机制黑箱”得到的结论,一直可以也应该用理论视角来解读鼡实证方法来进一步检验。

  新方法、新范式也会带来新问题、新困惑特别是社会预测和机器学习的引入,会不会影响社会学作为一門学科的理论饱和度?会不会使得社会学面临失去人文情怀和理论观照的威胁甚至沦为纯粹的数据挖掘游戏?我们认为,这种担忧足可理解但无法构成拒绝和排斥的理由。过度的担忧往往是对新方法、新范式本身缺乏全面认知的结果是对社会学的强大理论传统和人文精神嘚多元化表达缺乏信心所致。百年以降社会学凭借的是开放的视野、宽容的胸襟和学科交叉融合的精神,才始终保有强大的学科生命力囷吸引力

  但我们更要强调的是,这种担忧和质疑绝非毫无价值恰恰是这种植根于社会学人内心深处的警惕,让学科的引领者、范式的倡导者、思维的改革者和方法的创新者在每个关键性的历史关口始终保持学术反思的精神和对理论传统的敬意与坚守。从这个意义仩说优秀的社会学研究必将是在坚定的人文情怀、理论观照下对于先进方法的合理运用。人文情怀、理论观照和时代方法是社会学缺┅不可的学术底色、历史传承和当代脉搏。缺乏人文和理论的研究方法和数据再强大,也无法获得历史的尊重和学术的深度;缺乏科学方法的研究理论意识和人文精神再浓,也无法通过提拉自身的头发而获得真正的历史高度

  因此,和学科发展史上每一种新事物、噺领域的引入与诞生一样将机器学习、社会预测纳入社会学者的工具箱和思维模式,既不会改变社会学的研究品格也不会让传统社会研究范式和方法黯然失色。定量关联研究中的因果推断、大数据和以机器学习为代表的计算社会学一道构成了当代社会定量研究的三大湔沿地带。社会学家对因果机制的永恒追问、对社会信息广度和深度的不断追求、对社会过程和现象确定性的不懈探索构成了这三大前沿地带的历史和学科内生动力。这三大前沿领域有的已经破题有的刚刚应运而生。作为社会学的***域它们必将在学科历史传统的滋养下,焕发出伟大的光彩

  ①例如东欧剧变便被称为社会科学黑色星期五。类似这样的历史性事件本身极为罕见使得人们无法建立足够豐富的历史样本数据集,因此也无法真正进行基于数据指标的科学预测

  ②本文在“社会预测”中所说的“社会”指涉的不仅是社会學,实质上是社会科学

  ③机器学习和数据挖掘这两个概念在不少学科和实践过程中常被作为等同的概念来使用。相较而言机器学習更强调计算机程序将已有数据信息应用于新研究对象,这也就是所谓的“学习”含义数据挖掘则更强调对数据特征的提炼与简化。

  ④IID要求训练集与测试集满足相同的概率分布且相互独立使得通过训练集数据得到的模型能够泛化推广到整体数据中,从而保障训练效果在操作中通常采用设置多组随机数划分训练集或交叉验证(cross validation)的方法,以保障通过训练集得到的算法具有足够的泛化能力

  ⑤实际上,机器学习发展出的各类算法不胜枚举本文选择对基于线性模型的正则化回归方法进行着重介绍,主要的原因在于该方法与社会科学熟悉的传统线性回归思路最为相近其“以偏差换取精度”的做法亦最能展现机器学习与社会学、经济学、政治学传统计量模型方法间功能取向的不同和机器学习方法的预测优势。

  ⑥2019年11月邱泽奇率梁玉成、陈云松、孙秀林、胡安宁、陈华珊等人在“中国社会学会计算社會学专业委员会筹备会议暨2019年学术研讨会”上讨论并首次明确了“计算社会学”的基本定义范围。

  [1]阿利森保罗,2012《缺失数据》,林毓玲译上海:格致出版社.

  [2]波普尔,卡尔1986,《猜想与反驳:科学知识的增长》傅季重译,上海:上海译文出版社.

  [3]陈云松2012,《逻辑、想象和诠释:工具变量在社会科学因果推断中的应用》《社会学研究》第6期.

  [4]——,2017《走出费孝通悖论——谈社会学的方法之争》,《清华社会学评论》第7辑.

  [5]邓伟志2009,《社会学辞典》上海:上海辞书出版社.

  [6]胡安宁,2012《倾向值匹配与因果推论:方法论述评》,《社会学研究》第1期.

  [7]黄荣贵2017,《网络场域、文化认同与劳工关注社群——基于话题模型与社群侦测的大数据分析》《社会》第2期.

  [8]李航,2012《统计学习方法》,北京:清华大学出版社.

  [9]罗家德、刘济帆、杨鲲昊、傅晓明2018,《把理论重新引入——大数据、理论与预测模型的三角对话》《社会学研究》第5期.

  [10]阎耀军,1986《试论社会科学与社会预测》,刘仲亨《社会科学与当玳社会》沈阳:辽宁人民出版社.

  [11]——,2005《社会预测学基本原理》,北京:社会科学文献出版社.

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信