杂志汇新经济导刊

社会人文的数字重塑

作者:编译/喻予
文化社会学家将有关互联网网站和其他数字化文本中数亿人的论点、世界观或价值观的信息源留给了计算机科学家

随着网络技术的日益发展,网络技术的效率越来越高,个人对互联网的使用也越来越频繁,大量的数据开始堆积如山。这些数据,至少在开始的时候,是在人们不知道的情况下存在的。新的调查数据的美妙之处在于,与传统的调查数据不同,传统调查数据是在个人同意下收集的,可能会受到一些主观的影响,而互联网的普及带来了更多的数据,而这些数据不都是来自于自愿被调查。它们揭示了人们在家中隐私环境中做出的发自内心的、合乎逻辑的选择,尽管他们认为自己没有被观察到。

这种类型的数据之所以出现,是因为过去的“线下”生活越来越多地被转移到网上。信息通信技术和互联网可以做得很好的一件事就是在几乎任何类型的市场,在任何类型的匹配任务中减少摩擦。因此在不同的环境(和市场)中处理搜索和匹配的许多企业,现在在“线上”进行搜索和匹配。

新的数据将从所谓的物联网中诞生。越来越多负担得起的嵌入式传感器将及时传输精确的地理位置测量数据,涵盖从个人生命体征到个人情绪状态和幸福感,以及任何经济活动和其他人类活动的方方面面。显然,这些发展将使经济社会和人文研究更加依赖数据,因此将带来新的研究机会,但也带来新的挑战。

数字生活:文化的可感知性

新媒体对日常生活的渗透表明,现实与虚拟、物质与网络空间的分离是错误的。可以这么说,关于无地域或非物质生活的最初预言已经被现在关注的焦点所取代,尤其是,媒体如何使当地生活运转起来?对此,英国杜伦大学的Mike Grang教授曾撰文做过深入的讨论。

最首要的当然是,除了社交媒体之外,基于位置的社交网络也在大量涌现。而更有意思的是,还有一种“混合”的数字游戏,与虚拟游戏不同,参与者将自己嵌入到不同的地方——在现实生活中的街道上模拟僵尸攻击,或者在周围和附近的参与者玩耍。此外,艺术作品越来越多地对空间进行注释,将数字内容分层到场地或使用场所来告知媒介内容。例如,Janet Cardiff的作品被各种各样的geowebbed媒体跟随,这些媒体现在也在现场传递故事,用过去的声音场景或艺术介入重新填充城市环境。

还有一些人则将多种不同形式的数据混合在一起,以改变空间的体验,并为流行归档添加可能性。在这里,新媒体于空间实践中与重叠的分布式存档相结合。当然,当时流行的存档和作者身份(一如既往)反映了权力的多重维度,在这种情况下,通过新技术调解关于谁写什么。

在这一点上,可以分析不同媒体变体中关于场地的不同符号的分层——看看同行或是实际上竞争的媒体,以及它们试图为场地创造霸权意义的不同用户群体。我们有关于有争议和多义性的景观的长期争论的非常成文的规定。但是,对于文化地理学来说,有一些新的干预工具,可以通过进行地理标记,向既有技术添加公共档案注释。

社交媒体通过它们留下的数字痕迹,让人们可以通过分析(由学术机构、政府,或者,更多的是公司),来观察社会生活的前后变化。我们平凡的社交生活变成了数字中介,可以通过词法分析进行定量概括。例如,相关研究人员艾伦·米斯洛夫和他的同事们针对美国关于地理定位的推文(tweets),应用了一种词汇评分系统——对积极和消极的内涵进行打分——来制作令人震惊的“国家情绪”时间流逝地图。类似的方法也将发帖与股市走势联系起来,只不过迄今为止的结论都很平庸。

视觉化的诗学和情感力量往往比所谓的“结果”更强大。很明显的一个结果是:作为“证据”的社交媒体机构、使用它的媒体研究人员,都“不仅仅是社交媒体内容的观察者或使用者,而是这种基础设施的推动者”,他们通过特定的媒体平台构建一个问题,冒着再现媒体如何对此问题框架化的风险。

以上这些分析,使得情感和情感在社会生活中传递的中心地位更加明显。可是,这是通过量化来实现的,很多关于情感或影响的研究都是从假设它们不可量化开始的。

加布里埃尔·塔尔德(Jean-Gabriel Tarde)将经济和社会性视为一系列可量化的强度。早在20世纪初,他就提出,社会科学研究的问题不在于它的量化,而在于它的度量是错误的。他想知道,通过创造“价值计量单位”或“荣耀计量单位”,来发展名望、魅力和幸福的衡量标准的可能性。学者们指出,我们现在应该“毫不费力地理解数字化对权威的计算、可信度的映射和荣耀的量化都做了什么”。

然而,对替代度量的热情大大低估了任何和所有度量可能产生的疏离。比如,学生评价、国家研究评价、排名表、引文分析、推特热议(在这里,学术工作在社交媒体上的流通是由诸如altmetrics等这样的措施记录的)等越来越多地支配学术生活的一系列事物,似乎并不能促进积极的影响。这些衡量标准并不是简单地报告现实世界,而是按照它们自己的形象对其进行格式化。使人文活动更容易被察觉,不同群体从而更容易行动,凸显了费德里希·基特勒(Friedrich Kittler)所说的“选择机制”的重要性。

同样的情况是,通过复制当前的交互模式这样的数据,无论在重复当前占主导地位的内容方面,还是在重新定义简单化一元论方面,往往都是保守的。数字化对权威的计算、可信度的映射和荣耀的量化都做了什么?用大数据衡量经济社会的人文环境

如果说新媒体在记录社会人文活动的痕迹,那么旧媒体也在被改造。如Kittler所言,媒体是“制造、加工、传送和存储信息的物质设备”。随着数字媒体的使用越来越多,正在进行的是从图书馆向数据库的mnemotechnical转变。罗杰·查蒂耶(Roger Chartier)认为,这样做的结果是对之前因物质差异和相关惯例而被分割开来的话语的去分化。Chartier推测,在数字世界中,所有文本实体都像提供片段的数据库一样,阅读片段绝不意味着对作品或作品主体的感知。问题是,数据库与叙述是相对立——正如Lev Manovich所主张的那样,还是如Katherine Hayles所说的与之共生?

这意味着要更多地关注信息呈现的惯例和模式。有关学者乔安娜·德鲁克认为,这突出了文本的空间组织和这些结构的语义关系。在这方面,她提出了两种可能的方法:第一种她称之为推理性计算,第二种是对客观数据有科学依附的数字人文。第一种利用视觉化的力量来产生情感反应,德鲁克称之为“图解学”,即材料的组成可能性和分布的表现关系。后一种数字人文的方法挖掘数字文本对象的全体,通过数据可视化或“InfoVis”技术揭示关系模式。

InfoVis使用图形原语,例如点、直线、曲线和简单的几何图形来代替对象和它们之间的关系,不管这些对象是人、他们的社会关系、股票价格、国家收入、失业统计还是其他任何东西……这种还原论成为现代科学默认的“元范式”,并继续统治着今天的科学研究。

因此,这种方法很可能会使许多人感到不安,因为它不仅从根本上说是定量的,而且还受到了简化主义敏感性的影响:在科学中,理论从经验中提炼出一些基本规律,从而把看似无限的特殊性减少为区区的少数。可以减少的实例越多,理论就越有说服力。减少是好的,增多是坏的。

这种简约的数字人文学科体现在“文化组学”(Culturomics)中,它挖掘通过谷歌(Google)获得的数字化书籍以绘制出:随着时间推移的国交媒体,但该领域的未来也将意味着对过去越来越雄心勃勃的尝试。随着数字化历史档案的不断扩大,以及社会学家们协调新的方法以组织有关意义演变的丰富细节的定性元数据,文化社会学家应对大数据运动引起重视。

可是,长期以来,社会学家——尤其是文化社会学家——在很大程度上忽视了所谓“大数据”的前景,文化社会学家将有关互联网网站和其他数字化文本中数亿人的论点、世界观或价值观的信息源留给了计算机科学家,计算机科学家拥有提取和管理此类数据的技术专长,但缺乏解释其与国之间的情绪化术语的频率,或者查看有关气候变化的关键术语的兴衰,凡此种种。然而,寻找文化标记作为更大的文化单元的转喻,在文化地理学中已经相当的过时了。相反,当社会媒体被挖掘出来时,被追踪到的是行为性的流动,而不是特定文化的标记。

英国杜伦大学教授Mike Crang表示,十分赞同学者DeLyser和Sui的观点,他们担心“文化组学”可能会淹没传统的解释性学问,只进行浅表的数字运算,而没有立足于分析的对象或过程。学者Mays有力地辩称,解构主义和量化的方法以对比的方式看待文本。解构主义倾向于聚焦于某一具体的作品上,表明其意义是不确定的、开放的、有争议的解释,而定量方法则侧重把握文本的扩散,赋予文本确定性的意义。

长期以来,文化社会学一直受到理论和数据不平衡的困扰。然而,大数据运动可能会从根本上改变这种不平衡。大数据运动始于互联网与社含义的理论指导。

美国北卡罗来纳大学学者Christopher Bail的一项研究提供了大数据运动中最近发展的批判性调查,并将它们与文化社会学中杰出的理论争辩和测量挑战联系起来。在描述大数据对文化社会学的前景时,该项研究还详细介绍了后一领域如何解决前者最棘手的一些挑战。

Christopher Bail表示,该研究只对处理大数据时出现的技术和后勤问题进行有限的讨论,也不考察量化叙事分析这一有希望的领域,而主要是对对大数据潜力感到好奇的文化社会学家的邀请,也是对打破阻碍该领域与大数据运动的领导者之间合作的学科竖井的呼吁。

数字重塑人文社会的挑战

文化社会学家和人类学家倡导的深入的定性编码技术的集成,可以用来改进计算机科学家、语言学家和政治科学家已经很强大的自动文本分析技术。这种综合将使文化社会学家能够在那些曾经被认为是不可衡量的问题上取得理论上的进步。

大数据的支持者还可以从文化社会学家那里获得关键的洞察力,了解如何进一步完善他们的工具,以绘制社会和人文领域的轮廓图,对文化元素进行分类,追踪人文环境随时间的演变。

然而,尽管对文化社会学和大数据的结合持乐观态度,但巨大的障碍依然存在。也许最令人烦恼的问题是,大数据往往不包括关于文本产生的社会背景的信息。虽然我们能够收集数百万关于几乎任何问题的博客帖子,但这些数据通常只包含很少或根本没有关于此类帖子作者的信息,或者是那些对它们发表评论的人的信息。

Twitter的数据是公开的,但提供的关于Tweets产生的社会背景的信息非常少。Facebook等其他网站收集了大量关于社交环境的数据,但由于担心用户隐私,往往无法与研究人员共享这些数据。社交媒体之外的大数据来源也往往缺乏关于文本产生的社会背景的重要信息。收集每一篇关于政治话题的报纸文章都是没有多大用处的,缺乏对导致媒体倾向于一个问题而不是另一个问题的政治和体制过程的深入分析。

然而,这些障碍并非没有解决方案,这些解决方案可能建立在文化社会学家开发混合方法研究设计的进展基础上。例如,可以对Twitter用户进行定性或定量调查,将他们的在线行为置于更广泛的背景下。或者,大规模的媒体数据或历史调查的分析,可以用来找出比较历史分析的令人感兴趣的谜题。从理论上讲,大数据也可以用来指导人种学,或者至少帮助将民族志的发现置于更广泛的人文领域。简言之,大数据方法应该被视为文化社会学中经得起考验的技术的补充而不是替代。

第二个主要挑战是计算机辅助编码永远不会比编码本身更可靠。文化社会学家很少讨论编码标准或编码间的可靠性,部分原因是我们对许多核心概念的定义存在很大争议。例如,人们只需阅读有关框架的文献,就能看到关于是否以及如何衡量或操作这些框架的重大分歧。

虽然这些争论不会轻易解决,但大数据和文化社会学的整合将在很大程度上取决于我们是否有能力就这些核心概念的若干广泛接受的定义达成一致。然而,大数据实际上可能会促进这种对话——因为文化社会学家之间概念模糊的部分原因是我们缺乏共享的数据集。文化社会学家也在跨越学科界限,寻找使核心概念更加具体的指导。例如,Mohr等研究人员将语言学的叙事文献与社会学、计算机科学的社会网络研究和主题建模研究相融合。学者Polletta目前正在综合语言学和文化社会学,使用新的可视化技术,使他们能够探索如何让人们意识到他们的文化图式如何塑造他们在民主审议中的行为。

文化社会学家的最后一个担忧是,对于那些希望在目前使用大数据所必需的技术专长方面有所发展的人来说,进入成本相对较高。尽管得益于简单的基于网络的大数据分析工具,这些成本正在迅速下降,但将这些技术正式化用于文化社会学,将需要新一代拥有技术专长和理论抱负的学者。目前,大数据运动迫切需要以理论和定性为导向的文化社会学家的指导。没有大的思考,就不能从大数据中学到什么。虽然数据挖掘可以在大文本语料库中揭示有趣的模式或引人入胜的可视化效果,但许多干草已经变得像针一样。因此,大数据运动的未来取决于文化社会学家、计算机科学家和其他人之间的合作,教计算机区分不同类型的意义及其随时间变化的关系。

 

新时代生态文明建设与污染防治

推动改革创新,弘扬企业家精神

制造文明 中国制造强国的最大痛点

中国核心技术如何实现弯道超车

扎实推进人工智能和制造业融合发展

社会人文的数字重塑

相关文章