社会学博客: 李国杰：关于网络社会宏观信息学研究的一些思考

转自：http://qixianglu.cn/20090410080724.html

李国杰：关于网络社会宏观信息学研究的一些思考

forcode：非常高兴能够看到国内有专家学者介绍计算社会学这个新兴领域，因为最近对计算社会学又"旧情复燃"，所以百度、google搜索了一下"计算社会学"，发现大部分帖子都是我在2005年留下的。不过，也很开心找到了两篇综述性的论文，其中一篇就是李国杰的"关于网络社会宏观信息学研究的一些思考"，希望有越来越多的研究人员介入这一领域的研究。目前有一些计算机专业的研究人员开始用模拟仿真来研究社会，但是社会科学的研究人员，受限于技术能力，尚未进入该领域，这应该是一个宝藏。希望这一篇转贴可以抛砖引玉，吸引更多社会学的硕士生、博士生进来钻研。

关于网络社会宏观信息学研究的一些思考

作者：李国杰

信息技术的普及，特别是互联网的蓬勃发展，将使人类告别以土地、能源、材料为主要生产资料的农业社会和工业社会，逐步进入以信息为关键生产要素的信息社会。面对这一场涉及经济、政治、文化等各个方面的社会大变革，从事信息科学技术研究的科技工作者不仅要关心微观层次具体技术的实现与应用，还应当重视在宏观层次上利用信息技术对整个社会做定量研究，特别要关注信息科学技术与社会科学的交叉研究。

近十几年来，国际上逐步形成了一些信息科学和社会科学交叉研究的学术分支和学术团体，如社会计算（Social Computing）、社会信息学（Social Informatics）[1]、计算社会学（Computational Sociology）[2]、仿社会学（Socionics）（注1） [3]、社会网络分析（Social Network Analysis）[4]、情报与安全信息学（Intelligence and Security Informatics）[5]等。"社会计算"主要是微软、IBM等公司在倡导、重点研究用户使用行为和用户为中心的设计过程，旨在提高产品的适用性和易用性。"社会信息学"是已故美国印第安那大学Rob.kling教授1996年发起的学派，主要研究计算机社会化的理论，即研究受组织和文化影响的信息技术的设计、应用和后果的跨学科理论。"计算社会学"是近期兴起的一个社会学分支，主要研究方法是用计算机模拟社会现象，重点研究社会的复杂性。"仿社会学"采取类似仿生学的思路，一方面在计算机科学技术中借鉴人类社会的适应性、鲁棒性和可扩展性，另一方面用分布式人工智能技术扩展、深化社会学的研究，进一步再研究人和计算机构成的混合社会。"社会网络分析"是社会学的一个分支，可追溯到上世纪30年代，近来的研究热点是社会网络的形成规律，如小世界模型、幂律分布等。"情报与安全信息学"是认知、情报、人工智能、控制和社会科学的交叉研究，重点进行互联网上海量信息的分析和情报、知识发现。

上述在国外已经开展的信息科学与社会科学的交叉研究，有些研究偏微观层次，如侧重人机交互技术的social computing；有些学术分支，如social informatics和computational sociology等，研究内容较为专注。我们希望用"网络社会宏观信息学"这把大伞聚集关心重大社会问题、关心信息科学与社会科学交叉研究的各领域的学者，开拓我国社会科学和信息科学研究的新局面。我们认为,网络社会宏观信息学研究应侧重于采用信息科学技术，特别是高性能计算技术,分析研究具有战略性的重大社会问题，如社会舆情分析与预警、社会安全与稳定性分析、预测重大决策对社会的长期影响、模拟在不同规划系统下社会发展的趋势和复杂网络的共性规律等等。另一方面我们也应关注从人类社会中发现构造信息系统的启示。

我们认为在网络社会宏观信息学的研究中，以下三个方面颇为重要，值得我们在开始研究时予以重视。

一、复杂社会的计算机模拟。

相对于"死"的物质世界和不具备高级思维的生物世界，人类社会是宇宙中最复杂的进化物。人类社会的复杂性不仅体现在系统中元素多，相互关系复杂，而且表现在元素（或称为网络的节点）的适应性,社会中的个人、组织都是"活"的，能根据环境改变而不断变化。因此有人把人类社会系统称为复杂适应系统（Complex Adaptive System，即CAS）。由于人类社会的极端复杂性，人们常把社会科学当成最"硬"的科学。

大家都知道，社会政治不是简单的个人意向之和，经济学家需要写专著来讨论"同意的计算"。这种整体不等于部分之和的特性称为"非线性"。由于有非线性，才会出现所谓"涌现（emergence）"行为，即宏观行为是在复杂系统中微观组件的非线性相互作用下而自发涌现出来的表现[6]。与许多具有线性叠加关系的集中的物理系统不同，复杂社会从微观到宏观的因果关系往往不可能用简单的公式推导出来。比如亚当·斯密阐述的所谓"看不见的手"，实际上就是消费者和生产者之间的非线性相互作用，个人微观利益的相互作用通过市场机制造成了宏观的社会福利效果。

对于这种复杂的社会系统用什么方法可以模拟呢？或者说复杂的社会行为可以"计算"吗？人们对计算的常识理解往往从数值演算开始，但从科学的角度来看，"计算"的范围要大得多。从最广义的范围来讲，有些学者把整个宇宙看成一台巨大无比的计算机，把所有的物理过程都看成按照某种程序执行的"计算"。实际上我们现在使用的计算机，本质上是一种符号处理机。只要能把要做的事情符号化，或者叫数字化，在满足可计算性和较低计算复杂性的条件下，原则上都可以"计算"。把一个物理问题变成一个数值计算问题，首先要建立物理和数学模型，用一些方程式表示输入输出变量的关系，如流体力学计算中N-S方程。对于社会问题，除了少数问题（主要是经济问题）可以用统计方法做定量的数值分析外，多数问题难以抽象出数值计算模型。所以，尽管这些年来计算机应用搞得红红火火，许多人在宣传无处不在的计算，但我国的社会科学研究几乎是游离于计算机世界之外的孤岛，很少见到社会科学工作者尝试用计算机（特别是超级计算机）研究重大社会问题。

计算机果真对研究重大社会问题无能为力吗？实际情况不是这样。早在上世纪60年代，从事人工智能研究的学者（包括人工智能的创造人之一明斯基在内）就开始采用Agent概念研究社会问题。Agent（国内翻译成"智能主体"或"代理"）是个广泛使用的概念，学术界并没有公认一致的定义。对我们讨论的社会模拟而言，Agent就是一段特殊的程序。与一般的程序不同，Agent至少有两个特点，一是自治，即根据预先在程序中设定的规则和当时运行环境可自主做出决策和反应，二是与网络中的其他Agent有相互联系和影响，通过通信能感知周围环境。到了上世纪90年代，智能Agent已成为一种普遍流行技术，写进了与Internet有关的三个标准文件（RFC1009，1027和1067）。

针对某个社会问题，我们可以把涉及的个人或组织的行为规则、特性写成一段Agent程序，不同的人和组织用不同的Agent表示。当大量的Agent（可以成千上万个甚至更多）都放到同一个计算机或某个网络中，这些"活"的Agent就如同许多人和单位构成社会一样在计算机中构成了一个人工社会（Artificial Society）。由于这些Agent之间的相互作用是随机产生的，而且具有非线性的特点，一群Agent（计算机界称为multi-Agent系统）的相互作用可以涌现出难以预料的宏观行为[7]。

国际上已经用这种多智能体系统做了许多模拟社会行为的研究。包括社会组织的形成和演进、文化道德和制度的发展、危机的产生等等。早在上世纪90年代美国 Sandia国家实验室就用当时世界上的最大的并行机PARAGON做过基于Agent（1005个Agent）的微观经济模拟，这种微观模拟不同于一般的以统计平均的序参量做的宏观经济模拟。近几年以研究复杂性著称的Santa Fe Institute开发了一个基于智能体的社会模拟软件平台SWARM[8]，可以从网上下载，为开展社会问题的计算机模拟提供了共享的工具软件。为了充分利用分布在各地的计算资源，英国已建成用于社会科学研究的网格系统，称为e-social science[9]。人工社会和社会模拟的研究队伍已有相当的规模，社会模拟方面许多重要的论文发表在英国出版的期刊Journal of Artificial Societies and Social Simulation。

除了基于多智能体的模拟以外，传统的社会模拟还有面向对象的模拟、离散事件模拟等等。社会科学与自然科学的一个重要区别是很难直接对社会进行重复的实验，因为社会本身在不断变化。但计算机模拟所建立的人工社会系统是计算机内的程序，我们可以调整系统的参数和初始条件，重复进行模拟"实验"。因此，近来不少社会科学研究机构中也出现了各种"实验室"，如经济科学实验室、社会科学实验室等。值得指出的是，社会行为极为复杂，计算机模拟并不能精确无误地预测现实社会的未来，计算机作为一种研究工具也不能代替传统的社会科学研究。通过改变Agent内的规则，计算机模拟可能导出多种未来，但并不能提供在各种未来中作出选择的算法。计算机中生成的人工社会可以看成现实社会的"平行系统"，王飞跃研究员对平行系统思想有较多论述[10]

二、网络社会和复杂网络的宏观分析

信息社会的基础是联接每一个人的各种各样的信息网络，特别是近十几年来迅速普及的互联网。互联网的巨大作用是大幅度降低人类的通信成本和实现最广泛的信息资源共享。互联网不仅影响人们的生活，还将重塑现实社会，构成与工业社会有本质区别的网络社会。

信息网络与现实社会之间是一种互动的关系，一方面网络影响人类的生产与生活方式，另一方面，人群的爱好取向又反过来影响信息网络本身的演进。一个网络的节点如果随机地增加，理论上应该生成一个随机网，节点的连接度应遵循钟形的泊松分布。互联网和web网新增节点看起来是随机的，但设计网站的人总是希望先与热点网站建立链接。人类这种嫌"贫"爱"富"的聚簇特点使互联网变成了具有幂分布特征的自由标度网络（scale-free network）（注2） [11]。我们应该进行社会网络的宏观分析，研究人与网络的关系，研究网络社会的运行机理，研究网络对现实社会重塑与再造的条件，研究现实社会对互联网发展的影响等等。

从上世界30年代开始，香农、图灵、冯·诺伊曼、维纳、哥德尔等科学家从不同侧面开创了信息科学，并逐步发展成不同领域的信息工程学科和庞大的产业。由于信息科学与技术的巨大渗透性，近十几年来，在不同领域逐步发展出自然信息学、社会信息学、智能信息学、甚至与更细的学科交叉，形成化学信息学、生物信息学、天体信息学、经济信息学、政治信息学、文化信息学等等。信息技术不是孤立地存在于某个技术领域，它们赖以生存的文化和制度环境影响着信息技术的理论框架。在国外已经有较大影响的社会信息学研究的起源之一是所谓信息化悖论，即按传统的经济统计，信息化对生产率的提高几乎不起作用。到底如何评价信息化的经济效益，如何实现有效益的信息化，这不只是个实际操作问题，也需要做深层次的理论研究。

自从Barabasi等物理学家验证互联网是自由标度网的论文发表以来，越来越成为众多领域学者关注的热点。我国学者也表现出浓厚的兴趣，已做出一些漂亮的研究成果[12]。但目前仍是数学、物理学家介入较多，计算机科学家和社会科学家参与较少。实际上，关于复杂网络的研究还刚刚开始，许多未解之谜需要我们去解答。比如物理学家分析互联网的连接度一般是不区分网络七层协议中哪一层的连接，而具有相同的节点连接度分布的网络，从网络工程实施的角度来看，可能有完全不同的拓扑结构。最近国外一些信息领域的学者已经质疑互联网的自由标度特性，并提出了从路由器层次分析互联网的宏观连接特征[13]。这个例子也说明研究互联网的拓扑结构和动力学行为不能停留在数学、物理学家的统计分析层次，计算机与通信领域的学者必须参与这种宏观层次的研究。只有采用理论与实际相结合的研究方法，才能推动复杂网络研究取得实质性的进展。我们需要发展定性与定量相结合的分析方法，发现描述复杂动态网络基本性质的特征量，不仅需要连接度这样的几何描述，还需要物理和信息特征的更多描述，从而构造符合实际应用要求的复杂网络。对于互联网而言，我们需要保留其自由标度网的鲁棒性等优点又必须改变目前的演化模式，提高其防止有意攻击的能力，形成更安全可靠的网络结构。从宏观上讲，下一代互联网的关键是要解决集中与分布的矛盾，使之既保留分布自治的优点又有很强的可管理性。攻克这一关键技术必须对复杂网络的结构与动力学行为有更深入的理解。美国国家研究理事会最近向国会提出一项动议，要开展" 网络科学"研究，特别强调为未来的军事应用，必须重视网络科学研究[14]。本文提出的研究重点与他们提倡的研究方向有共同之处。

近代科学越分越细，模糊了人们对事物的总体性、全局性的认识。德国著名物理学家普朗克认为："科学是内在的整体，它被分解为单独的部门不是取决于事物本身，而是取决于人类认识能力的局限性。实际上存在从物理学到化学，通过生物学和人类学到社会学的连续的链条，这是任何一处都不能打断的链条。"马克思在 100多年前曾预言："自然科学往后将会把关于人类的科学总括在自己下面，正如关于人类的科学把自然科学总括在自己下面一样，它将成为一个科学。"我们今天强调开展网络社会宏观信息学研究，就是试图寻找那条被打断的"沟通链条"。

三、海量信息分析与情报发现

互联网社会带来的一个重大变化是，不但人类积累的大量信息、知识放在网上，而且人们对当前事务的观点、意见也通过网页、BBS、博客日志等多种方式表现出来。50多年前，万尼瓦尔·布什就展望过共享人类知识的"记忆扩展器（Memex）"，如今的web技术可以实现其理想。到2004年最大搜索引擎大约能搜索到80-100亿网页。这些通过一般的浏览器能搜索到的网页只是表层网页，更多的深层网页（Deep Web）包括授权检索网页、数据库查询和调用返回的网页、多媒体文档和软件等，用一般的浏览器检索不到。专家们估计，深层网页要比表层网页多 400-500倍。如何有效地检索深层网页是我们需要解决的关键技术之一[15]。

目前信息爆炸式增长的速度远远超过信息处理能力增长的速度。从海量的网上数据、信息和知识中发现隐藏的、有价值的情报与知识是人类21世纪面对的重大课题。特别需要重视的是人们在网上表达的"活"的情报和舆论。传统的"情报"在英文中不是Information，而是Intelligence，这意味着情报是需要智慧从海量数据、信息中获取。社会舆论反映社会各阶层的民意，在全国上下努力构建和谐社会的今天，社会舆论已成为党中央和各级政府关注的大事。我们不但要有科学的方法"计算"民意，要把舆情、民意数字化，建立如同股市指数一样的"舆情指数"，还要研究舆情、民意的变化规律，从海量的网上信息中发掘社会科学的知识。另一方面，从网上的海量信息中还能发现各种罪犯的蛛丝马迹。通过挖掘有价值的情报破获犯罪集团，掌握社会潜在的不良倾向，是促进社会稳定、建设和谐社会的重要手段。分析情报、发现知识都是与语义有关的技术。在社会网络宏观信息学的框架下，我们不只是关注一般的语义理解技术，还应重点研究对于"特大规模"的网上数据（比如几十TB甚至几百TB），如何进行情报抽取和知识发现。

致谢

在本文在形成过程中，我与中国科学院自动化所王飞跃研究员有几次深入的讨论，本文有些观点受到他的启发。中科院计算所岳小莉博士给我提供了一些国外有关研究情况介绍，在此表示感谢。

注1：本文所指的Socionics不是80年代兴起的心理学分支，而是指近几年德国研究基金支持的社会学和信息学的交叉研究，见参考文献[3]。

注2：国内普遍将Scale-free翻译成无尺度、Barabasi采用Scale-free来称呼具有幂分布的网络，意思是概率分布p(k)∝k-r，其中k无论用什么标度，即k扩大常数倍，其分布仍是幂分布，因此翻译成自由标度也许更确切。

参考文献：

【1】 Rob Kling，What is Social Informatics and Why Does it Matter? D-Lib Magazine, Vol.5, No.1 , 1999,

【2】 Michael W. Macy and Robert Willer， From factors to actors: Computational sociology and agent-based modeling. Annual Review of Sociology, 2002.

【3】 SOCIONICS－Introduction and Potential, Journal of Artificial Societies and Social Simulation vol.1, No.3, 1998.

【4】刘军，社会网络分析导论，社会科学文献出版社, 2004

【5】王飞跃、王珏，情报与安全信息学研究的现状与展望，中国基础科学， Vol.7 No.2，2005

【6】克劳斯.迈因策尔：复杂性中的思维，中央编译出版社，2000年

【7】 Sichman, et al (Eds.)，Multi-Agent Systems and Agent-Based Simulation, Springer，1998,

【8】丁浩, 杨小平, SWARM—一个支持人工生命建模的面向对象模拟平台, 系统仿真学报, 2002年5月

【9】 National Centre for e-Social Science, www.ncess.ac.uk

【10】王飞跃，关于复杂系统研究的计算理论与方法，中国基础科学，Vol.6 No.6,2004

【11】A-L.Barabasi and E. Bonabeau, Scale-Free Networks, scientific American, May 2003.

【12】方锦清，第二届全国复杂动态网络学术论坛总结，2005年11月

【13】 David Alderson et al., Understanding Internet Topology: Principles, Models, and Validation , IEEE/ACM TRANSACTIONS ON NETWORKING, VOL. 13, NO. 6, Dec. 2005 .

【14】National Research Council， Network Science—Committee on Network Science for Future Army Applications,the National Academies Press，2006.

【15】Deep Web WHITE PAPER, www.brightplanet.com/technology/deepweb.asp