智能体模拟《西部世界》一样的社会,复旦大学等出了篇系统综述
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
引言传统社会学研究依赖问卷调查和心理实验等方法收集数据,尽管真实可靠,但成本高、难以规模化且存在道德风险。近年来,大语言模型(LLMs)凭借强大的推理和规划能力,为模拟人类行为提供了新的机遇。通过角色扮演,LLMs 驱动的智能体能模拟特定情境下的个体反应,成为研究人类行为的有效工具。与此同时,多智能体的交互被广泛用于解决问题和模拟复杂动态。LLMs 可被定制为具备特定知识和技能的智能体,通过协作实现目标、完成任务;它们的简单互动也能涌现复杂集体行为,模拟现实中的复杂社会动态。这些模拟为对社会现象的理解与预测提供了新工具,也为政策制定和社会管理提供了支持。图 1:大模型智能体驱动的社会模拟概览。本文将现有工作分为个体模拟、场景模拟和社会模拟。从左到右,对个体建模的多样性和规模逐渐增加,从右到左,对个体建模的精确性需求增加。目前,这一领域发展迅速,但现有综述多聚焦于单智能体的架构、特定能力或多智能体系统的某些方面,尚缺乏从个体到社会模拟的系统性回顾。因此,本文试图填补这一空白,为该领域提供全面的概述。考虑到模拟目标以及个体建模在精确性、多样性和规模上的不同需求,本文将现有工作归纳为三种类型:个体模拟(Individual Simulation):利用 LLM 智能体来模拟特定个体或群体,侧重于对于单个人的特征复制,而不涉及多智能体交互;场景模拟(Scenario Simulation):在一个集中的场景中组织多个智能体,由特定的目标或任务驱动,通常集中在特定场景中的小规模智能体上,研究多智能体的集体智慧;社会模拟(Society Simulation):模拟智能体社会中更复杂多样的行为,探索现实世界应用中的社会动态,从小范围对社会理论、假设的验证,到对大规模的现实社会现象的探索。这三类模拟呈现出递进关系:个体模拟为场景模拟和社会模拟奠定基础,而社会模拟则有潜力构建由无数场景组成的复杂世界。本文依次总结了三类模拟的研究进展,并探讨它们的发展趋势,旨在推动这一领域的进一步发展,同时为跨学科研究提供支持。综述链接:https://arxiv.org/abs/2412.03563项目地址:https://github.com/FudanDISC/SocialAgent个体模拟个体模拟基于模块化的体系结构,利用特定人物或人群的个性化数据,以高保真度为目标模拟这些对象。本文提出了一个系统化的框架来整理和概括个体模拟的相关工作,从整体上系统地分析和指导个体模拟的设计与应用,通过将智能体的基本架构与个体模拟的特点相结合,这个框架包含:智能体架构、构建方法、模拟对象和评估方法。图 2: 大模型驱动的智能体个体模拟示意图。个体智能体通常由一个具有概要、记忆、规划和行动模块的框架组成,以模拟特定目标,如人物个体或人群个体。个体模拟可以通过静态和交互的方式进行评估,并观察不同的维度。智能体架构有效地模拟个体需要构建一个能够准确再现个体特征的智能体架构。通常,这种架构被模块化为四个核心组件:概要、记忆、规划和行动。概要(Profile):向模型提供被扮演个体的基本信息特征,继而影响其行为。概要涉及个体的年龄、性别、心理学特征等,主要通过描述和对话的形式呈现,通常包括人工整理和借助大模型生成两种方式。记忆(Memory):存储并利用已有信息和感知信息,确保智能体行为一致性和连续性。记忆分为短期记忆和长期记忆。记忆的主要操作包括写入、检索和反思三种类型。规划(Planning):帮助智能体模拟人类处理问题时的个性化决策过程,使其与模拟个体的思维方式一致。个体模拟的规划可以分为共情规划和主观规划。行为(Action):将智能体的决策转化为特定的输出,支撑智能体与环境互动。行为的环境主要有简单对话和塑造情景两类,而行为类型分为开放域行为和封闭域行为。详细论述请读者参阅原论文Section 3.1,以及表格 1 中对现有代表性工作架构组件的总结。构建方法个体模拟旨在将个体数据整合到 LLMs 中,以实现智能体与个体的对齐,进而模拟个体行为。构建方法分为两种类型:非参数化提示和参数化训练。非参数化提示:直接通过提示词直接为模型提供个体数据,依靠模型的上下文学习能力来模拟个体。个体描述通常通过系统提示词输入到模型中。参数化训练:通过更新通用模型的参数来实现个体模拟,主要分为预训练、微调和强化学习三种方式。预训练在原始大模型上直接训练拟合个体相关数据。微调则根据特定任务和情境,调整模型以适应个体模拟需求。强化学习通过在动态环境中优化模型,不断学习个体行为来改进模拟效果。详细论述请读者参阅原论文Section 3.2,以及表格 1 中对现有代表性工作构建方法的总结。模拟对象应用场景和目标的不同会影响模拟对象的尺度和粒度。根据模拟的范围和细节,模拟对象可分为人群个体和人物个体两类:人群个体:指具有相似特征(如心理特征或身份特征)的群体代表。人群模拟通常用于反映群体意见、评估特定群体的偏好和偏见。此类模拟常通过非参数化提示方法实现。人物个体:指特定的个体,通常是广泛为人所知的角色。人物模拟中的角色可分为真实角色和虚拟角色,这些角色通常可以获取相关的高质量数据。详细论述请读者参阅原论文Section 3.3,以及表格 1 中对现有代表性工作模拟对象的总结。评估方法个体模拟的评估方法可以分为静态评估和交互评估两类。静态评估:通过让智能体直接生成输出进行评估,通常采用简单的问答、选择题或采访形式。静态评估可分为主观评估和客观评估,分别依赖人工或大模型依据主观标准进行判断,或使用数学和统计工具基于具体指标进行分析。交互评估:在交互环境中评估智能体在与其他智能体或用户互动中的模拟能力。交互评估常应用于游戏表现、任务完成和角色扮演等场景,其关键特点包括精心设计的交互环境、实时的外部反馈以及多阶段的评估过程。详细论述请读者参阅原论文Section 3.4。场景模拟现实世界中,个体不是独立存在的,而是通过合作完成特定任务。场景模拟将一组智能体组织在一个具体场景中,由特定目标或任务驱动其行为。场景模拟通常从设计多智能体系统入手,包括构建环境、建模角色、以及设定组织结构与通信协议,以便有效管理智能体之间的互动。图 3:场景模拟示意图。在给定特定场景的情况下,构建一个多智能体系统涉及对环境、角色、组织和通信进行建模。场景模拟完成后,通过不同的评估层次和策略进行评估。组成要素随着场景模拟的日益复杂,构建一个能够适用于多场景的统一系统框架尤为重要。现有系统的基本形式可以总结为:“通过受限的通信方式,将智能体组织起来,在特定环境中扮演角色”。基于这一框架,我们归纳了场景模拟的四个核心要素:环境、角色、组织和通信。环境(Environment):在场景模拟中,环境定义了智能体操作与交互的具体背景。就像人类从周围环境中获取信息一样,智能体也依赖于环境从不同的来源接收输入信号。这些信号指导着智能体在系统中的行为与决策。由此,全面理解环境是智能体决策制定与任务连续性保障的基础。我们通过聚焦于配置、状态、历史和工具这四个关键方面对现有研究中的环境进行分析。配置:提供场景相关的基本信息以便智能体在明确的目标下进行交互。状态:包括场景执行过程中环境提供的信息。历史:是指随着场景的运行,过去的状态和互动逐渐积累成一系列记录。工具:提供与场景模拟任务相关的专业功能(如 Python 和 SQL),能够实现更准确和精确的结果。角色(Role):在场景模拟中,我们根据智能体的任务和功能为其分配不同的角色。典型设置中有两类角色:参与者负责执行场景中的任务,而引导者则管理任务执行过程,并提供必要的支持。每个角色都有其独特的责任,侧重于系统操作的不同方面。各角色之间协作,以实现系统的整体目标。参与者:是积极参与任务执行和讨论的关键成员,他们的组织和沟通是场景模拟中任务完成的核心。引导者:在场景模拟中提供关键支持,负责规划流程、协调沟通和整合结果,例如规划者、协调者、集成者。组织 (Organization):有效的任务执行需要精心协调和安排个体智能体之间的交互。组织框架决定了每个智能体如何与其他智能体协作以实现目标。通常,我们可以通过组织模式和组织结构来描述其组织框架。组织模式:决定了智能体之间的关系在整个模拟过程中的稳定性或动态变化。组织结构:反映了智能体之间的连接方式。通信 (Communication):智能体之间的通信控制着信息的传递。为了更好地理解通信的内部机制,我们从通信形式和通信风格两个方面进行分析。通信形式:指通信的协议,主要分为非结构化自然语言和结构化语言。通信风格:指通信双方的立场,通常可分为合作性和竞争性两种。详细论述请读者参阅原论文Section 4.1,以及表格 2 中对现有代表性工作组成要素的总结。场景分类通过利用具备专业知识的智能体的集体能力,场景模拟已广泛应用于多个领域。在此,我们将不同的场景分为两大类:对话驱动场景,涵盖社会互动和问答任务;以及以任务驱动场景,聚焦于特定领域的专业任务。对话驱动场景:对话驱动的场景以对话为驱动的场景涵盖了人们日常生活中以对话为核心的情境,如社交或娱乐目的的场景。这些场景的共同特点是关注解决与特定任务或领域无关的通用目标。我们将对话驱动场景分为三种主要类型:社交互动、问答和游戏场景。任务驱动场景:在任务驱动场景中,智能体扮演具有特定功能的角色,以完成某一任务或任务集合。这些场景大多涉及与任务相关的一个或多个特定领域。我们将其划分为三个主要类别:基础与应用科学、软件开发和其他行业。在这些领域中,智能体被广泛应用于解决复杂的领域特定问题,通过自动化任务和提升决策过程的效率,推动任务执行的优化。详细论述请读者参阅原论文Section 4.2,以及表格 2 中对现有代表性工作场景分类的总结。评估方法在场景模拟中,评估的重点是任务的解决效果。根据评估的范围,可以将其分为任务评估、子任务评估和系统评估,每种评估方法都采用不同的自动化评估、基于大语言模型的评估和人工评估方法来衡量性能。任务评估:任务评估衡量分配给场景的任务整体表现。自动评估使用预定义的指标和数学工具,如准确率、编码任务的 pass@k、成功率、覆盖度和谈判任务的成交价格等。这些方法高效且可扩展,但可能忽视复杂行为。因此,LLMs 和人工专家被应用于对定性任务进行更细致的评估,并根据特定标准比较解决方案。子任务评估:子任务评估衡量场景模拟中子任务的完成情况及其对整体任务表现的影响,作为复杂任务执行过程的评估。自动评估使用运输率、平均步骤数、任务成功率、重新规划尝试和效率提升等指标来评估子任务表现和策略效率。软件生成任务中常使用完整性、可执行性和一致性等指标。基于 LLMs 的评估侧重于对比评估或胜率判断。同时,人工评估依赖参与者对执行性、修订成本或评论质量等指标进行主观评估。系统评估:系统评估旨在整体衡量场景模拟中系统的有效性和效率。自动评估依赖于诸如 token 消耗、任务成功率和人性化得分等指标来衡量智能体的效率和真实性。额外的指标如准确率、精确度、召回率和 F1 得分常用于评估诊断或预测任务中的系统准确性和一致性。基于 LLMs 的评估通常使用 GPT-4 来评估定性方面,如拟人化程度或诊断报告质量。人工评估则通常通过主观评估,例如采用 Likert 量表对教学内容的语气、清晰度和支持性进行评分。这种方法常用于补充自动评估方法,并捕捉人类视角对系统输出的看法。详细论述请读者参阅原论文Section 4.3。社会模拟社会比单个场景更加复杂,其复杂性体现在组成的多样性、结构的多元性以及非线性效应等多个方面。社会模拟并不以解决具体任务或问题为目标,而是分析和解释大量智能体之间互动所产生的涌现行为及其结果。本文从社会构建元素、场景类型和评估方法三个方面总结了社会模拟的工作。
图 4:社会模拟示意图。构建社会模拟,需要对社会构成、网络、社会影响和结果进行设计。基于此,可以模拟各种场景,并在微观、宏观和系统层级进行评估。社会构建元素考虑到社会的复杂性,社会模拟的一个主要挑战是弥合个体和社会尺度之间的差距。为此,我们结合社会科学中的一些关键概念,总结提炼出了社会模拟中的 4 个核心元素:组成、网络、社会影响和结果。组成(Composition):社会由大量多样化的个体构成,这种多样性,涵盖了信仰、偏好、行为、规范和价值观等广泛的差异。目前,个体组成通常通过虚拟合成、现有数据集或基于真实分布的采样等方法实现。在确定总体个体组成后,有两个关键问题引发了研究者的关注:平衡模拟精度与规模:随着个体数量增加,对于个体的精细建模成本显著提升,因此需要在建模精度与模拟规模之间做出权衡,目前常采用简化个体细节或共享记忆等方式降低模拟成本;对特殊个体的建模:社会中的个体构成多样,但并非所有个体都扮演同等重要的角色,当前研究通常对名人或意见领袖等 “异常值” 进行详细建模。与此同时,基于模拟结果的干预策略通常干扰这些关键节点来影响整个系统的行为结果。网络(Network):社会互动通常通过社交网络进行,网络决定了信息和影响力的传播方向。在社会模拟中,网络可以分为线下网络和线上网络两种。线下网络:离线网络通过面对面交流形成联系。一些研究模拟虚拟世界中的交互,随机或预定义连接个体;另一些通过外部算法估计社会关系。大规模研究中,个体间的网络关系有时会被忽略,或仅提供粗略的社区统计信息来代替详细的邻居信息。线上网络:在线网络通过社交平台形成联系。部分研究使用随机初始化或合成数据构建网络,另一些则抓取真实社交媒体数据。由于获取真实关系困难,最近的研究结合真实与合成数据,或基于相似性连接个体。社会影响(Social Influence):社会影响包含行为主体对他人产生的影响,以及在互动过程中受到他人的影响。社会影响因其接收者特征不同而异,许多研究通过结合个体概要、记忆联合建模来体现这种差异,也有工作引入认知偏差和规范反思机制以增强信息理解和反应。社会影响也因发出者的身份、地位和声誉而异,少数个体往往主导了大部分影响力,已有研究通过建模意见领袖、社会印象记忆等关系信息来细化这个方面。结果(Outcome):社会涌现表明,集体行为或现象并非个体行为的简单线性叠加。互动结果可分为可度量的宏观结果(如投票或公众意见)和定性的社会现象。可度量的宏观统计结果:宏观统计结果是许多研究的重点,部分工作通过直接计算个体选择的总和或平均值来简化社会动态,而另一些则通过多轮互动分析结果变化。社会现象和社会规范:社会现象和形成的社会规范也是社会互动的重要产物,目前通过计算附加指标或观察主要指标的趋势或通过一些案例研究来讨论这类结果。详细论述请读者参阅原论文Section 5.1,以及表格 3 中对现有代表性工作社会构建元素的总结。场景分类社会模拟已广泛应用于与人类社会相关的各类场景,现有研究主要分为三个领域:广义经济学、社会学与政治学以及在线平台。广义经济学:经济学中的模拟分析研究个体在资源分配和竞争中的决策行为,探讨经济激励、市场规则和资源约束对决策的影响,以及群体互动如何影响经济趋势。一些研究关注博弈论,探索小规模群体中智能体之间的复杂互动,涉及信任、逻辑推理、理性决策、合作倾向等;一些研究使用智能体模拟经济行为,研究宏观经济趋势、资源分配、疾病传播和失业率变化等。社会学与政治学:社会模拟在社会学和政治学中广泛应用,旨在通过智能体模拟人类行为,为预测群体意见、验证理论和假设提供支持。一些工作关注民意调查,在选举预测、公关危机管理方面均有应用;另一些研究观察个体或组织行为,在沙盒环境中模拟社会互动,验证特定场景下的理论,如党派群体智慧、组织行为和人格演变。在线平台:在线平台是研究数字环境中的复杂社会现象的重要场所。这些平台,包括社交媒体和在线社区,允许智能体模拟现实世界中的互动,研究舆论形成、信息传播和集体行为等动态。一些研究通过模拟 Twitter、微博等社交媒体平台上的互动,分析信息传播和舆论变化,并越来越关注合成数据和大规模高效模拟平台的搭建。另一些工作模拟推荐平台中的用户响应,以改进推荐算法,通过个性化行为和学习机制提高推荐准确性。详细论述请读者参阅原论文Section 5.2,以及表格 3 中对现有代表性工作的场景分类。评估方法社会模拟的评估主要集中在将模拟结果与现实数据进行比较,评估主要包括微观层级、宏观层级和系统层级。微观层级评估:微观层级评估关注社会模拟中个体的模拟有效性。最初,研究通过评估智能体与人类行为的相似度进行主观评估,后续则发展出如党派偏见和人类相似度指数等指标。对于现实场景的模拟,研究设计了自动化指标,通过与实证数据对比,提供更客观的评估。宏观层级评估:宏观结果的评估关注模拟中的集体结果与现实世界的一致性,尤其是在传播规模和集体意见等方面。除了直接观察以外,一些量化指标,如拟合参数和相关系数,也被引入来客观衡量差异。系统层级评估:系统层面评估关注的是模拟系统的整体性能,而不关心具体模拟的内容,包括计算效率、资源消耗和系统的可扩展性等。详细论述请读者参阅原论文Section 5.3。研究趋势个体模拟 图 5:个体模拟趋势示意图,包括粗略模拟、精细模拟和面向情境模拟。个体模拟经过了三个阶段的演变,分别是粗略模拟、精细模拟和面向情境模拟,如图 5 所示。从 2022 年 6 月起,研究者开始关注粗略模拟,尤其是测试 LLMs 的个性和模拟知名角色等表面特征。到 2023 年 8 月,趋势转向更加精细的个体模拟,研究评估模拟模型的认知方面并提高其模拟能力。到 2024 年 4 月,研究者开始在特定场景中进行个体模拟,进一步扩展了模拟的复杂性和现实性。场景模拟 图 6:场景模拟趋势示意图,包括简单场景、多阶段场景和合作场景模拟。场景模拟的发展经历了三个明显的阶段,包括简单场景、多阶段场景、合作场景模拟。从 2023 年 1 月起,研究主要集中在简单场景上,涉及单一目标并促进基本的情境互动。到 2023 年 6 月,研究重点转向多阶段场景,加入了多步骤任务,使智能体能够在不同的情境中进行顺序决策和适应性反应,以实现更复杂的目标。到了 2024 年 2 月,研究逐渐聚焦于多智能体协作场景,强调智能体在复杂的高阶模拟中合作和适应的能力。社会模拟
图 7:社会模拟趋势示意图,包括构建模拟环境、探索特定场景的对齐,以及扩展规模和模态。社会模拟的发展可以分为三个阶段。2023 年 6 月起,研究集中在构建初步的模拟环境。在此阶段,研究者主要关注模拟环境的搭建与智能体在环境中基本社交能力(如记忆、对话、简单工具调用等)的实现。到 2024 年 2 月左右,研究重点转向了特定场景下的对齐,特别是聚焦于个性化建模和特定场景中的一些可观察和评测任务,推动了模拟精度和智能体对环境适应能力的提升。2024 年 2 月以来,随着技术迭代和智能体模拟精度的提升,研究逐渐转向了大规模模拟,研究者们在该场景下验证了一些人类社会已有的规律(如马太效应、帕累托法则等),进一步讨论了智能体社会与真实世界的一致性。与此同时,现实生活中的更多模态元素(如视觉、声音等)也被纳入模拟,强化了模拟的真实感和互动性,使得智能体的行为可以更加贴近现实情境。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。