《Frontiers in Artificial Intelligence》:The realism of behavioral theory-based vs. non-theory-based AI agents during a simulated infant formula shortage
行为理论驱动的AI代理在模拟婴幼儿配方奶粉短缺中的真实感:理论与无理论基代理的对比研究
引言
随着自主代理/数字孪生系统日益融入公共政策和卫生系统规划,代理行为的可信度至关重要。本研究为政策制定者和研究人员提供了证据,表明在食品短缺等危机情境下,基于行为理论构建的自主AI代理具有更高的真实感。模拟家庭在卫生和社会系统中的行为,并确保这些模拟的真实性,将为决策者提供重要的能力。然而,为了信任模拟结果,关键需要评估危机期间模拟代理的准确性。将自主代理建立在行为理论基础上,有望提高其反映现实人类决策的能力。本研究通过以下贡献填补现有文献空白:1. 评估基于行为理论的自主代理与无理论基代理的真实感。2. 构建与食品获取相关的自主代理/数字孪生模拟。本研究旨在回答研究问题:“参与者是否认为基于行为理论的AI代理比无行为理论基础的代理行为更真实?”
这项研究突出了将行为理论融入AI代理设计的重要性。AI代理建模与模拟应从基于规则的决策树,发展为建立在经过实证验证的行为理论之上的代理设计。为实现更高的真实感,代理应设计具有社会适应性机制,使其能根据不断演变的人类规范、价值观和行为调整策略,以反映现实的人类行为。代理还应包含反思性推理、目标表征、记忆和行为理论基础,以随时间推移保持行为的一致性和连贯性。在模拟环境中捕捉这些细微差别至关重要,以确保自主AI代理真实地反映其所代表人群的决策模式。在本研究中,将成熟的行为理论融入代理设计,确保了模拟行为植根于人们在危机期间的真实反应。
本研究通过婴幼儿配方奶粉短缺的案例来模拟家庭行为。食品安全是由政策、经济、地理和社会系统相互作用所塑造的,正如2022年婴幼儿配方奶粉危机所展示的那样。有婴儿的家庭特别容易受到这些系统中断的影响,这一问题已引起政策制定者的关注。
背景与文献综述
先前研究:健康与社会背景下的自主代理
使用自主代理和数字孪生来模拟健康和社会系统的情况日益增多,包括与本研究直接相关的背景,如应急响应和城市健康。综述文章强调,在这些领域使用数字孪生尚处于起步阶段,并指出了技术、伦理、财务等障碍。尽管存在这些挑战,有前景的案例研究已经验证了数字孪生/自主代理模拟的准确性,或为其在卫生紧急情况下的使用提供了概念模型。其中Bilal等人(2025)的研究值得注意,它展示了流行病数字孪生/自主代理模型的预测效度,将其结果与观察到的COVID-19数据进行比较:该模型与实际病例、住院和死亡趋势密切匹配。评估模拟的准确性对其未来使用至关重要,正如Park等人所言:“我们必须开发工具和方法,以便(决策者)知道他们何时可以、何时不能信任这些模拟。”
一些验证方法,如沉浸式表面验证,主要用于判断以人类形态出现在屏幕上(例如视频或游戏中)的自主代理的可信度。其他方法则侧重于代理行为而非视觉方面。例如,虚拟叠加多代理系统使用监督代理来监控模拟对人类专家设定的预定义行为约束的遵守情况。标准化测试套件涉及人类评估者对代理生成的、真实人类互动场景的延续进行成功/失败评级,揭示了与人类判断的一致性。
其他使用人类评估者评估自主AI代理真实感的研究侧重于特定背景。例如,越来越多的研究通过将自主代理的评估与专家医生的评级进行比较,来评估其用于临床决策支持的准确性。Park等人(2023)的研究与本研究类似,它使用人类评估者作为参与者,在模拟的非临床环境中评估代理的决策和行动(而非视觉外观)。Park等人(2023)创建了25个生成式代理,它们存储并合成记忆,并被嵌入到一个沙盒城市环境中。研究人员“采访”了这些代理,提出了涵盖五个类别(自我认知、记忆、计划、反应和反思)的问题。然后,参与者比较在不同代理类型下创建的代理访谈回复,并对相同五个问题类别的可信度进行评分。结果显示,完整的生成式代理类型(具备观察、计划和反思能力)产生了最可信的行为。我们的研究在此基础上,增加了代理被编程为按照既定行为理论行事的元素。
行为理论的整合
随着自主代理在模拟中的应用扩展到危机响应、公共卫生和社会政策等领域,确保代理行为反映现实的人类决策变得日益关键。很少有研究将代理逻辑建立在成熟的行为科学理论基础上。此外,大多数验证工作侧重于内部一致性或任务表现,而非理论驱动的、外部可观察和可验证的行为。本研究明确将健康信念模型、社会认知理论和计划行为理论中的构念嵌入到自主代理行为中。选择这三种理论是因为它们为理解人们如何在不确定性下做决策、感知风险以及响应社会和环境线索提供了成熟的框架,这些在食品短缺等危机期间尤其相关。
少数研究已将行为理论整合到代理逻辑或代理行为分析中。Chen等人(2025)对现有研究的综述使用社会认知理论提出了塑造代理行为随时间演变的三个维度:内在属性、环境约束和行为反馈。这为分析自主AI代理决策制定和适应性随时间的涌现提供了一个有用的视角,但它没有测试将行为理论整合到代理逻辑中的模型。另一项确实这样做的研究也侧重于SCT,使用基于主体的建模在女性职业选择背景下模拟SCT的个人因素、行为模式和环境事件之间的相互决定论。该基于主体的模型成功模拟了SCT的理论方面,展示了女性代理即使在数学表现良好时,数学焦虑是如何发展的。它还揭示了一小部分女性代理能够对其环境施加一定控制以构建她们期望的职业,这再次模拟了SCT的一个原则。我们的研究为行为理论在代理设计中的应用引入了额外元素,整合了多种行为理论,并使用人类参与者作为评估者进行验证。
本研究中使用的三种行为理论在表1中进行了描述。它们在我们的现实代理建模与评估框架工具中得以操作化。参与者使用FRAME工具评估自主代理的行为真实感。FRAME包括四个评估维度:1. 危机决策;2. 适应性;3. 行为合理性;4. 社交支持利用,这些维度基于HBM、TPB和SCT的理论构念,如表2所述。选择这些维度是因为它们直接映射到HBM、SCT和TPB,并且可以被未经专业培训的参与者观察和评估。表2中列出的构念与健康信念模型、社会认知理论和计划行为理论的关键领域保持一致,如随附的资源栏所示。
这四个评估维度是参与者使用的行为评分基础。该工具还基于一个归纳基础,反映了2022年婴幼儿配方奶粉短缺期间的真实决策情境。例如,一些代理尽管过去失败,仍继续访问同一家商店寻找配方奶粉,这表明其危机决策能力差或展示了不切实际的策略。其他代理在无法从商店获取配方奶粉时,会向社交网络寻求支持。再例如,一些代理等到其婴幼儿配方奶粉库存非常低时才寻找其他来源,显示出低适应性。
方法
研究目标:研究问题与假设
本研究旨在实证评估基于行为理论的自主AI代理是否在参与者感知中表现出比无理论基础自主AI代理更高的行为真实感。我们提出以下研究问题和假设:
• 研究问题:参与者是否认为基于行为理论的AI代理比无行为理论基础的代理行为更真实?
• 研究假设:使用行为理论建模的AI代理将获得显著更高的真实感评分。
研究设计
本研究采用被试内(重复测量)设计,每位评估者(参与者)在两种实验条件下评估自主代理行为的真实感:基于行为理论的代理(实验条件)和无行为理论基础的代理(对照条件)。自变量是代理类型(即基于理论 vs. 无理论基础)。因变量是四个评估维度的真实感评分:1. 危机决策;2. 适应性;3. 行为合理性;4. 社交支持利用。
婴幼儿配方奶粉使用案例和达拉斯县背景
2022年配方奶粉短缺的信息,包括父母的行为和配方奶粉供应的限制,为我们的代理AI/数字孪生架构提供了参考。2022年的配方奶粉短缺是由一家占美国供应量约20%的制造工厂关闭引发的,并因之前与COVID-19大流行相关的供应链问题而加剧。政策限制在配方奶粉短缺中发挥了重要作用。在豁免被允许之前,州妇女、婴儿和儿童特殊补充营养计划的独家合同要求最初限制了注册家庭的品牌灵活性。监管障碍长期以来使新的国内制造商难以进入婴幼儿配方奶粉市场,进一步降低了韧性。经济和地理因素,例如居住在食品沙漠或缺乏前往多个地点购买配方奶粉的交通工具,限制了许多家庭的选择。另一方面,社交网络起到了保护因素的作用,使一些家庭能够通过社区团体和非正式网络获取配方奶粉。
父母和照顾者对2022年婴幼儿配方奶粉短缺的反应决定了我们代理AI/数字孪生架构中内置的父母行为类型。这些行为被编码为行为参数,其方法是定义2022年短缺期间的常见反应和模式,并将它们映射到行为理论构念上。例如,2022年短缺期间常见的父母反应包括前往多家商店寻找配方奶粉、在线搜索,以及通过家庭、社会和社区网络(包括食品银行)获取。其他2022年的父母行为反映了配方奶粉极度短缺的情况,这也是我们模型中的一个因素。当他们找不到配方奶粉时,父母使用了不安全的喂养方法,包括稀释配方奶粉或用替代品(如牛奶或自制婴儿配方奶粉)替代。
2022年父母面临的约束和障碍也被用于构建危机模拟。例如,父母的策略因家庭社会经济地位而异。在一项全国代表性调查中,接受WIC补助的较低SES家庭比高SES家庭更有可能报告难以获得配方奶粉:WIC家庭为40%,而其他家庭为35%。较高SES家庭更有可能拥有前往寻找配方奶粉的资源:在24小时内,29%的这些家庭访问了四家或更多商店,26%行驶了20英里以上以购买婴幼儿配方奶粉。在定性访谈中,不同SES的父母描述了花费“大量”时间和精力试图找到配方奶粉的位置。
WIC家庭面临其他家庭没有的约束:在食品与营养服务局允许州WIC机构临时豁免计划规则,允许在短缺期间购买替代尺寸、形式或品牌的婴幼儿配方奶粉之前,他们无法使用WIC代金券更换品牌。较低SES家庭比较高SES家庭更有可能使用不安全的喂养方法。不同SES的父母认为,由于没有足够的配方奶粉,他们的婴儿摄入了更少的卡路里,导致他们认为体重增加不足。这些现实世界的行为突显了结构性约束、社会经济地位和照顾者认知如何塑造了短缺期间的家庭反应。
德克萨斯州达拉斯县的儿童食品不安全率高于全国整体水平,为我们的模拟提供了一个有意义的环境。食品不安全被定义为“营养充足和安全食品的有限或不确定可用性,或以社会可接受的方式获取可接受食品的能力有限或不确定”。它包括食物数量不足和膳食质量受损,并可能对儿童产生持久的发育和健康后果。2023年,达拉斯县的儿童食品不安全率为24.5%,而美国为17.4%;家庭食品不安全率为19.2%,而美国为14.3%。
达拉斯县是德克萨斯州WIC参与率最高的县之一,2023年该县的贫困率为13.8%,而美国为12.5%。该县的多个普查区被认为是低收入和食物获取困难的地区,以前被称为食物沙漠。达拉斯县显然面临着我们模拟所需的因素相互作用。
参与者
从一家大型非营利组织招募了34名成人评估者作为便利样本。这个样本量是基于先验功效分析选定的。假设中等效应量、alpha = 0.05、期望功效 = 0.80,进行双尾配对样本t检验至少需要34名评估者。尽管大多数参与者具有行为健康或公共卫生背景,但不需要行为与社会科学或人工智能方面的专业培训。评分维度被设计为易于被非专业评估者理解。
数字孪生与代理构建
代理行为在德克萨斯州达拉斯县为期两周的婴幼儿配方奶粉短缺的数字孪生中进行模拟。
数字孪生构建需要在研究限制范围内尽可能精确地复制达拉斯县,以便为家庭代理在危机模拟期间获取婴幼儿配方奶粉提供准确的障碍。为了在构建限制内提供数字孪生和代理AI的准确性,真实数据集被整合到其结构中。收集了联邦、州和地方数据,并将其组织为两类:1. 达拉斯县数字孪生的地理和人口特征;2. AI代理的个人障碍。
数字孪生覆盖了南达拉斯县的五个邮政编码。这些特定的邮政编码被划定为代理将从中提取家庭人口统计数据和该地区配方奶粉获取数据的边界。为了定义地理空间边界,使用美国人口普查局TIGER/Line shapefile数据为邮政编码提供了精确的多边形。整合了美国农业部食品获取研究地图集数据,按食品获取类别对区域进行分类。
零售、护理机构和食品银行位置(兴趣点)使用美国农业部补充营养援助计划零售商定位器和食品环境地图集进行映射。这些位置是基于HRSA数据仓库数据、Feeding America、211 Texas和州WIC项目列表,在达拉斯邮政编码中生成的。每个邮政编码中获取配方奶粉的位置被赋予了适当的营业时间、配方奶粉供应水平和针对临界低家庭的危机响应触发条件。
供应链网络层被集成到模拟建模的功能中,以更准确地描述婴幼儿配方奶粉从制造商向下游到消费者的流动和中断。该层整合了制造商生产率、分销商补货间隔和间隔水平。它产生了商店库存状态、补货时间和家庭层面的获取情况,这些都影响了代理的购买能力。婴幼儿配方奶粉的制造商,特别是Abbott和RBMJ,是基于2022年的市场份额数据。供应链模型旨在实施额外的中断和供应激增,例如临时工厂关闭和紧急进口协议。为了模拟零售库存动态,WIC产品的货架空间分配规则、基于尼尔森零售扫描仪数据的价格可变性,以及当消费者可见库存低于基线水平的30%时引发的恐慌性购买行为,都被整合到供应链逻辑中。关税增加和FDA豁免被用作政策干预输入,以作为对婴幼儿配方奶粉可用性的现实影响。
运输选项被建模到数字孪生的这一层中,以为获取婴幼儿配方奶粉供应地点提供现实障碍。该层整合了达拉斯地区快速交通数据,为家庭代理提供现实的地理空间相关性,包括九条公交线路、两条轻轨线路和跨越目标邮政编码的12个主要交通站点。路线有每日时间表、出行频率和适当票价。
为了模拟时间获取障碍,照顾者工作日程源自美国社区调查就业数据,并整合到数字孪生中。此功能为家庭代理获取配方奶粉提供了时间限制。在家庭代理特定邮政编码中拥有婴幼儿配方奶粉库存的当地零售店和医疗办公室按照现实时间表运营,并在触发危机调整延长时进行变更。此触发器在应急响应激活期间延长了诊所工作时间。
评估量表
参与者使用评估量表,通过为四个维度中的每一个在5点李克特量表上选择一个分数,来评估代理行为在四个维度上的感知真实感:危机决策、适应性、行为合理性和社交支持利用。评估了评估者间信度,以评估参与者之间平均真实感评分的一致性。在评分之前,参与者收到了关于如何解释每个FRAME维度和1-5量表的书面指导。分数“5”表示代理的反应与现实人在类似危机条件下的预期行为高度一致,而分数“3”反映的行为既不明确真实也不明确不真实。例如,在适应性维度上,代理在遇到障碍后主动改变策略被评为“5”。相比之下,等到配方奶粉几乎耗尽才采取行动被评为较低,而反应性但延迟的适应代表中等范围分数。为其余维度描述了可比较的示例,以确保评估者之间应用一致。
程序
通过电子邮件招募参与者,邮件描述了研究并包含了知情同意书。收到他们签署的知情同意书后,参与者收到一个数字表单链接,其中包含小插曲和评估工具。小插曲总结了每个代理在为期两周的模拟期间的行为,不包含任何理论标签。
每位参与者评估来自每个条件的四个小插曲,总共八个。条件是:1. 基于行为理论的代理,其行为由HBM、TPB和SCT的理论构念组成;2. 无行为理论基础的代理,遵循简单启发式方法,无理论基础。每位参与者评估每个条件的小插曲数量相同,使用评估量表以随机顺序呈现。为了减轻顺序效应,参与者被分成具有不同小插曲呈现顺序的子集。这种完全平衡确保每个小插曲在序列中的每个位置出现在每个参与者中的次数相等。
代理描述
家庭代理描述
本研究中的基于理论的代理旨在通过整合HBM、TPB和SCT的构念来模拟现实的人类决策过程。代理的决策过程由信念-愿望-意图框架定义,允许代理反思情况,选择最适合其情况的策略,并根据变化的信息规划日常行动。HBM、TPB和SCT构念通过使用联邦调查数据进行校准的代理变量映射到基于理论的家庭代理中。这些变量被嵌入到一个信念-愿望-意图循环中:信念反映了对威胁、障碍和社会规范的最新认知;愿望代表了确保婴幼儿配方奶粉的目标;意图被表达为策略选择。可用策略包括访问商店、联系WIC供应商、寻求社会帮助、在线搜索、前往更远距离、转向食品银行或等待。选择哪个选项取决于代理的基于理论的特性、家庭属性以及情况的紧迫性。无理论基础的对照代理遵循简单的基于规则的决策树,没有信念、社会影响或自适应更新。这种对比为评估理论驱动的构念是否提高了感知真实感提供了清晰的实验控制。代理遵循结构化的BDI风格决策循环,其中信念从环境和社会线索中更新,然后由稳定的特质衍生权重进行调节。这些加权信念产生决定行动选择的意图分数。为了避免确定性结果,在意图形成过程中应用了一个小的有界随机项,确保行为变化同时保持理论一致性。未使用强化学习,代理特性在场景持续期间保持固定。代码的代表性摘要见表4。
工作示例:基于理论的代理决策过程
此示例说明了单个基于理论的家庭代理如何使用BDI框架内的行为理论构念将场景输入转换为决策。
在模拟期间,代理遇到婴幼儿配方奶粉缺货的重复商店访问,同时其家庭供应量稳步下降。代理还观察到表明供应长期中断的信息广播,并从附近经历类似困难的家庭收到非正式更新。
这些环境线索被解释为与理论一致的认知,而非直接行动触发。根据健康信念模型,持续的配方奶粉可用性缺乏和家庭供应下降增加了代理对严重性和易感性的认知。根据计划行为理论,有限的交通选择和工作日程限制降低了代理对扩展商店搜索的感知行为控制。根据社会认知理论,接触到其他家庭通过社区资源成功获取配方奶粉的情况,增加了对寻求帮助行为有效性的认知。
这些认知在BDI循环中更新了代理的内部信念状态。代理的愿望仍然集中在确保足够的婴幼儿配方奶粉上,但其意图从重复的商店访问转向通过社会和机构渠道寻求帮助。然后,代理选择与此意图一致的行动,例如联系食品银行或社区组织,但要遵守环境约束,如营业时间和资格。
此过程允许代理行为随时间演变以响应不断变化的条件,同时保持在既定行为理论的基础上,产生反映危机条件下现实人类决策的行动,而非固定的规则执行。
作为对照,无行为理论基础的代理基于规则启发式做出决策。代理遵循一个具有基线功能的固定决策树:当库存极低且有交通时,代理选择访问商店;当没有交通时,代理会请求帮助。决策树允许在不同紧迫程度下做出不同选择。然而,无理论基础的代理没有涉及信念更新、社会影响或自适应加权的选择。这为评估构建到代理中的理论驱动构念在多大程度上提高了模拟危机场景中的感知真实感创造了清晰的对照条件。基于理论与无理论基础代理的比较见表6。
无理论基础的代理被有意设计为一个简单、透明的基线,而不是一个行为真实或有预测性的模型。它们的目的是提供一个确定性的比较条件,反映基于主体的建模中常用的基于规则的方法,使研究能够在保持环境条件不变的情况下,分离出行为理论对感知真实感的贡献。
决策树逻辑由在公共卫生响应、食品获取系统和危机规划方面具有经验的领域专家审查了表面效度,以确保建模的行为是合理的,并且代表了常见的基础行为。没有进行经验校准或与实际世界行动频率的基准比较,因为本研究评估的是代理类型之间的相对感知真实感,而非绝对的行为准确性。
家庭代理的属性使用食品获取与购买调查和美国社区调查的数据进行参数化,以分配家庭规模、照顾者就业类型、收入水平、贫困率和邮政编码级别的汽车拥有率。这些变量影响代理的需求水平、在工作时间内获取配方奶粉的能力或在常规工作时间之外寻找时间窗口的需求,以及前往主要便利选择之外的不同商店的交通。行为风险因素监测系统指标被纳入以影响代理倾向于风险规避或适应性决策,较高的压力影响选择进行更长的行程以访问多家商店。来自WIC和SNAP报告的项目参与数据决定了购买力、WIC代金券资格以及对零售商网络的访问,这些限制了购买渠道和商店选择。
社交网络通过地理邻近分配实现,其中代理连接到邮政编码服务区域内和定义距离阈值内的服务提供商。代理互动进一步由基于制度关系的功能分组构建,为危机响应创造了现实的服务寻求模式、协调网络和分层报告结构。
服务与支持代理
模拟包括一组代表婴幼儿配方奶粉短缺期间将被调用的服务和支持机制的代理。作为数字孪生中内置环境层的扩展,这些系统代理包括食品银行和社区组织、医疗保健提供者或政府计划。每个代理都设计了相关数据和实践,以便其行为与这些系统的实际运作方式一致。通过包含这些代理,模型捕捉了家庭面临的压力以及影响危机期间获取的制度响应。
创建了三种代理类型来模拟危机响应系统:
• 非政府组织食品银行代理利用了来自211 Texas和FEMA社区韧性指数数据的食品储藏室位置,以模拟组织对高压力条件的响应。当家庭库存极低时,这些代理分发紧急配方产品,避免模拟中出现饥饿结果。
• 卫生系统代理整合了CDC地方水平分析与社区估算数据,用于当地的营养相关健康需求,以及HRSA数据仓库记录,以确定医疗设施容量和覆盖率。这些代理提供转诊、分发有限的配方样品、在危机期间延长工作时间并提供远程医疗咨询。
• 政策计划代理使用美国农业部SNAP政策数据库和州级WIC豁免政策模拟州和联邦计划干预。这些代理通过内置干预措施(在短缺恶化时触发)来减轻婴幼儿配方奶粉获取的不足。它们发放应急资金、扩大WIC品牌资格、引入价格控制,并通过定期广播向家庭代理更新短缺情况。
模型数据与模拟构建
数字孪生构建允许部署模拟条件,以代表达拉斯县五个邮政编码中的2022年婴幼儿配方奶粉短缺。选择这五个邮政编码是因为它们具有高食品不安全率、WIC参与率和交通障碍的组合。模型整合了地理空间、零售、供应链、交通和时间层,以确保环境在研究限制内的准确性。
地理空间布局是使用美国人口普查TIGER/Line shapefile、ACS人口统计、收入和车辆所有权数据,以及美国农业部食品获取研究地图集分类开发的。零售和机构位置通过使用SNAP和食品环境地图集数据、HRSA、Feeding America和州WIC列表,分布在整个邮政编码中。每个位置被赋予特定属性,以适当预测其容量、营业时间和危机协议。供应链建模使用2022年市场份额数据、工厂关闭、进口规则、库存阈值、价格可变性和政策中断,模拟了配方奶粉从制造商到零售商的流动。交通建模使用了DART时间表、路线和票价,并受到汽车拥有量和ADA无障碍设施的约束。时间限制反映了照顾者工作日程和现实的营业时间,创造了真实的时间获取配方奶粉障碍。
此模拟是使用Python 3.11构建的,并通过FastAPI和WebSocket通信实现,以支持可扩展的框架部署和代理决策过程的实时流式传输。Pydantic验证确保结构化数据序列化以进行JSON消息传输,从而实现下游分析和小