一项关于政策制定者采用人工智能以支持研究证据应用的多方法研究：对人工智能在预防政策中应用的启示

《Prevention Science》：A Mixed-Methods Study of Policymakers’ Adoption of AI to Support Use of Research Evidence: Implications for Artificial Intelligence in Prevention Policy

【字体：大中小】 时间：2026年05月04日 来源：Prevention Science 2.7

编辑推荐：

　　摘要：政策制定者越来越多地采用人工智能（AI）工具来支持立法决策，然而对于这些技术如何被使用及其对基于证据的政策制定的影响，目前还缺乏实证理解。通用AI工具，如大型语言模型（LLMs），既带来了提高效率的机会，也带来了与错误信息和缺乏透明度相关的风险。本研究考察了州立法者在政策制

　　摘要：政策制定者越来越多地采用人工智能（AI）工具来支持立法决策，然而对于这些技术如何被使用及其对基于证据的政策制定的影响，目前还缺乏实证理解。通用AI工具，如大型语言模型（LLMs），既带来了提高效率的机会，也带来了与错误信息和缺乏透明度相关的风险。本研究考察了州立法者在政策制定中使用AI的情况，并介绍了AIRE协议（AI for Informed and Responsible Evidence-use），这是一个基于经过验证的证据来开发专用AI工具的结构化框架。我们通过开发Results First AI助手来展示AIRE协议的应用，该助手旨在帮助政策制定者更好地利用Results First Clearinghouse。研究采用了混合方法，共有45名美国州立法者参与了现场访谈，以评估他们采用AI的模式、感知到的好处以及他们的担忧。AIRE协议指导了AI助手的快速原型设计和迭代开发过程，期间得到了政策制定者、国家政策组织和技术专家的建议，最终形成了定制的基于证据的建议。尽管政策制定者表示对能够在时间限制下利用AI工具获取信息感兴趣，但他们也提出了关于透明度、可靠性和适当使用的担忧。我们的研究结果表明，根据政策制定者的需求量身定制的AI工具——使用像AIRE这样的框架开发——将有助于将经过验证的证据整合到立法决策中，同时解决与通用AI解决方案相关的伦理和实际问题。

政策制定者正越来越多地将人工智能（AI）工具纳入其决策过程，其中像ChatGPT这样的商业大型语言模型因其能够快速合成大量信息而受到关注（Bab?ek等人，2025年）。虽然AI在政策制定中的采用通常被认为可以提高效率并改善信息获取，但它也引发了关于支撑立法决策的信息的完整性、透明度和可靠性的重要问题（Neumann等人，2024年）。在基于广泛但未经筛选的数据集训练的通用AI工具的整合过程中，存在显著风险——特别是传播错误信息、强化偏见以及提供与科学证据不符的建议（Guedes & Júnior，2024年）。在预防政策领域，这些风险尤为令人担忧，因为针对儿童、家庭和社区的干预措施决策需要严格、经过验证的研究作为基础（Best等人，2024年）。AI在政策制定中的整合是公共部门数字化转型的一部分趋势（Osborne等人，2022年；Ruvalcaba-Gomez，2023年）。在过去二十年里，世界各国政府越来越多地利用数据分析、机器学习和AI来改进服务提供、提高透明度并简化决策过程（Dziundziuk等人，2024年）。从预测性警务算法到欧洲和亚洲的AI驱动的福利评估，应用范围广泛，尽管常常伴随着关于公平性、隐私和问责制的讨论（Li等人，2023年；van Noordt等人，2023年）。美国同样在国家安全、医疗政策分析以及现在的立法过程中投资于AI。理解这一全球和历史趋势对于把握AI在预防政策中带来的机遇和挑战至关重要（Brundage等人，2024年；Hunt等人，2020年；Johansson，2025年）。AI在政府环境中的部署并非在没有任何监管的情况下进行的。在美国，最近的联邦指令，包括行政命令14,179（《消除美国在人工智能领域的领导障碍》，2025年），反映了在复杂监管环境中推进AI创新的努力。在国际上，欧盟的AI法案（Future of Life Institute，无日期）和类似的全球框架旨在标准化AI的伦理使用，强调透明度、数据保护和人类监督。这些不断发展的政策突显了开发符合技术标准并符合新兴法律和伦理要求的AI工具的重要性。政府主导的AI倡议的最新发展既展示了将AI整合到公共政策和决策过程中的潜力，也凸显了其中的复杂性（Mergel等人，2024年）。在美国，对AI的重视体现在主要的联邦倡议中，包括特朗普总统的行政命令14,179，该命令旨在通过消除监管障碍来加速AI的发展，同时保持美国的技术主导地位。同样，最近开发“GSAi”这一AI聊天机器人的努力也反映了利用AI改进政府运营的更广泛趋势。虽然这些倡议突显了AI在政策背景下提高效率和信息管理的潜力，但它们也引发了重大的伦理和治理问题。批评者警告说，如果没有适当的监督，快速的AI采用可能会削弱透明度，集中决策权，并侵蚀公众对民主机构的信任（Fan，2024年）。这些紧张关系表明，迫切需要制定能够平衡技术创新与伦理考虑的框架，确保在政策制定环境中部署的AI系统是透明的、可问责的，并符合公共价值观（Chandra & Feng，2025年）。这一背景强调了开发不仅高效而且基于经过验证的证据、旨在支持知情和负责任的政策制定的专用AI工具的重要性。AI的潜力在于它能够通过提供及时的信息和促进数据驱动的决策来支持政策制定过程。尽管一些AI工具（例如Policybot；Milmo，2025年）已经显示出改进，但如果没有机制来确保AI生成输出的准确性和相关性，政策制定者可能会无意中基于有缺陷的信息做出关键决策。这个问题不仅仅是理论上的——越来越多的证据表明，如果AI工具设计和管理不当，可能会延续现有的不平等并放大错误信息，最终破坏实施有效预防策略的努力。考虑到这些挑战，迫切需要开发不仅高效而且值得信赖、透明并且基于经过验证的证据的AI工具。这样的工具可以在研究和政策之间发挥关键作用，确保影响人口健康的决策基于最佳的科学依据。

**预防政策中的挑战**
有效的预防政策依赖于及时获取基于证据的信息（Crowley & Scott，2017年；Crowley等人，2022年；Scott等人，2024年），然而政策制定者在获取和解释做出明智决策所需的数据时经常面临重大障碍（Crowley等人，2020年；Scott等人，2022年）。研究证据往往内容密集、技术性强，难以转化为可操作的政策指导。此外，政策环境的特点是优先事项相互竞争、时间限制以及政治和公众压力的影响，所有这些因素都可能限制立法者深入参与科学研究的能力（Long等人，2021年、2022年、2024年）。现有的资源虽然有价值，但可能并非针对政策制定者的具体需求而设计，导致基于证据的信息中心和其他信息存储库的使用不足（Buckley等人，2025年；Crowley等人，2019年、2024年；Scott等人，2023a、2023b）。关注预防政策提供了一个关键视角，通过这一视角可以探讨AI如何融入立法决策。预防政策——从物质滥用项目到儿童福利干预——通常涉及复杂的成本效益考量，并对人口健康产生长期影响。鉴于这些决策的紧迫性和复杂性，及时获取基于证据的信息至关重要（Scott等人，2023a、2023b）。然而，研究表明，政策制定者往往缺乏有效解释和应用科学证据的工具（Crowley等人，2018年、2021a、2021b；Scott等人，2022年）。通过解决这些差距，为预防政策设计的AI工具可以改善资源分配，提高项目效果，并最终带来重大的公共卫生效益。

商业AI工具通过提供复杂信息的快速摘要，为这些障碍提供了潜在的解决方案。然而，这些工具通常是通用的，缺乏区分高质量、经过同行评审的研究和不太可信来源的能力（Corti等人，2023年）。如果没有保障措施来确保使用经过验证的证据，政策制定者可能会依赖虽然容易获取但可能不完整或具有误导性的信息。在预防政策的背景下——决策可能对公共卫生产生深远和持久的影响——这种对通用AI工具的依赖带来了重大风险，包括无效的解决方案和资源的浪费。显然需要根据政策制定过程的独特需求量身定制的专用AI解决方案，同时强调可访问性和科学严谨性。

**本研究**
本研究有两个主要目标。首先，我们试图了解美国州立法者目前如何在他们的立法过程中使用AI。通过全国性调查，我们研究了AI采用的普遍性、所使用的工具类型以及政策制定者对这些技术的好处和风险的看法。通过识别使用AI的促进因素和障碍，我们旨在全面了解技术如何塑造当代的立法工作。其次，我们介绍了AIRE协议（AI for Informed and Responsible Evidence-use）作为一个结构化框架，用于快速开发优先使用经过验证的科学证据的AI工具。通过开发一个旨在帮助政策制定者更好地利用Results First Clearinghouse（Results First: Clearinghouse Database，2025年）的AI助手，展示了AIRE协议的应用。Results First Clearinghouse是由The Pew Charitable Trusts开发的基于证据的项目数据库。通过利用这一资源，AI助手旨在为政策制定者提供准确、及时和可操作的信息，以支持预防政策决策。

**介绍AIRE协议**
AIRE（AI for Informed and Responsible Evidence-use）协议是为了应对对既以用户为中心又基于证据的AI解决方案日益增长的需求而开发的。AIRE基于四个核心原则：知情使用、负责任开发、以用户为中心的设计和快速迭代。知情使用强调AI输出必须基于经过验证的科学证据，确保政策制定者获得准确和可靠的信息。负责任开发要求透明度、伦理考虑以及对AI系统中潜在偏见的关注。以用户为中心的设计确保工具的开发直接考虑到政策制定者的输入，反映他们的工作流程、偏好和信息需求。快速迭代使得AI工具能够及时开发和改进，确保它们在快节奏的政策环境中保持相关性。

**AIRE协议的应用示例**
本研究通过一个案例展示了AIRE协议的应用，该案例中AIRE指导了一个AI助手的开发，该助手与Results First Clearinghouse接口。该助手旨在简化对预防项目效果和成本效益概况的证据访问，解决了政策制定者在评估干预选项时面临的关键挑战。遵循AIRE框架，开发过程侧重于创建一个实用且易于使用的工具，以支持基于证据的决策，同时不牺牲推动AI在政策制定中受欢迎的速度和便利性。

**基于证据的人工智能工具原型框架**
AIRE协议的开发是为了满足快速原型化AI工具的需求，这些工具需要根据政策制定者的独特需求进行定制。虽然商业AI工具提供了通用知识检索，但它们通常缺乏预防政策中基于证据决策所需的特定性和可靠性。AIRE协议旨在通过确保AI工具的开发基于经过验证的科学证据、考虑最终用户需求并对伦理问题敏感来弥合这一差距。AIRE基于以用户为中心的设计和快速迭代的原则，强调与政策制定者的共同创造、算法过程的透明度以及数据的负责任使用。该协议为开发不仅提供及时信息，还增强在立法环境中采纳所需的信任和可用性的AI应用程序提供了实用路线图。这一协议补充了现有的AI框架以及优化干预措施的尝试（例如MOST；Collins等人，2007年）。为了展示AIRE协议的应用，我们应用其框架开发了一个AI助手，该助手能够与Results First Clearinghouse接口，使政策制定者能够访问关于预防项目效果的证据信息。

**AIRE的核心支柱**
AIRE协议围绕四个核心支柱构建，指导为政策制定者开发基于证据的人工智能工具：
1. **知情使用**：AI输出仅来自经过验证的科学证据，确保政策制定者获得准确和可信的信息。对于这个项目，Results First Clearinghouse作为主要数据来源，提供了关于项目效果的严格评估信息。
2. **负责任开发**：在整个开发过程中优先考虑伦理问题。这包括生成建议的透明度、减轻算法偏见的努力以及保护用户隐私和数据安全的保障措施。
3. **以用户为中心的设计**：政策制定者作为共同创造者参与，确保AI工具反映他们的信息需求、决策过程和实际情况。定期反馈循环被整合到开发过程中，以改进可用性和功能性。快速迭代：开发周期被设计为高效且具有适应性，以便及时部署功能原型。迭代测试确保工具能够持续响应用户需求和不断变化的政策环境。这些支柱共同提供了一个全面的框架，用于开发实用、符合伦理且能有效支持基于证据的政策制定的人工智能工具。通过考虑来自对州立法者的全国性调查的实证见解，并结合AIRE协议的开发与应用，本研究为预防科学和公共部门人工智能部署领域做出了双重贡献。它不仅揭示了当前政策制定者的态度和采用模式，还提供了一个可复制的框架，用于快速原型化那些重视透明度、伦理使用和基于证据决策的人工智能工具。随着政府越来越多地依赖人工智能来应对复杂的政策环境，这项研究强调了开发既技术先进又能满足政策制定过程独特需求的解决方案的重要性。

方法
本研究采用了混合方法设计，结合了对州立法者的现场访谈以及结构化原型开发过程来创建Results First AI Assistant。方法分为三个部分：（1）对45名州立法者进行全国性调查，以探讨当前的人工智能使用情况、感知到的好处、障碍和态度；（2）详细描述指导人工智能工具开发的AIRE协议框架；（3）一个案例研究，展示了如何应用该协议来创建与Results First Clearinghouse接口的人工智能助手。通过将调查数据与应用开发过程相结合，该方法部分全面概述了以用户为中心的设计和基于证据的实践是如何指导研究和工具创建的。

立法者人工智能采用调查
研究设计与参与者
本研究采用了混合方法，主要数据收集是通过与美国各州的立法者进行的现场访谈。共有45名立法者参与了调查，提供了关于他们在政策制定过程中使用人工智能（AI）的经验和看法的定性和定量见解。样本具有多样性，代表了广泛的地理区域、政治隶属关系、立法经验年限和委员会职责，以确保对不同情境下人工智能采用的全面理解。参与者是通过直接联系30个州的立法办公室招募的。努力包括具有不同AI熟悉度和经验的立法者，以捕捉各种观点。最初通过个性化电子邮件邀请联系立法者，说明研究目的并请求参与。后续通过面对面或电话联系立法工作人员来安排时间并确认兴趣，最终响应率为68%。

调查工具：调查工具描述
调查工具改编自之前验证过的研究，这些研究考察了立法者在政策制定背景下对信息的需求和研究成果的使用（Crowley等人，2021年；Long等人，2022年）。这些基础工具最初是与州立法者、立法工作人员和中介合作开发的，确保了其与政策制定环境的紧密相关性。对于当前的研究，条目经过修订，以反映治理中人工智能使用的新兴趋势，同时保留了与证据参与相关的核心结构。调查采用了结构化访谈格式，由受过培训的访谈者引导参与者完成封闭式和开放式问题。调查工具是通过与政策专家、AI开发者和预防科学研究人员的协商迭代过程开发的，以确保内容的有效性和相关性。本研究的主要关注点是当前在更大范围的信息收集和立法研究活动中人工智能的使用情况。在全面部署之前，该调查首先在一小群立法者中进行了试点测试，以完善问题表述并提高清晰度。

数据收集与分析
数据收集发生在2024年8月至2025年7月期间，每次访谈大约持续15-30分钟。访谈通过视频平台进行，以适应来自不同州的立法者的时间安排。在参与者同意的情况下，所有访谈都被录音并专业转录，以确保准确性并便于分析。分析采用了收敛式混合方法设计，整合了定量和定性数据，以更好地了解州立法者中人工智能的采用情况。封闭式问题的定量数据使用描述性统计进行分析，以识别人工智能使用的趋势、感知到的好处和风险以及采用障碍。调查协议已获得宾夕法尼亚州立大学机构审查委员会（IRB Protocol #00021641）的审查和批准。所有参与活动都遵守禁止游说或倡导的法律和伦理准则。

AIRE协议的阶段
为了指导Results First AI Assistant的开发，我们应用了AIRE协议（Artificial Intelligence for Research Evidence），这是一个结构化、有人参与的框架，旨在确保用于证据转换的人工智能工具基于经过验证的数据来源、与政策相关的设计和迭代改进。AIRE协议分五个顺序阶段实施——需求评估、共同设计、原型制作、测试和部署——每个阶段都针对基于Results First clearinghouse内容为政策制定者构建对话式接口的目标进行定制。在早期阶段，我们与13位现任或前任政府官员以及专业政策协会的工作人员进行了结构化咨询，以确定关键用例、查询类型和决策支持需求。人工智能助手使用OpenAI的GPT架构构建，并根据结构化的Results First数据（如项目摘要、成本效益指标和元分析评级）进行了微调，以确保事实依据和相关性。内部和外部测试人员对早期版本提供了结构化反馈，指导了可用性、证据呈现和与政策工作流程的对齐方面的改进。软发布进一步促进了用户参与、入职和反馈收集。这些阶段及其相关设计原则的完整文档见附录A，其中包括迭代过程的可视化示意图。AIRE协议的五个阶段定义如下：

需求评估与背景调查：与政策制定者的初步访谈和调查确定了信息缺口，并明确了人工智能工具如何支持实际决策。这一阶段确保开发基于对用户优先事项、背景和挑战的清晰理解。
共同设计与构思：与政策制定者、分析师和技术开发者的参与式互动促进了所需特性和功能的头脑风暴。共同设计活动侧重于将用户需求转化为可操作的设计元素，强调可用性、清晰度和可访问性。
快速原型制作与开发：敏捷开发周期产生了人工智能工具的迭代原型。每个版本都结合了直接的用户反馈，以改进界面设计、搜索能力和证据呈现。该助手被开发为能够对Results First Clearinghouse进行对话式查询，以获取特定项目的信息。
生活实验室测试：功能原型在真实的立法环境中部署。政策制定者在活跃的决策过程中与工具互动，提供关于可用性、相关性和信任的结构化定性和定量反馈。
部署与持续改进：根据测试结果，人工智能工具得到了改进，以便更广泛的部署。持续的反馈机制和定期更新支持与不断变化的立法优先事项和最新证据的持续对齐。

AIRE协议的应用案例研究
Results First Clearinghouse是由The Pew Charitable Trusts开发的，它汇总了多个领域的项目评估结果，为政策制定者提供了关于各种干预措施有效性的证据。虽然该信息库是一个宝贵的资源，但其复杂性以及对不熟悉它的人来说所需的时间可能会妨碍及时决策，使其成为人工智能辅助解决方案的理想应用场景。选择Results First Clearinghouse作为本案例研究的原因在于它是州和地方政策制定者可用的最全面的证据存储库之一。它综合了来自九个独立信息库的项目评估，提供了对关键政策领域（如刑事司法、教育、行为健康和儿童福利）干预措施的严格评估。该信息库使用标准化评级系统，为用户提供关于项目有效性的信息，并在可能的情况下提供成本效益分析。之前的研究指出，信息库存在一些局限性，包括：（1）复杂的导航：政策制定者经常发现很难快速找到特定项目的信息，特别是在时间敏感的立法会议期间；（2）信息过载：尽管数据量大，但来自不同来源信息库的评级标准不同，造成了混淆；（3）有限的定制性：用户希望获得与其所在州的背景、预算限制和政策优先事项相关的定制信息。这些挑战为应用AIRE协议开发一个简化信息库访问、以用户友好格式呈现信息并提供定制建议的人工智能助手提供了有力的理由。信息库的结构化和验证数据使其成为构建一个优先考虑准确性、透明度和相关性的人工智能工具的理想基础。Results First AI Assistant的开发遵循了AIRE协议的五个阶段，确保了以用户为中心和基于证据的方法：通过利用Results First Clearinghouse的结构化数据，AIRE协议最终帮助创建了一个不仅提高了信息可访问性，还支持高风险政策领域中基于证据决策的人工智能工具。

人工智能工具用户行为评估
在人工智能工具公开发布后，我们收集了关于工具使用的匿名用户数据（例如，请求和响应）。我们首先采用归纳主题分析来开发编码框架。最初，两名研究人员独立审查了人工智能助手讨论日志的样本，以识别重复出现的主题和互动模式。这些开放编码的初始主题随后被讨论和比较，合并了相似的想法并消除了冗余。通过迭代改进，这个过程产生了一个具有清晰类别和子类别的结构化编码方案，代表了数据中存在的所有主要主题。最终代码手册包括三个总体类别，每个类别下有多个子主题。这包括了涵盖用户查询主题的政策和项目领域，例如特定政策领域或干预主题（例如，物质使用预防项目和其他公共卫生或教育倡议）。我们还编码了用户互动趋势，捕捉用户与助手的互动方式，包括查询表述和跟进的模式（例如，用户重新表述问题或缩小请求范围的查询细化行为）。最后，我们评估了基于证据的查询模式，反映了用户寻求经过验证或高质量信息的程度（例如，对高评分项目的明确请求和其他寻找基于证据答案的迹象）。所有用户查询和相关助手响应都使用这个框架进行了系统编码。每个互动都被标记为一个或多个相关子类别代码下的适当主类别。然后我们计算了每个代码的频率计数，以量化普遍的主题，并对编码段落进行了定性分析，以提取说明性示例和见解。这种定量-定性相结合的方法使我们能够清晰地解释日志中反映的用户需求和行为。

结果
本研究的结果分为两部分呈现。首先，我们报告了对45名美国州立法者的全国性调查的发现，考察了他们在政策制定中使用人工智能的情况、感知到的好处和风险以及影响采用的因素。这些发现提供了对当前政策制定者中使用人工智能的现状的见解，并突出了他们对新兴技术的复杂态度。其次，我们展示了在开发Results First AI Assistant过程中应用AIRE协议的情况，这是一个旨在增强政策制定者访问Results First Clearinghouse中基于证据的信息的人工智能驱动工具。这一部分详细介绍了协议如何指导工具的开发，从初始需求评估到原型制作、测试和部署。这些结果共同说明了立法者在利用人工智能时面临的现有挑战，以及专用人工智能工具在改进预防政策中基于证据的决策方面的潜力。

样本人口统计
最终样本包括目前在美国各地服务的州立法者。在参与者中，59%为男性。在政治隶属关系方面，43%为民主党人，37%为共和党人，20%为独立人士。大约三分之一（34%）在州参议院任职，其余的在州众议院任职。立法者的平均任职经验为4.74年（标准差=3.77年），范围从第一年的立法者到有最多13年服务经验的立法者。参与者的平均年龄为51.11岁（标准差=12.40岁），年龄范围从34岁到68岁。

立法者人工智能采用调查的发现
在采访的45名州立法者中，调查显示了不同水平的人工智能采用情况。当被问及在立法工作中使用人工智能（AI）工具的情况时，8位立法者（21%）公开承认在某种程度上使用了AI，21位立法者（47%）表示没有使用AI，16位立法者（35%）选择不披露他们的AI使用情况（见图1）。这些发现表明，有相当比例的立法者要么在使用AI，要么对讨论其使用持犹豫态度，这反映了在政策制定中采用技术的复杂态度。其中，有35%的立法者选择不讨论他们的AI使用情况，这一点值得注意。这种犹豫可能反映了他们对AI在公共服务中应用的潜在影响、对公众看法的担忧，或是受到关于技术使用规定的机构准则的约束。这些结果突显了AI在立法环境中的日益重要性，以及需要明确的指导和支持负责任采用的可靠工具。

图1：该图像的替代文本可能是使用AI生成的。

**结果**

**结果优先信息中心AI助手架构**

**AIRE协议：为结果优先信息中心开发AI助手**

**第一阶段：需求评估**

AIRE协议的初始阶段侧重于了解政策制定者的信息需求和决策背景。通过与13位政策制定者（包括州立法者和政策顾问）的交流，发现他们在获取关于预防项目的及时、基于证据的信息方面面临关键挑战。参与者指出，虽然像结果优先信息中心这样的资源库提供了宝贵的信息，但在立法日程的压力下，导航这些数据库可能会非常耗时。立法者表示需要能够快速提供项目特定信息、实施细节和证据评级的工具。他们强调了用户友好界面的重要性，以便非技术用户能够高效地获取可操作的数据。对于信息过载和信息来源可信度的担忧进一步强调了确保AI生成的结果透明且基于验证证据的重要性。

**第二阶段：共同设计**

在需求评估的基础上，共同设计阶段涉及与政策制定者以及来自全国州立法会议（NCSL）和州政府委员会（CSG）等专业组织的代表的直接合作。这些会议的重点是将用户需求转化为AI助手的实际设计功能。政策制定者优先考虑的功能包括：(a) 快速搜索特定项目信息；(b) 概述证据质量和项目效果；(c) 根据立法优先事项定制相关证据和项目选项的呈现方式。这些功能被视为通过改善在时间限制下的证据获取来支持而非取代立法者的判断。参与者强调了关于AI工具如何获取和处理信息的透明性的重要性。需要一种可以轻松集成到现有立法工作流程中的工具——而无需进行广泛的技术培训——是一个贯穿始终的主题。这些会议的反馈为初始原型的开发提供了依据。

**第三阶段：快速原型制作过程**

AI助手的原型是采用敏捷、迭代的方法开发的。该工具被设计为可以直接与结果优先信息中心数据库接口，允许用户输入与项目相关的查询，并接收简洁的、基于证据的摘要。为了验证原型的可用性和相关性，它被分享给了来自州和联邦层面的七位政府官员，包括行政和立法部门的代表。用户测试环节包括对工具功能的引导式浏览，随后是结构化的访谈，以收集关于功能、清晰度和整体用户体验的反馈。用户反馈强调了简化技术术语、提高响应时间以及增强数据视觉呈现的重要性。立法者赞赏透明度功能，但要求更清楚地解释AI模型是如何权衡不同证据来源的。这些反馈为工具的后续迭代提供了依据，每个版本都经过了内部测试，以改进可用性和信息传递效果。

**第四阶段：实地实验室测试**

在对原型进行改进后，AI助手被向更广泛的立法者和立法工作人员进行了初步测试。这种实地实验室方法允许用户在实际决策场景中使用该工具，提供了关于其有效性和局限性的实际见解。实地实验室阶段的反馈非常积极，用户表示该工具大大提高了他们快速获取相关项目数据的能力。政策制定者报告说，与传统研究方法相比，该工具节省了时间，并促进了在立法会议中更明智的讨论。确定的进一步改进领域包括扩展数据库以包含更多的干预领域，以及增强工具处理复杂多方面查询的能力。这一阶段的用户反馈被整合到了AI助手的最终版本中。

**第五阶段：试点部署和公开发布**

2024年10月，AI助手的最终版本正式向公众发布。在发布之前，又进行了一轮用户测试，解决了最后的可用性问题，确保了工具为更广泛的部署做好了准备。虽然立法者、立法工作人员和公众用户长期以来一直可以通过传统的搜索和下载界面访问结果优先信息中心，但现在他们可以通过一个由AI驱动的界面来获取关于各种预防项目的经过验证的、基于证据的信息。AI助手现在提供了一种对话式的证据获取方式。早期采用指标显示，在多个州中该工具的使用保持稳定，初步反馈表明该工具被用于预算讨论、项目评估和政策制定过程中。用户称赞该工具易于使用、响应迅速，并且能够清晰地呈现复杂数据。AI助手现已整合到NCSL和CSG等专业组织提供的更广泛的政策资源生态系统中，进一步提高了其可访问性。目前正在进行后续评估，以评估其对政策决策的长期影响，并探索扩展工具功能的机会。

**结果优先信息中心AI工具用户行为主题**

我们在表1中识别了AI工具在组织政策和项目领域中的使用模式和主题、用户参与趋势，以及围绕证据搜索和使用的探究模式。

**表1 结果优先信息中心AI助手**

**政策和项目领域**

用户的查询涵盖了广泛的政策和项目领域，某些主题尤为突出。物质使用预防是最常见的关注点，占据了查询的最大份额（例如，请求关于药物滥用预防项目的信息）。心理健康是下一个最常见的领域，包括关于焦虑治疗和其他行为健康干预的查询。与教育相关的问题（经常涉及教育技术伦理）也占据了重要位置——例如，用户询问了关于高等教育中AI治理的项目。其他政策领域出现的频率较低，包括犯罪与司法（例如，青少年再犯问题、人口贩卖项目）和公共卫生/经济问题（例如，增加健康保险覆盖率的策略、社区经济发展）。每个主要类别都通过上述典型的查询来说明，反映了这些主题之间的兴趣分布。

**用户参与趋势**

对交互日志的分析揭示了明显的用户参与模式。查询细化很常见：当初始结果过于宽泛或不完全匹配时，许多用户会重新表述或缩小他们的搜索范围。例如，一位用户逐步明确了他们的关于AI和数据隐私的查询——首先是总体上的，然后集中在教育上，再具体到高等教育。超过一半的会话中都出现了这种逐步细化的情况。重复搜索也很常见，一些用户在单次会话中进行了多次相关查询（通常是在探索一个主题的不同方面）。在大约三分之一的情况下，用户表现出深度参与，提出后续问题以深入了解结果细节。例如，在收到项目列表后，用户会要求提供更多关于特定项目的信息（“告诉我更多关于#3……”）或请求输出（例如，请求下载列表）。相反，有一小部分会话是一次性的互动，用户提出一个问题后就没有继续交流，这表明在得到初步答案后可能失去了兴趣。

**基于证据的调查模式**

用户表现出对基于证据的信息的强烈偏好。大多数查询明确要求高质量、经过验证的项目——例如，请求某个领域“评级较高的”干预措施，或在请求中具体使用“基于证据的项目”这一术语。大约三分之二的查询包含了这种基于证据的语言，表明用户希望找到有可靠结果或科学依据的项目。此外，一些用户进行了广泛的调查，以了解特定问题的证据基础，例如询问某个问题的项目数量或整体证据的质量。例如，用户查询了可用于某些治疗的随机对照试验（RCTs）的数量及其证据的质量。这些模式表明，用户不仅仅是在寻找任何信息，而是特别希望识别出有强大证据支持的干预措施，并获得广泛的证据概览以做出明智的决策。

**讨论**

这项研究提供了关于美国州立法者采用人工智能的新见解，并展示了AIRE协议在开发基于证据的AI助手方面的实际应用。调查结果表明，虽然只有少数立法者（21%）公开使用AI工具，但相当大比例（35%）选择不披露他们的使用情况，这表明他们在政策制定中对AI的采用持复杂态度。不愿讨论AI使用的态度可能源于对公众看法的担忧、机构政策，或对技术影响的不确定性。值得注意的是，不愿承认使用AI的立法者群体凸显了需要符合立法规范和伦理标准的透明、可靠的工具。研究结果还显示，效率是使用AI者的主要动机，立法者将节省时间和改善信息获取作为主要好处。然而，AI用户也表达了对于数据隐私、算法透明度和潜在偏见的担忧。总体而言，我们的数据并不表明立法者希望将政策决策责任交给AI系统。相反，在我们的数据收集过程中，参与者将AI描述为一种补充性研究辅助工具，其输出需要人类的判断和责任。这些发现与关于公共政策中技术采用的更广泛文献一致，这些文献强调了利用创新工具与维护公众信任和责任之间的紧张关系。

**经验教训**

AIRE协议在开发结果优先AI助手方面的成功应用表明，以用户为中心、基于证据的AI工具可以满足政策制定者的需求，同时减轻与通用商业AI解决方案相关的担忧。通过在开发过程中让政策制定者参与，AIRE指导的方法确保了工具的实用性、透明性，并与立法工作流程保持一致。早期采用和积极的用户反馈表明，这样的专业工具可以改善经过验证的科学证据在政策制定过程中的整合。主题分析显示，用户一致倾向于基于证据的项目和具有高证据评级的干预措施。这种对经过验证的高质量来源的偏好表明，使用AI工具的政策制定者期望得到基于可信研究的建议。此外，用户参与趋势（如频繁的查询细化和重复搜索）表明用户经常需要多次尝试才能找到相关信息。这种模式表明AI工具有机会提高响应速度和个性化，使用户能够更高效地获取所需证据。

这些发现指出了几个改进AI系统以支持政策制定的设计方向。首先，AI工具应更好地适应迭代搜索行为，允许用户无缝细化查询（例如，通过交互式过滤器或后续提示）。增强过滤机制（按主题、目标人群或证据强度）和对证据评级的清晰解释将帮助用户快速缩小可信选项的范围。确保结果生成的透明度——例如，说明为什么推荐某个项目——可以进一步建立用户信任。整合反馈循环也是关键：AI系统可以从常见的查询细化中学习，并随着时间的推移不断优化搜索结果，以符合用户需求。

**对预防政策的启示**

将AI整合到政策制定中对预防政策的发展和实施具有重大意义。预防科学依赖于及时使用高质量的证据来决定资助、扩大规模或停止哪些干预措施。然而，政策制定者在获取和解释这些证据时经常面临障碍。“结果优先”AI助手（Results First AI Assistant）基于AIRE协议开发，通过为立法者提供直接且用户友好的方式来访问经过验证的项目评估和成本效益分析，从而应对这一挑战。通过简化获取基于证据的信息的过程，该AI助手有望帮助选择更有效的干预措施，最终改善儿童、家庭和社区的生活质量。例如，负责预算决策的立法者现在可以更容易地比较各种预防措施的有效性，从而做出更加明智的公共资源分配决策。在立法会议时间较短且决策周期紧张的情况下，这一能力尤为重要。

AI助手的开发也突显了研究人员、技术开发商和政策制定者之间合作的重要性。这种合作对于创建既符合技术标准又能适应政策制定实际需求的工具至关重要。

### 伦理与实际考量
在政策制定中运用AI会引发若干伦理和实际问题，必须加以解决以确保其负责任地使用。一个主要问题是算法偏见的可能性，如果用于训练AI模型的数据反映了现有的不平等现象，就可能产生偏见。为降低这一风险，AIRE协议强调使用经过验证的高质量数据源（如“结果优先”信息中心），并包含与不同用户群体的迭代测试以识别和纠正潜在偏见。透明度也是一个关键考量因素——政策制定者需要了解AI生成的建议是如何产生的，尤其是在这些工具会对公共卫生和经济产生重大影响时。本研究开发的AI助手包含了一些增强透明度的功能，比如对数据来源、项目评估方法以及建议置信度评分背后的理由的说明。此外，该助手仅从外部存储库中返回相关文档和数据，从而减少了返回错误、无关或虚假信息的可能性。进一步的设计可以包括利用AIRE协议所使用的语言模型实现思维链和信息来源的透明化，这些功能对于建立信任和鼓励负责任的使用至关重要。

在开发和测试阶段，数据隐私与安全也成为重要议题。立法者强调需要强有力的保护措施来保护敏感信息，尤其是在使用AI工具分析专有或机密数据时。该AI助手采用了严格的数据隐私协议，确保符合相关法规和网络安全最佳实践。实际考量方面，如易用性和与现有工作流程的集成同样重要。政策制定者通常在时间紧张的高压环境下工作，因此AI工具需要具备直观性且培训需求低。AIRE协议中嵌入的用户中心设计满足了这一需求，使得界面对立法者来说既易于访问又简单直观。

与通用的人工智能开发和实施框架相比，AIRE协议的一个显著优势在于它明确将最终用户（即政策制定者）视为AI助手的共同设计者和验证者。与一般的AI生命周期模型或知识转化模型不同，AIRE在每个阶段都融入了特定于政策的视角，确保技术开发始终与现实世界的限制、语言使用及公共官员面临的信任问题保持一致。值得注意的是，用户报告称在立法过程的核心环节（如起草法案要点、准备拨款听证会以及预算谈判中比较投资方案）中使用了“结果优先”AI助手。这种与政策工作流程的紧密整合表明，在AIRE框架下开发的AI工具可以作为核心决策活动中的嵌入式、即时支持工具，从而提高基于证据的预防策略的采纳率和实用性。

### 未来发展方向
未来对“结果优先”AI助手的改进将结合教育、刑事司法和公共卫生领域的专家进行，以确保技术准确性和情境相关性。AIRE协议明确包含了与政策利益相关者和领域专家的共同设计环节，以指导迭代开发过程。

### 局限性
尽管本研究为了解AI在州立法者中的应用情况提供了宝贵见解，并展示了AIRE协议的实用性，但仍存在一些局限性需要考虑。首先，45名立法者的样本规模虽然具有多样性，但限制了研究结果的普遍性。尽管参与者来自不同州、具有不同的政治立场和经验水平，但结果可能无法全面反映所有美国州立法机构的观点。未来的研究应扩大样本规模并提高代表性，以验证和扩展这些发现。其次，依赖自我报告的数据可能导致响应偏差——立法者可能出于对公众看法的顾虑、机构指导原则或对技术不熟悉等原因而低估或高估了自己使用AI的情况。相当比例的受访者选择不披露其AI使用情况，这突显了这一挑战。第三，尽管“结果优先”AI助手的开发与部署基于用户反馈，但研究主要集中在工具的初期推出和短期采用情况上，需要长期评估其持续使用情况、对政策决策的影响以及可能带来的意外后果。最后，该助手设计为仅与特定的证据库（“结果优先”信息中心）交互，虽然这确保了使用的是经过验证的数据，但可能限制了其在其他未覆盖领域的适用性。未来的迭代版本应探索扩展数据来源的方法，同时保持严格的证据验证标准。

基于“结果优先”AI助手的初步成功应用，建议采取以下未来发展方向：首先，扩展工具的功能以涵盖更多数据源和干预领域，从而提高其对政策制定者的实用性（例如整合教育、刑事司法和公共卫生相关的数据库）。其次，需要进行长期评估，以评估该助手对政策决策过程和结果的影响。未来的研究应探讨该工具是否能促进基于证据的干预措施的采用、资源分配的优化以及对目标人群的实际益处。此类评估将为工具的有效性提供关键证据，并为持续改进提供依据。第三，进一步探讨AI在政策制定中的伦理影响是必要的。虽然AIRE协议已经解决了透明度和偏见等关键问题，但继续与伦理学家、社区利益相关者和政策制定者保持沟通对于应对新出现的挑战至关重要。算法问责制、AI工具使用的公平性以及过度依赖自动化建议等问题应成为未来发展的重点。第四，努力将该工具的应用范围从州立法者扩展到联邦立法者、地方政府和国际政策机构，以扩大其影响范围。与州立法会议（National Conference of State Legislatures）和州政府理事会（Council of State Governments）等组织的合作证明了合作伙伴关系在推动工具传播和采用方面的价值。最后，随着AI技术的不断发展，必须持续改进该工具，以确保其始终符合预防科学和AI开发的最佳实践。定期更新其证据库、用户界面和算法组件对于其在动态政策制定环境中的相关性和有效性至关重要。

热点排行