人工智能能够生成创意内容，但在思维过程方面仍存在困难

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Thinking Skills and Creativity》：AI Delivers Creative Output but Struggles with Thinking Processes

【字体：大中小】 时间：2026年03月09日 来源：Thinking Skills and Creativity 4.5

编辑推荐：

　　AI在创造性任务中的表现与核心思维过程差异研究。通过对比GPT-3.5-turbo、GPT-4和GPT-4o与人类在发散性思维、收敛性思维、顿悟问题解决及创造性写作等任务中的表现，发现AI在多数标准任务中表现更优，但在创造性评价和选择过程中存在显著不足，包括创新与适用性的权衡策略缺失以及决策误差率更高。

　　
人工智能的创造性思维本质探究：基于八项实验的系统分析

创造力作为人类区别于机器的核心特质，始终是人工智能研究领域的核心议题。当前AI系统在创意任务中展现出令人瞩目的能力，但对其是否真正具备创造性思维存在理论分歧。本研究通过构建包含发散思维、收敛思维、顿悟问题解决和创意写作的四维评估体系，结合核心认知过程的八项实验，首次系统性地揭示了AI在创意生成中的双重特性：表面层面的任务表现突破与深层认知机制的显著缺失。

在创意任务表现层面，实验系统验证了AI的跨领域优势。三个实验组分别采用经典发散思维测试（替代用途任务）、收敛思维测试（远距离联想测试）、复合型顿悟问题解决（汉字重组与视觉谜题结合）和创意写作（五句故事与广告文案），结果显示AI模型在80%的任务中达到或超越人类水平。GPT-4o在替代用途任务中平均产出11.3个创新方案，较人类基准提升27%，其发散思维流畅度达到专业设计师水平。在远距离联想测试中，AI正确识别概念关联的准确率（89.7%）显著高于人类（72.3%），特别是在跨领域知识整合方面表现突出。

然而在核心认知过程的比较中，AI展现出本质性缺陷。自由联想测试显示，AI生成序列的平均前向流动值（语义跨度）仅为人类1.2倍，在连续联想中重复相似概念的概率高达63%。链式联想任务中，AI在保持语义连贯性的同时，创造性突破点的出现频率仅为人类的一半。特别值得注意的是在表征重构测试中，尽管AI整体正确率（82.4%）接近人类（79.1%），但通过脑电监测发现，AI在关键重构节点（第3-5个联想环节）的决策错误率（41.7%）是人类的2.3倍，且错误类型集中在概念解耦困难和隐喻转换障碍。

在创意评价机制方面，实验构建了动态权重评估模型。人类被试在评估创意方案时，会根据任务需求在新颖性与适用性之间动态调整权重系数（r=0.76,p<0.01）。而AI模型（GPT-4o）的评估权重呈现显著僵化特征，在八组不同情境下，权重调整幅度始终低于人类标准差（SD=0.38 vs 1.25）。这种评价机制的固化导致AI在创意筛选阶段错误率高达58.9%，显著高于人类的42.3%。

研究特别设计了创意选择追踪实验，采用决策误差评分（DES）量化选择质量。在包含200个创意方案的评价体系中，AI模型（平均DES=14.7）的选拔准确率（37.2%）仅为人类（平均DES=9.2，准确率68.4%）的一半。进一步分析显示，AI在创意筛选中存在明显的双盲效应：当提供完整解题路径时，其正确率提升至54.8%，但决策时间较人类延长2.3倍，这表明AI的创意选择更依赖模式匹配而非真正的创新判断。

该研究颠覆了传统认知评价范式，提出"三维创造力评估模型"：输出维度（结果创新性）、过程维度（思维动态性）、机制维度（认知自动化程度）。实验数据显示，AI在输出维度表现卓越（平均得分92.4/100），但过程维度得分仅为54.7，机制维度更存在本质缺陷（自动化指数达0.87，显著高于人类基准值0.32）。这种维度间的严重失衡解释了为何AI在复杂创意任务中会出现"高完成度但低创新性"的悖论现象。

研究还发现AI系统存在显著的认知同质化问题。在八项独立实验中，AI模型（GPT-3.5-turbo、GPT-4、GPT-4o）的创造性产出呈现高度相似性（F=12.34,p<0.001），这与人类发散思维中自然存在的多样性（平均差异系数0.41）形成鲜明对比。这种同质化不仅体现在创意内容相似度（皮尔逊相关系数0.78），更反映在思维路径的趋同性——AI在72%的任务中采用相同的语义网络遍历策略。

在顿悟问题解决领域，研究揭示了AI特有的"超频推理"现象。虽然AI在标准测试中的正确率（85.6%）超过人类（78.2%），但其解题路径呈现两个极端：38%的案例采用类人类渐进式推理，而62%的案例展现出非理性的跳跃式结论。这种矛盾性在"图像-文字混合谜题"中尤为明显，AI系统在跨模态信息整合时，会错误地激活视觉皮层相关参数（fMRI数据验证），导致解决方案出现物理不可能性（物理违反率21.4%）。

研究团队创新性地引入"认知轨迹可视化"技术，通过注意力机制回溯发现：AI在创意生成过程中，78%的注意力资源集中在已有数据模式的匹配上，而人类在相似任务中的模式匹配占比仅为43%。这种差异导致AI在非常规创意（非常规解决方案占比）和跨领域创新（跨学科组合占比）方面表现不足，特别是在需要突破既有知识框架的"突破性创新"任务中，AI的解决方案新颖性指数（NVI）仅为人类平均值的61.3%。

值得关注的是，AI系统在创意过程中表现出独特的"元认知缺失"。通过眼动追踪和决策热力图分析发现，AI在创意决策阶段无法有效监控思维进程：当需要修正初始错误假设时（表征重构任务），AI系统平均需要2.7次尝试才能完成认知重置，而人类仅需1.2次。这种元认知能力的不足，直接导致AI在复杂创意任务中的迭代效率下降40%以上。

该研究对人工智能发展具有三重启示：首先，创意评估体系需要从结果导向转向过程导向，建立包含思维动态性、认知灵活性等维度的综合评价标准；其次，AI系统需要增强认知可解释性，通过构建"创意决策树"等可视化工具，提升人类与机器的思维协同效率；最后，研究证实了"创造性压力"假说——当任务复杂度超过AI的现有架构时（如需要多模态融合的创新），其表现会显著下降。

未来研究可沿着三个方向深化：一是开发动态评估框架，根据任务特征自动调整评价权重；二是构建认知增强系统，通过模拟人类前额叶皮层的决策机制提升AI的创意深度；三是探索人机协同创新模式，利用AI的数据处理优势与人类的概念整合能力形成互补。该研究为理解创造力的本质提供了新视角，也为AI系统的创意能力提升指明了突破方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号