通过多模态检索增强型生成聊天机器人提升印刷电路板的运行效率:连接文本与视觉文档
《Array》:Enhancing Printed Circuit Boards Operational Efficiency through Multimodal Retrieval-Augmented Generation Chatbots: Bridging Textual and Visual Documentation
【字体:
大
中
小
】
时间:2026年05月10日
来源:Array 4.5
编辑推荐:
摘要
本文提出了一个增强型检索增强生成(RAG)聊天机器人框架,用于高效检索和解释印刷电路板(PCB)制造领域中的复杂技术文档。通过使用特定领域的设备手册,系统地评估了两种RAG架构:LongRAG和GraphRAG。定量结果显示,LongRAG的答案相关性更高,而GraphRA
摘要
本文提出了一个增强型检索增强生成(RAG)聊天机器人框架,用于高效检索和解释印刷电路板(PCB)制造领域中的复杂技术文档。通过使用特定领域的设备手册,系统地评估了两种RAG架构:LongRAG和GraphRAG。定量结果显示,LongRAG的答案相关性更高,而GraphRAG产生的响应更为准确。通过多查询扩展、交叉编码和重新排名策略,性能得到了进一步改进。此外,一个集成文本和视觉信息的多模态聊天机器人通过领域专家的定性评估,显示出 improved user comprehension 和 interaction quality。这些结果突出了在涉及长上下文和多模态文档的工业环境中部署基于RAG的聊天机器人的有效设计策略。
一、引言
在未来几年,泰国投资委员会(BOI)观察到印刷电路板(PCB)制造行业的投资显著增长[1],反映了泰国在全球电子产业中的日益重要的地位。这一增长得益于泰国战略性的地理位置、先进的基础设施和有利的贸易政策。预测表明,至少有36家专门从事PCB和PCBA制造的公司将从台湾和中国迁移到泰国[2]、[3]、[4],主要原因是对包括AI集成电路板在内的先进组件的需求。值得注意的是,2024年,Nvidia[5]、[6]、[7]宣布在泰国投资,旨在将泰国建立为东南亚的技术中心,重点发展AI数据中心和组件制造。这一举措使Nvidia与其他科技公司如亚马逊、Alphabet和微软齐头并进,进一步巩固了泰国的地位。因此,泰国正在成为东盟地区领先的PCB制造中心,目标是五年内跻身全球前五的生产商之列。
为了支持和维持这种加速的工业增长,BOI积极与学术机构和行业利益相关者[8]合作,实施专门的培训和实习计划。像泰国科学技术人才培训计划这样的举措旨在为工程毕业生提供必要的技能[9],从而使教育成果与不断变化的行业劳动力需求保持一致。然而,由于PCB制造过程的复杂性,劳动力的快速发展带来了重大挑战,这些过程传统上依赖于广泛的实际经验和培训。鉴于电镀设备操作的复杂性和在制造环境中有效知识转移的必要性,本研究提出了一种由AI驱动的聊天机器人系统,以协助操作人员管理电镀设备及相关流程。该系统旨在通过提供及时、准确的指导并促进更一致的操作实践,来支持有经验的人员和新培训的员工。
随着工业数字化的进步,大型语言模型(LLM)的进步推动了智能聊天机器人系统的进步,使其能够理解、推理和生成特定领域的知识。为了解决事实准确性和幻觉问题,检索增强生成(RAG)作为一种广泛采用的范式应运而生,它通过将响应基于外部知识来源来增强LLM。最近,基于多模态LLM的聊天机器人已经被开发出来,能够共同处理文本和视觉信息,在技术文档分析和知识密集型应用程序中表现出更好的性能[10]。尽管取得了这些进展,但多模态RAG聊天机器人在工业操作文档中的应用仍然有限。与长上下文推理、结构化知识表示和可靠的多模态关联相关的挑战仍然存在,特别是在制造环境中。受这些差距的启发,本研究在印刷电路板(PCB)操作文档的多模态聊天机器人框架内研究了LongRAG和GraphRAG架构。
为了应对对复杂操作支持系统日益增长的需求,本研究介绍了一种基于高级RAG的聊天机器人。该框架将基于检索的方法与生成式人工智能模型相结合,使用针对电镀设备操作定制的知识库提供准确且上下文相关的响应。尽管多模态RAG聊天机器人最近受到了相当多的关注,但它们的应用主要集中在教育、客户服务等领域。在重工业领域,尤其是PCB制造中的实施仍然有限,查询和响应大多局限于文本形式。本研究通过开发一种专为复杂电镀设备任务优化的基于高级RAG的聊天机器人来填补这一空白。所提出的聊天机器人通过集成多模态RAG技术来管理文本和视觉数据,从而增强了用户互动。这些进步拓宽了功能范围、适应性和性能,并提高了响应质量。
在本研究中,没有采用完全集成的多模态模型,因为数据集包含高度专业化的设备图像和特定于流程的上下文,这在一般的训练语料库中并不常见。视觉内容来源于专有的电镀设备手册,包括独特的组件布局和操作细节,这些内容无法通过通用的多模态嵌入空间(例如基于CLIP的表示)可靠地解释。此外,由于数据集规模的限制以及相对于RAG方法的巨大计算成本,微调多模态模型是不可行的。因此,所提出的方法将文本和视觉检索视为并行但协调的过程,确保准确的基础同时保持实际应用于现实世界的工业环境的可行性。
本研究的主要贡献包括:
1) 对最近的RAG方法进行了系统研究,特别是LongRAG和GraphRAG系统,针对特定领域的设备手册知识库进行性能评估。通过多查询处理、动态检索和重新排名策略改进了RAG系统。
2) 基于改进的多模态RAG框架开发了一个原型AI聊天机器人,整合了先进的方法,确保了准确性、相关性和清晰度。该聊天机器人为技术销售工程师、操作员和从事常规PCB制造操作的专业人员提供精确的指导。
3) 对聊天机器人的性能进行了定性和定量评估,以证明其在管理多模态查询、提高操作效率和适应不同PCB制造场景方面的有效性。实证发现证实了其在优化制造流程方面的实际效用。
二、相关工作
RAG系统有效地整合了检索和生成能力来处理复杂查询;然而,它们经常面临诸如不相关的检索结果、模型幻觉和效率低下等问题,特别是在模糊或特定领域的查询中。为了解决这些限制,已经在五个关键维度[11]、[12]上开发了先进的RAG方法:输入、检索器、生成器、结果和流程。输入改进包括查询转换和数据增强,以提高查询和数据集的质量。检索器改进通过混合方法、递归搜索、块优化和特定领域的微调来提高检索准确性和多样性。生成器改进采用提示工程和解码优化,使输出与检索内容更加一致。结果聚焦的改进通过重写和重新排名来改进输出的一致性和与用户需求的匹配程度。流程改进,如自适应检索和迭代检索-生成周期,优化了检索-生成过程。总体而言,这些发展提高了在不同应用中的有效性、效率和适应性。
高级RAG系统根据其处理文档上下文、底层数据结构和检索速度需求,特别分为三种主要类型——LongRAG、GraphRAG和LightRAG。LongRAG[13]、[14]是一种向量数据库RAG系统,能够有效管理大量文档,解决了“中间丢失”的问题,适用于学术、研究和法律等领域的详细和全面信息检索。GraphRAG[15]、[16]、[17]是一种知识图RAG系统,利用图数据库捕获实体之间的复杂关系,从而在材料科学和医学等特定领域提高了检索准确性。相反,LightRAG[18]通过使用图增强文本索引来优先考虑检索速度和效率,使其适用于动态环境,包括实时客户支持和内容管理系统。
A. 向量数据库RAG系统
这种RAG系统已在实践中得到广泛应用,特别是在聊天机器人中,增强了现实世界环境中的对话记忆和交互能力。基于RAG的聊天机器人系统在多个领域展示了有效性。iRAG[19]系统采用增量工作流高效查询多模态数据集,如视频,同时减少处理时间并保持响应质量。在公共资助中,两阶段RAG聊天机器人[20]帮助用户高效导航复杂投标,具有高检索准确性。对于基于Web的应用程序,整合网页抓取、向量化和语义搜索[21]能够从动态数据源提供上下文相关的响应。临时文件上传通过结合最新和私人数据[22]来减少幻觉,特别是对客户服务应用程序有益。在教育领域,RAG聊天机器人在大学招生等特定领域任务中提高了响应准确性[23],通过将输出与现实世界信息对齐。RAG聊天机器人有效用于电子商务[24],提供准确的客户支持和简化服务流程。比较研究强调它们在动态环境中保持上下文相关性的能力,突出了微调和提示工程的重要性[25]。在学术环境中,RAG驱动的虚拟助手[26]提供及时和信息丰富的响应,提高了用户参与度。在监管合规方面,RAG系统通过混合搜索和相关性提升策略[27]改进了查询处理,支持复杂监管框架的导航。LUFY[28]方法通过选择性忘记不太重要的交互,优先考虑情感上有影响的内容来进一步提高RAG聊天机器人的性能,从而提升长期用户体验。这些多样化的应用突显了RAG聊天机器人在各个领域的广泛实用性。
B. 知识图RAG系统
GraphRAG和LightRAG聊天机器人也在现实世界中找到了成功的应用,利用它们的专门能力来提高交互质量和信息检索。咨询聊天机器人[29]采用知识图(KG)增强的RAG框架,系统地管理心理咨询服务数据,从对话历史和领域知识中生成个性化响应,克服了传统离线咨询的局限性。基于图的记忆架构[30]提高了对话代理回忆先前用户互动的能力,从而减少了处理时间并提高了上下文相关性。LuminiRAG[31]是一种视觉增强的GraphRAG系统,通过维护多模态内容之间的语义关系,提高了文档理解能力,增强了金融文档中的复杂查询管理。同样,TOBUGraph[32]利用基于图的检索有效地捕获和检索个人记忆,通过动态知识图建立上下文,优于传统的RAG方法。LightRAG[18]是一个开源框架,通过图结构化文本索引解决了传统RAG的局限性,通过增量更新和双级索引方法提高了检索准确性和操作效率。此外,像LangGraph[33]这样的高级图增强RAG系统通过合成多样化数据源来提高可靠性和准确性,为企业级应用提供实用的指导。这些例子展示了GraphRAG和LightRAG实现跨不同领域的强大潜力,推进了用户交互和信息管理。
C. 多模态RAG系统
多模态RAG聊天机器人越来越多地应用于现实世界环境,利用多种数据模态——文本、图像和视频——来增强用户交互和信息访问。iRAG[19]系统通过增量方法实现了对大型多模态数据集(如视频)的高效查询,减少了全文转换的计算开销。在机器人技术中,多模态语言模型通过整合文本和视觉输入来增强人机交互[34],改善了各种场景下的任务规划和用户体验。工业应用也从多模态RAG中受益,特别是通过整合文本和图像数据[35],尽管图像检索仍是一个重大挑战。在教育环境中,系统如RamChat[36]利用RAG帮助学生通过自适应语言模型导航机构资源。同样,MuRAR[37]框架通过多模态数据改进了企业聊天机器人的性能,证明了其在客户服务和教育领域的有效性。在体育分析中,SoccerRAG[38]、[39]通过动态查询和验证处理复杂查询,从而增强了用户互动。将多模态RAG应用于产品数据表分析进一步展示了其相对于单模态(仅文本)系统的优势[40]。最近的研究引入了更适应性的框架来处理多模态输入。自适应多模态RAG(SAM-RAG)[41]框架通过动态检索和验证在涉及文本和图像数据的任务中提高了性能,尽管在支持视频输入方面存在局限性。VisRAG[42]采用视觉语言模型,在多模态文档上的性能比传统RAG系统提高了25-39%,证明了结合视觉信息的有效性。TIVA-KG[43]引入了一个综合的多模态知识图,整合了文本、图像、视频和音频数据。通过三元组基础,TIVA-KG增强了多模态关系的表示,支持计算机视觉和自然语言处理中的各种任务。表1展示了选定的RAG框架及其配置的概览。以下是所选RAG框架及其配置的概述:
| 年份 | RAG类型 | 查询/响应模式 | 数据集模式 | 增强技术 | 应用目的 |
|--------|----------|-------------|------------|------------|
| [13] | 2024 | 向量文本/文本 | 长上下文块、混合检索器、思维链(CoT)引导的过滤器 | 长上下文问答 |
| [19] | 2024 | 向量视频和文本 | 视频;索引大型视频库、查询感知检索和增量提取-响应生成 | 监控与安全 |
| [24] | 2024 | 向量文本/文本 | BM25和密集段落检索(DPR) | 电子商务、实时客户服务 |
| [25] | 2024 | 向量文本/文本 | 微调LLM和提示工程 | 提高所有聊天机器人的性能质量 |
| [27] | 2024 | 向量文本/文本 | 向量相似性搜索和传统的全文搜索(混合搜索)、基于TF-IDF的BM25 | 提高行业中的合规性和查询处理 |
| [28] | 2024 | 向量文本/文本 | 选择性记忆保留和心理指标,仅检索最具有情感意义的对话时刻 | 改进聊天机器人的长期记忆 |
| [29] | 2024 | KB文本/文本 | 将查询转换为三元组,从知识图谱中检索数据并生成咨询响应 | 实时、个性化的在线心理咨询服务 |
| [31] | 2024 | KB文本/文本 | 文本和视觉形式 | 结合向量相似性搜索和图遍历操作 | 通过更智能的数据提取理解财务文档 |
| [32] | 2025 | KB文本/文本 | 图像、视频和音频,以及文本输入 | 结合向量相似性搜索和图遍历操作及分块策略 | 会话式捕捉和检索个人记忆 |
| [35] | 2024 | 向量文本/文本 | 文本和图像 | 通过多模态嵌入(例如,通过CLIP)或将图像转换为文本摘要 | 支持工业任务,如设备设置、故障排除和操作 |
| [37] | 2024 | 向量文本/文本、图像、表格、视频 | 文本、图像、表格和视频 | 微调的文本嵌入模型和相似性向量搜索 | 提高客户服务的答案质量 |
| [38] | 2024 | 向量文本/文本 | 视频、音频转录、图像帧和注释 | 构建成结构化数据库 | 处理输入错误(Levenshtein距离)、SQL代理;足球数据的问答 |
| [41] | 2024 | 向量文本和图像/文本 | 文本、图像和表格 | 基于输入查询动态选择文档、交叉编码、思维链 | 多模态检索提高答案质量 |
| [42] | 2025 | 向量文本/文本 | 文本、图像和表格 | 将文档页面嵌入为图像,使用VLM和混合嵌入进行跨页面推理 | 多模态检索提高答案质量 |
| [43] | 2023 | KB文本/文本、图像、视频和音频 | 文本、图像、视频和音频 | 用多模态数据关联实体(三元组)以提高上下文理解 | 多模态检索提高答案质量 |
尽管RAG在跨学科领域展示了有前途的应用,但大多数实现都局限于基于文本的输入和输出,对能够处理和响应图像和视频等 diverse 数据类型的 多模态聊天机器人的探索有限。此外,还没有关于RAG在PCB制造特定背景下的应用记录。本研究通过开发一个多模态RAG聊天机器人来解决这一空白,该机器人结合了先进技术,包括多查询构建、动态检索、查询与检索文档之间的交叉编码以及重新排序策略,以处理文本和视觉输入。该系统旨在减少幻觉,并为电解铜镀层阶段使用的复杂镀板设备的操作提供交互式、上下文感知的指导。
**III. 方法论**
本研究调查了在Langchain框架内开发和评估RAG聊天机器人的过程。RAG系统和聊天机器人使用Python(3.11.11)和以下特定库版本实现:python-dotenv(1.0.1)、langchain(0.3.19)、langchain-openai(0.3.7)、langchai-chroma(0.2.2)、neo4j(5.28.1)、neo4j-graphrag(1.4.3)、langchain-neo4j(0.3.0)、langchain-community(0.3.17)、langchain-experimental(0.3.4)、langchain-core(0.3.39)、google-generativeai(0.2.0)、langchain-google-vertexai(2.0.13)、vertexai(1.71.1)、tiktoken(0.8.0)、sentence-transformers(3.4.1)、ragas(0.2.13)、IPython(8.30.0)、Pillow(11.1.0)和Streamlit(1.42.2)。实验方法包括对非结构化数据的预处理、两种不同RAG架构的开发以及评估每种架构使用的LLM。之后进行定量评估,以确定最佳RAG系统进行进一步优化。改进后的RAG系统构成了聊天机器人的基础,随后由专家进行评估。
**D. 通过非结构化API预处理PDF数据**
本研究使用的数据集具有高度领域特异性,仅包含特定镀板设备系统的专有操作手册。这些手册是该设备的技术知识权威来源,不能通过外部或通用数据集补充,否则可能导致错误的操作指导。因此,数据集的大小本质上受设备文档范围的限制,反映了现实的工业部署条件。为了将831页的用户手册集成到RAG系统中,使用了Unstructured API [44]来提取和结构化文本和视觉数据。API的分区功能被用来隔离可选择的文本,同时保持文档的原始布局和阅读顺序。对于基于图像的内容,应用了API平台提供的默认光学字符识别(OCR)技术,以确保准确提取嵌入在图像中的文本信息。表格数据使用API的本机输出格式进行提取和结构化,从而确保一致性和保持关系完整性。为了提高提取数据的质量,实施了文本清洗程序,以解决格式不一致性问题、消除多余的标记并规范文本编码。此步骤对于确保提取内容的清晰度和相关性至关重要,以便后续处理。此外,还进行了去重处理,以消除冗余图像,仅保留227个唯一实例,从而优化存储和处理效率。预处理工作流程还经过改进,以在提取阶段保持文档的固有结构,确保内容的逻辑组织。这些顺序步骤共同产生了一个结构化且精细的数据集,非常适合高效检索,并能无缝集成到RAG系统中,如图1(a)所示。
**图1. (a) 从PDF文件中预处理和清理非结构化数据为文本、图像和表格格式的概述。(b) LongRAG(绿色框)和GraphRAG(橙色框)的管道架构。(c) 不同LLM和检索架构下的RAG系统评估。**
**E. LongRAG和GraphRAG的实现**
本研究的主要目标是使用预处理成结构化文本格式的831页技术手册,比较两种RAG框架——LongRAG和GraphRAG。LongRAG使用长上下文LLM处理整个文档或语义相关的文档簇作为检索单元,从而减少语料库大小并通过将相关内容分组为更大的段(例如4,000个标记)来提高语义连贯性。这种策略通过在这些较大单元内的较小块上进行相似性搜索来平衡准确性和计算效率。相反,GraphRAG结合知识图谱结构来解决复杂查询,通过构建图社区并总结实体及其关系、主题理解和基于关系的检索。这两种框架都使用OpenAI o3-mini和Gemini-2.0-Flash作为底层LLM进行文本生成,以确保评估的一致性。选择OpenAI o3-mini是因为其在科学、技术、工程和数学领域的推理能力以及其对结构化输出的支持,使其适用于技术内容。Gemini-2.0-Flash因其广泛的1M标记上下文窗口和多模态能力而受到青睐,这些能力在长文档分析和主题理解方面表现突出。文本嵌入模型用于向量化:OpenAI o3-mini使用text-embedding-ada-002,Gemini-2.0-Flash使用text-embedding-004,以确保最佳的语义表示和检索性能。
**LongRAG实现:** 如图1(b)绿色框中所示,LongRAG框架被设计用于高效处理大量文本内容。预处理后的文本数据保留了原始布局和阅读顺序,使用具有1,000个标记的分块大小和200个标记的重叠的分割方法进行分割。分块大小和重叠是基于先前的LongRAG研究[13]、[14]选择的,这些研究强调在减轻“中间丢失”效应的同时保持语义连贯的上下文。1,000个标记的分块大小为复杂设备操作提供了足够的程序完整性,而200个标记的重叠保持了相邻部分之间的连续性。较小的分块会导致逻辑上连接的步骤过度碎片化,而较大的分块则会降低检索精度。这种分割策略旨在保持语义连贯性并在预处理阶段最小化上下文损失。分割后的文本单元随后通过应用文本嵌入嵌入到向量数据库(ChromaDB)中,从而实现基于相似性的高效检索。接收到用户查询后,系统根据向量相似性搜索检索最相关的文档片段。然后,这些检索到的片段由OpenAI o3-mini或Gemini-2.0-Flash处理以生成响应。为了确保一致性并便于公平比较,指令性提示经过迭代改进并统一应用于两个LLM,以优化生成文本输出的质量,使其符合技术文档中的要求。
**GraphRAG实现:** 如图1(b)橙色边界内所示,GraphRAG框架通过集成基于图的知识检索机制扩展了传统的RAG范式。具体来说,使用OpenAI的o3-mini或Gemini-2.0-Flash模型从预处理后的文本数据中自动提取实体、关系和节点。这一步确保了相关实体及其相互关系的高精度识别。提取的知识随后被结构化为属性图模式并存储在Neo4j中,这是一个专为管理复杂结构化数据而优化的图数据库。在检索过程中,采用了一种混合方法,结合基于图的查询和基于向量的语义相似性以及全文关键字搜索。这种方法使用Neo4j连接进行图遍历,并结合两种类型的索引:一种用于基于嵌入的语义搜索,另一种用于精确关键字匹配。通过合并来自两个来源的结果,有效利用了知识图谱中的结构化关系和向量嵌入捕获的上下文含义,从而实现更准确和全面的检索信息。检索后,使用LLM(特别是OpenAI的o-3-mini和Gemini-2.0-Flash)生成答案。这些模型通过整合从图中提取的结构化知识与提示中提供的非结构化上下文信息来合成响应。精心设计的提示——具有具体性、上下文相关性和逻辑组织性——使LLM能够提供准确且连贯的答案,而无需额外的模型微调。
**F. RAG系统的定量评估**
使用专为问答(QA)设计的数据集(包含50个问题)系统评估了实现的RAG系统的性能,这些问题源自PCB操作环境中的典型客户查询。该数据集旨在模拟真实世界的用户交互,确保涵盖用户手册的所有十个章节。特别关注了关于线路配置、线路功能、操作和维护的部分,因为这些部分具有内在的复杂性和频繁的用户参考。此外,数据集包括多跳查询,需要跨多个章节检索和合成信息以生成准确响应。这种设计与RAG评估中的established 方法论一致,通常涉及评估单跳和多跳查询的性能,以衡量系统的推理能力。
**性能评估** 使用Ragas库[45]、[46]进行,这是一个专门用于评估RAG管道的框架。评估重点关注Ragas提供的关键指标,包括:忠实度,量化生成答案与检索到的上下文的事实一致性;响应相关性,评估生成答案与提出的问题的相关性;上下文召回率,评估检索组件检索回答问题所需的所有信息的能力;以及上下文精确度,衡量相关检索上下文与总检索上下文的比例。此外,还进行了噪声敏感性分析,以确定RAG系统对检索到的上下文中包含无关或误导性信息的鲁棒性。这些指标在Ragas框架中定义,提供了对RAG系统性能的全面评估。
**进一步研究** 该研究还调查了检索大小(一个关键超参数)对RAG系统性能的影响。对于LongRAG,检索到的文档数量(top-k)在五种配置(1、3、5、7和9)之间进行了变化。同样,对于GraphRAG,使用了相同的配置调整了混合搜索检索大小(top-k)。分析了这些变化对忠实度、响应相关性、上下文召回率和上下文精确度以及噪声敏感性的影响。这种方法有助于系统地量化检索大小与系统性能之间的关系。这种超参数调整被广泛认为是优化RAG系统的关键步骤。
**G. RAG改进**
为了提高RAG系统的性能,实验采用了包括多查询检索、交叉编码和重新排序在内的先进技术。本研究重点关注第C节中详细描述的RAG方法,特别是那些在先前评估中表现不佳的QA对(忠实度得分低于0.7)。实施多查询检索,为每个输入生成语义多样化的查询,从而增强文档检索的鲁棒性和广度。应用交叉编码来评估检索到的段落与扩展查询之间的语义对齐性,从而过滤掉质量较低的输出。重新排名进一步优先考虑了与上下文最相关的文档,并消除了重复检索的结果,从而提高了检索的准确性和响应质量。在这个实验中,系统地改变了两个关键参数:扩展查询的数量(q)被设置为3和6,重新排名后保留的顶级相关文档的数量(top-kr)被设置为5、7和9。这些变化允许评估查询扩展和文档优先级对系统性能的影响。随后使用Ragas库进行了评估,以量化诸如忠实度、答案相关性、上下文召回率和上下文精确度等关键指标。此外,还进行了噪声敏感性分析,以评估系统对无关或噪声输入的鲁棒性。将从基线和增强型RAG系统获得的结果进行比较,以量化在复杂技术文档中检索准确性和响应质量的改进。
H. 多模态聊天机器人与定性分析
本节详细介绍了开发的一种多模态聊天机器人,它可以生成文本和视觉格式的回复。该聊天机器人结合了RAG方法进行文本合成和基于相似性的图像选择检索,旨在提高跨模态的回复准确性和一致性。需要澄清的是,所提出的系统中的图像检索是基于文本与标题的相似性,而不是统一的多模态嵌入空间。具体来说,所有图像都是手动策划的,并与经过专家验证的文本标题配对,这些标题与用户查询嵌入在相同的文本嵌入空间中。没有使用联合图像-文本编码器(例如CLIP或视觉-语言模型)。相反,该系统采用了一个检索对齐的多模态架构,通过生成的文本回复来检索视觉内容,而不是通过端到端的多模态表示学习。对于图像检索,建立了一个带有标题的图像策划数据集,其中每张图像都与专家验证的文本描述相关联。图像选择是通过多查询扩展的用户查询的文本嵌入与图像标题之间的余弦相似性来执行的,确保检索到的视觉内容在语义上与生成的文本回复一致。聊天机器人使用多查询检索来生成多样化的查询变体,然后通过相似性搜索来识别最相关的图像-标题对。
为了评估多模态聊天机器人的有效性,进行了一项涉及八名PCB制造领域专家的定性研究。参与者包括技术销售工程师、工艺工程师和产品经理,他们的专业经验从3年到超过15年不等。尽管参与者数量有限,但由于PCB制造中电镀设备的高度专业化特性,定性评估有意识地集中在领域专家上,因为这方面的合格专业知识很少。包括非专家用户可能会导致不准确的评估或对技术复杂回复的误解;因此,这项研究优先考虑的是专业深度而非样本大小,并将定性评估定位为对实际适用性的专家验证,而不是统计上可推广的用户研究。使用Streamlit开发的基于Web的界面使参与者能够与聊天机器人互动30到60分钟,提出与设备用户手册相关的查询。反馈是通过基于Ragas启发的评估指标的在线调查收集的,这些指标衡量了答案相关性、忠实度和上下文精确度。由于缺乏明确的真实数据以及对潜在冗余的担忧,评估中没有包括上下文召回率。此外,还评估了检索到的图像与查询的相关性。
III. 结果与讨论
A. LongRAG和GraphRAG的构建
在构建LongRAG时,观察到指导语言模型的系统提示对于生成相关和忠实的答案至关重要。提示通过广泛的实验和针对我们私有文档知识库的手动评估进行了迭代改进。同样,在GraphRAG中,明确指示系统提取节点和关系的提示对于有效的图构建也是必不可少的。本研究使用了GPT-o3-mini和Gemini-2.0-Flash这两个在研究期间(2024年9月至2025年4月)当前且得到积极支持的推理导向模型。尽管有GPT-4级别的多模态模型可用,但初步测试表明,由于这些模型的高度专业化和供应商特定的设计,直接解释来自专有电镀设备手册的图像的准确性不足。因此,所有图像都附有手动策划的专家描述,并且由于保密限制,无法进行微调。重要的是,这项工作重点在于评估RAG架构(LongRAG和GraphRAG),而不是基准测试特定的LLM版本,较新的模型将留待未来的研究。
LongRAG和GraphRAG框架成功地利用了不同的LLM构建,如图1(b)所示。具体来说,LongRAG使用了OpenAI o3-mini和Gemini-2.0-Flash来处理并嵌入来自831页技术手册的分段文本数据到ChromaDB向量存储中。这一过程创建了两个独立的向量空间,每个空间包含736个嵌入向量,代表了每个LLM感知的文档片段的语义内容。GraphRAG框架利用OpenAI o3-mini和Gemini-2.0-Flash从预处理的手册中自动提取实体和关系,以在Neo4j中构建知识图谱。由OpenAI o3-mini生成的知识图谱包含了8,133个节点和25,564个关系,而由Gemini-2.0-Flash构建的知识图谱包含了5,771个节点和18,592个关系。o3-mini和Gemini-2.0-Flash生成的知识图谱在节点数量上的差异反映了模型特定的信息提取行为,因为先前的研究表明,大型语言模型在从相同来源文档构建知识图谱时在语义粒度和实体分割上存在差异[47],[48]。
B. LongRAG和GraphRAG的定量评估
为了确保对RAG框架的客观评估,使用了Ragas库,该库提供了一套专门为评估RAG系统设计的指标。这些指标——忠实度、答案相关性、上下文精确度、上下文召回率和噪声敏感性——提供了对检索和生成组件的全面评估。在评估过程中,Ragas中选择的评估LLM与每个系统使用的生成LLM相匹配。具体来说,OpenAI o3-mini用作基于OpenAI o3-mini构建的RAG系统的评估模型,而Gemini-2.0-Flash用于评估使用Gemini-2.0-Flash的系统。这种方法通过将评估模型与生成模型对齐,确保了评估的一致性和公平性。评估集中在LongRAG和GraphRAG框架上,这两个框架都使用了OpenAI o3-mini和Gemini-2.0-Flash作为生成LLM。使用一个包含50个问答对的数据集(精心挑选以覆盖用户手册的关键章节,包括线路配置、线路功能、操作和维护)来评估五个指标的性能。这种方法在一致和代表性的条件下允许对框架进行彻底和平衡的比较。根据表2和表3中呈现的数据,并在图2中进行了可视化增强,使用OpenAI o3-mini和Gemini-2.0-Flash的LongRAG和GraphRAG系统的比较分析揭示了关键性能权衡。OpenAI o3-mini在答案相关性(LongRAG中为0.8315-0.8970,GraphRAG中为0.8579-0.8909)和较低噪声敏感性(LongRAG中为0.1605-0.3287,GraphRAG中为0.0757-0.2660)方面表现更为出色,表明其在生成精确和上下文相关的回答方面具有优势。相比之下,Gemini-2.0-Flash在忠实度(LongRAG中为0.9126-0.9777,GraphRAG中为0.4190-0.9515)和上下文召回率(LongRAG中为0.3050-0.7283,GraphRAG中为0.2670-0.7083)方面表现更胜一筹,表明其在整合和准确表示来自检索上下文的信息方面具有更大的能力。
表2. 使用OpenAI o3-mini和Gemini-2.0-Flash作为生成LLM的LongRAG系统得分(根据Ragas评估)
| Metric | LongRAG | GraphRAG |
|---------|-------|-------|
| Context Precision | 0.9400 ± 0.23 | 0.8400 ± 0.37 |
| Context Recall | 0.1783 ± 0.32 | 0.3050 ± 0.37 |
| Faithfulness | 0.5161 ± 0.39 | 0.9126 ± 0.21 |
| Answer Relevance | 0.3918 ± 0.25 | 0.4200 ± 0.42 |
| Noise Sensitivity | 0.2523 ± 0.2863 | 0.5509 ± 0.2900 |
| Relevance | 0.8315 ± 0.3797 | 0.8633 ± 0.2377 |
表3. 使用OpenAI o3-mini和Gemini-2.0-Flash作为生成LLM的GraphRAG系统得分(根据Ragas评估)
| Metric | LongRAG | GraphRAG |
|---------|-------|-------|
| Context Precision | 0.5400 ± 0.50 | 0.5400 ± 0.55 |
| Context Recall | 0.1217 ± 0.29 | 0.8100 ± 0.81 |
| Faithfulness | 0.2941 ± 0.50 | 0.7400 ± 0.74 |
| Answer Relevance | 0.2599 ± 0.50 | 0.4190 ± 0.42 |
| Noise Sensitivity | 0.2948 ± 0.43 | 0.4233 ± 0.46 |
| Relevance | 0.1881 ± 0.2550 | 0.6419 ± 0.64 |
| | 0.6678 ± 0.2179 | 0.6678 ± 0.21 |
关于RAG架构,LongRAG通常对两种LLM都展现出更高的上下文精确度,特别是在较低的top-k值时,表明检索到了更相关的文档。例如,OpenAI o3-mini在top-k=1时达到了0.9400。然而,GraphRAG也表现出了相当的性能,某些情况下Gemini-2.0-Flash甚至取得了有竞争力的上下文精确度分数。因此,在选择LongRAG和GraphRAG时应权衡精确文档检索的需求(LongRAG)与全面整合上下文的需求(GraphRAG)。根据实证研究结果,选择了Open AI o3-mini模型与LongRAG的组合进行部署。在两种RAG变体中,OpenAI o3-mini始终实现了比Gemini-2.0-Flash更高的答案相关性,这与应用程序的主要目标(提供相关回复)一致。尽管Gemini-2.0-Flash表现出更高的忠实度,但其优势被系统对相关性的重视所抵消。此外,OpenAI o3-mini较低的噪声敏感性产生了更集中和连贯的输出,从而提升了用户体验。在架构方面,LongRAG因其操作实用性而更受青睐:与需要大量维护知识图的GraphRAG不同,LongRAG依赖于更简单的检索机制,在动态数据环境中更容易维护,同时仍能达到相当或更高的上下文精确度,特别是在检索到最相关文档的较低top-k值时。
C. RAG改进的定量评估
在基于最初选择的OpenAI o3-mini的LongRAG系统来提高忠实度和上下文召回率的基础上,我们实施了一系列有针对性的检索和排名策略,以进一步解决在处理复杂技术文档时RAG系统固有的挑战。如图3所示,引入多查询检索(q=n)旨在克服单查询方法的局限性,后者在面对模糊或多方面的问题时经常表现不佳。通过从原始输入生成多个语义多样的查询,系统能够检索到更广泛的相关文档。这种方法在技术领域特别有利,因为全面的答案通常需要从文档的不同部分或视角合成信息。因此,多查询检索显著提高了上下文召回率,并确保捕获了关键信息,特别是对于需要细致理解的复杂查询。
为了进一步提高检索段落与用户查询之间的语义相关性,将sentence Transformer跨编码器集成到了检索流程中。与传统的相似性度量(如点积或余弦相似性)不同,后者可能检索到与查询 only 惟有间接关系的段落,跨编码器共同处理查询和文档,从而能够更复杂地评估它们的语义对齐。这种集成直接解决了确保检索到的段落不仅相关,而且与用户的具体信息需求高度相关的问题。最后,引入了重新排名(kr=n)来优化检索文档的最终排序。虽然多查询检索扩大了候选集,跨编码器提高了相关性评分的精确度,但重新排名步骤应用了一个经过微调的排名模型,根据全面的上下文重要性对文档进行重新排序。这种多阶段的检索和排名策略共同确保了最相关和高质量的信息被优先考虑给用户。
如图4所示,将高级RAG技术应用于最初在忠实度方面表现不佳的QA数据集,明显改善了这一指标。具体来说,使用多查询检索(q=6)和跨编码器重新排名(top-kr=7)后,忠实度得分显著提高。同时,这些先进的RAG技术的实施提高了上下文回忆率和上下文精确度分数。然而,这些改进也伴随着对噪声敏感度的增加。总的来说,通过策略性地整合多查询检索、Sentence Transformer交叉编码器和重新排序,解决了在使用复杂技术文档的RAG系统中的特定限制。这些技术共同增强了系统提供准确、相关且具有丰富上下文信息的响应的能力。
**下载:** 下载高分辨率图像(331KB)
**下载:** 下载全尺寸图像
**图4.** LongRAG的比较评估:基线配置(top-k = 7)与增加了高级RAG技术的相同模型。每个聚类条形图上的虚线参考线和数字注释表示相应指标的基线分数。
**D. 多模态RAG聊天机器人和定性评估**
我们开发了一个多模态聊天机器人,它利用先进的RAG流程集成了对话管理、会话持久性和意图识别,以实现上下文感知的交互。该系统处理用户文本查询,并生成包含文本和相关上下文图像的响应。如附录I所示,尽管像GPT-4V、GPT-4 Turbo和GPT-4这样的现代多模态模型在处理视觉和文本输入方面表现出色,但我们的方法更注重手动标注的策划和通过系统测试进行迭代改进。因此,选择这种方法是由于图像数据集有限(227张独特图像)、缺乏足够的成对图像-文本数据来进行稳健的多模态微调,以及训练大规模多模态模型所需的计算资源。此外,检索对齐的多模态设计旨在最小化幻觉,并确保在安全关键的工业文档中提供可靠的依据。
我们的系统通过整合文本和视觉信息来提高响应质量。这一多模态特性在界面中得到了视觉上的强调,如图5中的蓝色框所示。一旦提交了文本查询并生成了响应,系统会使用Ragas指标自动评估输出的忠实度和上下文精确度,并应用预定义的阈值0.7。需要注意的是,在实际聊天机器人部署中,由于缺乏真实的参考依据,因此不包括上下文回忆率。未达到这些标准的响应会触发多查询扩展、交叉编码和重新排序过程,经验测试确定了最优参数q=6和top-kr=7。相反,满足阈值的响应随后与相关图像结合形成最终答案。这种动态检索过程旨在提升整体响应质量。
**下载:** 下载高分辨率图像(599KB)
**下载:** 下载全尺寸图像
**图5.** 用于上下文感知响应生成和检索优化的多模态RAG流程。文本响应通过增强的RAG框架生成,而视觉内容则通过共享文本嵌入空间中的文本-标题相似性独立检索;没有使用联合多模态嵌入。
对于图像组件,初步的性能分析显示了图像检索中的挑战,主要是因为用户提交的查询过于简略,导致检索到幻觉和无关图像。为了解决这个问题,我们实施了一种多查询扩展策略,为每个用户查询生成五个语义上不同的变体。这些扩展后的查询用于与图像标题嵌入进行相似性搜索,然后通过余弦相似性搜索应用top-k阈值(阈值>0.7)来确定图像与查询的相关性。这种方法显著改善了选定图像与用户查询之间的匹配度,从而提高了聊天机器人多模态响应的上下文适宜性。
我们开发了一个基于Streamlit的多模态RAG聊天机器人原型,并进行了全面的评估,参与的专家包括拥有3到15年以上专业经验的PCB制造领域的五个领域专家,包括技术销售工程师、工艺工程师和产品经理。如图6所示,参与者使用基于Web的界面与聊天机器人进行了30到60分钟的互动,提出了与电镀设备操作、维护和过程控制相关的技术查询,并随后评估了系统响应的质量。用于从专家问卷回答中计算指标分数的公式提供在附录II中,而聊天机器人与用户之间的互动示例——问题与答案——显示在附录III中。
**下载:** 下载高分辨率图像(531KB)
**下载:** 下载全尺寸图像
**图6.** 使用Streamlit开发的聊天机器人界面。
定性评估分数和定量指标的比较分析显示,所有Ragas指标都表现出 strong 对齐性,如图7所示。这些结果验证了所提出方法的有效性,该方法结合了自适应检索、查询扩展、查询与检索文档之间的交叉编码以及重新排序,以生成符合专家期望的响应并提高答案质量。值得注意的是,领域专家高度评价了系统的图像检索能力,确认多查询扩展策略和检索过滤有效减少了视觉幻觉,并确保图像有效地补充了文本信息。这一能力使得该系统在工业环境中导航技术文档时特别有效,提供了基于用户查询的、基于事实的、具有上下文相关性的响应。专家反馈进一步强调,聊天机器人将文本解释与相应的视觉元素(如电路图和组件布局)配对的能力显著提高了他们对复杂技术概念的理解。
**下载:** 下载高分辨率图像(143KB)
**下载:** 下载全尺寸图像
**图7.** 在上下文精确度、忠实度、答案相关性和查询相关图像指标上的定量和定性评估分数比较。
**IV. 结论**
本研究通过开发和评估一种基于高级RAG的聊天机器人,成功解决了PCB制造这一复杂领域中的信息检索挑战。研究表明,通过策略性地整合多查询处理、交叉编码和重新排序技术,可以提高RAG系统的有效性。这些改进显著提高了聊天机器人的响应准确性、相关性和清晰度,这一点通过定量评估和涉及领域专家的定性评估得到了验证。由此产生的多模态聊天机器人能够生成文本和视觉输出,为技术销售工程师、操作人员和PCB制造领域的专业人士提供了有价值的工具,有效地简化了对关键信息的访问并优化了操作效率。这些改进得益于多查询检索、上下文解释和多模态查询处理。
从实际角度来看,所提出的系统作为面向应用的决策支持工具,用于日常PCB制造操作。通过将响应完全基于权威的设备专用手册,基于多模态RAG的聊天机器人帮助设备操作员、工艺工程师和技术支持人员排查流程偏差、解释警报、验证操作参数以及执行例行设置和维护任务。文本解释与带注释的视觉参考的整合增强了知识传递,支持了跨班次的一致操作实践,并减少了对非正式或基于经验的指导的依赖,特别是对于新培训的人员。对LongRAG和GraphRAG的比较分析为在固定文档、保密要求和系统复杂性等工业限制下选择合适的RAG架构提供了可操作的见解,从而支持现实制造环境中的明智部署决策。
这项评估被有意构建为以应用为导向的研究,而不是大规模的基准测试。在真实的PCB制造环境中,基于RAG的系统被部署来支持特定的电镀设备,因为不同的供应商在设备设计、功能架构、操作参数和文档结构上存在显著差异。因此,所提出的聊天机器人仅限于在目标电镀系统及其专有手册的范围内处理查询,这些手册受到保密限制。在这种现实环境下,研究评估了LongRAG和GraphRAG架构在实际工业条件下的有效性。
未来的研究将探讨整合代理RAG框架,以进一步优化聊天机器人的流程架构。这样的框架能够在检索和生成阶段实现动态决策,并随着新的商业和先进的大型语言模型的出现而便于将其纳入。这些发展预计将进一步提高系统在复杂现实工业场景中的适应性、鲁棒性和性能。
**伦理和合规性考虑**
从工业部署的角度来看,使用基于RAG的聊天机器人引发了与数据保密性、操作安全性和负责任的决策支持相关的伦理考虑。所提出的系统严格基于专有的设备专用手册运行,不包含外部数据源,从而减少了数据泄露和未经授权的知识暴露风险。遵循负责任的人工智能原则,聊天机器人的目的是支持而非取代人类专业知识,所有输出都基于可追溯的文档,以减少误导或不安全建议的风险[49]。
**Clear communication of system scope and limitations, controlled access to sensitive documentation, and continued human oversight** 是确保在工业制造环境中合规和伦理使用基于LLM的系统所必需的。
**CRediT作者贡献声明**
Thitirat Siriborvornratanakul:撰写 – 审查与编辑、验证、监督、资源管理、项目行政管理、方法论、调查。
Supparesk Rittikulsittichai:撰写 – 原始草稿、可视化、验证、方法论、调查、形式分析、数据策划、撰写 – 审查与编辑
**数据可用性**
出于商业保密原因,本研究中用于填充RAG聊天机知识域的具体数据不能公开披露。这些数据来自与PCB制造、设备手册和电镀过程相关的公司内部文档。但是,如果向相应作者提出合理请求,可以获取支持对聊天机器人性能进行人类评估的数据,同时遵守所有数据隐私规定和匿名化协议。
**出版同意**
本研究中的参与者通过他们自愿完成的问卷提供了他们的评估反馈。在参与研究之前,已获得了他们的知情同意。
**作者利益冲突**
作者声明在本文的出版方面没有利益冲突。
**作者贡献**
两位作者对该手稿的贡献是平等的。
**附录I:** 使用ChatGPT-4生成标题和图片解释与手动解释的示例
**附录II:** 用于使用定性分析和数学方程评估聊天机器人性能的问卷,以评估各个指标分数及其标准差
**附录III:** 聊天机器人与用户之间的互动示例——问答
**附录I:** 使用ChatGPT-4生成标题和图片解释与手动解释的示例。表中的红色文本突出显示了与官方电镀手册不符的不准确或误导性解释。
• 解释:2-3句话关于设备或过程、其目的以及任何相关的安全或操作细节。使用适合技术文档的简单专业语言。如果图像不清楚,请根据标准电镀实践进行逻辑假设。
**下载:** 下载高分辨率图像(2MB)
**下载:** 下载全尺寸图像
**附录III:** 聊天机器人与用户之间的互动示例——问答
**下载:** 下载高分辨率图像(1MB)
**下载:** 下载全尺寸图像
**资金**
本研究未收到任何资助。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号