《Digital Applications in Archaeology and Cultural Heritage》:Interactive 3D segmentation on high-resolution photogrammetry models
编辑推荐:
为解决考古领域高分辨率三维模型因硬件内存限制而难以进行交互式语义分割的难题,本文作者提出了一种支持跨瓦片操作、基于外存(out-of-core)的交互式网格分割新方法。该方法通过“引导样条”用户交互、局部坐标框架与投票机制,实现了在高达数百万三角形的摄影测量模型上直接进行精确边界勾画与区域提取。以伊拉克乌尔古城沥青船的抢救性发掘为例,该技术成功重建了传统二维分析无法推断的沉积序列,证明高保真三维模型可作为主动分析工具。
在当今的考古与文化遗存研究中,高分辨率三维摄影测量已成为标准的记录手段。考古学家们能够以亚毫米级的精度,捕捉并生成包含数亿三角形面的高保真模型,这些模型极大地丰富了我们记录和分析历史遗迹与出土文物的能力。然而,一个核心的矛盾也随之浮现:尽管我们拥有了海量的三维数据,但关键的阐释性工作——例如划分地层单元、描摹遗址边界、定义分析单元——却依然被束缚在二维平面上。传统的二维GIS和绘图软件在处理垂直剖面、复杂形态(如薄壁、悬垂结构)以及大规模三维模型时显得力不从心。现有的三维软件则多受限于计算机内存(RAM和VRAM),难以加载和处理包含数亿三角形面片的巨型模型。这导致一个普遍现象:高分辨率三维模型更多被用作精美的可视化记录,而非动态、可交互的分析工具。学者们早已指出这一“三维分析鸿沟”,并呼吁开发能够直接在原始分辨率三维模型上进行语义分割和解释的工具。
为了打破这一僵局,德国考古研究所的Max Haibt及其团队开展了一项开创性研究。他们针对考古学中复杂三维形态(如伊拉克乌尔古城发现的一艘长约7米、部分悬垂的沥青船)的分析需求,开发了一套完整的、可处理超大规模摄影测量模型的工作流与方法论。该研究并非聚焦于全自动分割算法,而是强调人机交互引导,让领域专家能够像在二维图纸上一样,直接在三维模型表面进行精确的边界勾画与区域划分,并将结果作为可随时修订、质疑的分析单元保存下来。这项研究发表于期刊《Digital Applications in Archaeology and Cultural Heritage》,其成果证明,高保真三维模型完全可以超越“视觉记录”的范畴,成为强有力的主动分析工具。
为实现这一目标,研究人员构建了一套基于虚幻引擎(Unreal Engine 5.5)和RealityScan 2.0的集成框架。其核心技术创新在于一套双图层架构与基于外存的动态几何流式处理方案。双图层架构将模型分为两个独立层:一个视觉图层用于借助Nanite虚拟化几何和流式虚拟纹理(Streaming Virtual Textures)技术进行无上限的高保真渲染;另一个可编辑图层则由一系列小型的、可流式加载的可编辑单组件(EditSingleComponents)构成,这些组件保留了完整的三角形网格拓扑结构,支持精确的几何操作。数据预处理阶段,研究团队开发了自动化导出与导入工具,将摄影测量模型分割为适合引擎处理的可视化瓦片和更小的编辑瓦片。在交互过程中,系统采用按需加载机制,仅将用户当前操作区域附近的可编辑组件加载到内存中,从而实现了对包含超过3亿三角形的完整模型进行实时交互分割,而峰值内存占用控制在18GB以下。
核心技术方法主要包括:1)通过用户点击创建与网格表面精确锚定的引导样条(guiding spline),作为分割边界的控制结构;2)引入跨越点系统处理引导样条穿越不同编辑瓦片时的拓扑连接问题;3)在每个瓦片内部,使用Dijkstra最短路径算法在网格边上计算两点之间的测地线路径,从而将引导样条“实化”为精确的网格边界;4)为每个引导样条点建立局部坐标系框架,通过投影邻接三角形质心向量的方式,初步判断三角形的内外属性,形成初始种子集;5)使用洪泛填充算法进行区域生长,并结合投票机制解决局部误分类问题;6)通过进程检测边界算法,识别并归类那些完全被引导样条包围但未被直接穿过的内部瓦片。整个过程无需将整个高分辨率模型一次性载入内存。
研究成果通过多个维度得到了验证:
5.1. 虚拟研究环境构建:研究成功将乌尔沥青船的两个摄影测量模型(总计3.1亿三角形,307个8K纹理文件)导入并构建为交互式研究环境。自动化流程包括模型分块导出、纹理重投影以及双图层构建。尽管预处理阶段耗时较长(受限于虚幻引擎单线程的静态网格构建过程),但为后续交互分析奠定了基础。
5.2. 交互式分割与可编辑几何流式性能:在对船只进行分割的交互过程中,用户共放置了387个引导样条点,涉及46个可编辑单组件(总计5720万三角形)。系统在长达4分钟的编辑会话中,保持了平均91.0 FPS的流畅交互体验。通过动态流式加载,内存使用被有效控制在9-18GB之间,成功将考古三维分析从内存限制中解放出来。
5.3. 分割性能与规模:对直接接触的46个组件进行边界分割与内外分类计算,耗时2分40秒,最终生成了包含8350万个三角形的船只独立模型。计算过程以单线程为主,辅以多线程突发处理,磁盘I/O平均为6.47 MB/s。
5.4. 三角形分类精度与投票机制有效性:在分割船只的76个组件中,有70个(92%)在初始种子分类阶段就出现了内外属性冲突。通过基于多数票的投票机制,最终实现了组件级别的100%正确分类。视觉检查确认,分割结果完全符合用户意图,如图8所示。研究也指出,边界精度受局部三角形密度限制,在模型合并区域等较粗糙部分,计算出的边界可能与用户期望的样条路径存在偏差。
5.5. 被包围瓦片检测效率:进程检测边界算法成功识别出所有129个被完全包围的内部瓦片(包含6550万三角形,占最终结果三角形总数的78.4%),且未产生任何误判。算法在5次迭代后收敛,总耗时3分30秒。每次迭代新发现的组件数量和进程检测边界大小均迅速衰减,证明了算法的效率。
5.6. 分割后可视化性能:分割完成后,加载结果网格进行可视化时,由于动态网格未被Nanite优化,内存和GPU显存占用会显著上升。但对于典型的数百万三角形规模的分析单元,在测试硬件上仍可流畅操作。
在考古学论证部分,该技术的应用揭示了传统田野工作中难以识别的沉积序列关系。通过将不同发掘阶段(如第二阶段与最终阶段)的模型进行三维分割与叠加分析,研究者取得了三项关键发现:首先,重建了船尾下方被黑色薄层(L34)覆盖的早期点沙坝(L35)的连续分布,厘清了其与船只沉积的先后关系。其次,发现了船体南侧船舷的扭曲变形与沙层L25的表面形态精确对应,表明该变形是沉积物堆积造成的沉积后压力所致,而非船只的原始建造特征。最后,通过分析船只内外红色粘土质壤土(L19, L24/L30)的三维分布与厚度变化,推断出该层代表了一次主要洪水事件后的静水沉积,并表明船只当时已浸水并固定,船首部分仍嵌于沉积物中。
结论与讨论部分强调,本研究填补了高分辨率三维数据采集与基于这些数据的交互式分析之间的关键空白。所提出的方法学框架不仅实现了在超大规模摄影测量网格上的人机交互分割,更重要的是,它将三维模型从被动的记录档案转变为主动的分析媒介。通过将传统的绘图与解释实践转化为三维数字环境中的可逆操作,该方法支持考古学家以更符合三维空间认知的方式开展工作,促进了分析过程的迭代与观点的争鸣。在伊拉克乌尔古城沥青船案例中的应用证明,该方法能够揭示在田野发掘或二维分析中无法推断的复杂空间与地层关系。尽管在边界精度(受限于原始网格分辨率)和大规模分割结果的可视化性能方面仍有优化空间,但该研究为考古学、地质学及相关空间学科处理海量三维数据提供了一条切实可行的技术路径,标志着三维模型在文化遗产研究中的角色从“展示品”向“科学仪器”的根本性转变。