摘要:三维场景语义理解作为计算机视觉领域的核心难题之一,其目标在于实现对三维空间结构的精确识别与分割;随着无人驾驶、机器人自主导航等应用场景的持续演进,该任务面临着愈发严苛的挑战标准;近年来,3D-GS的革新性地提出,在保证渲染精度与基线工作相当的前提下,将重建效率提升数个数量级;然而当前学术界的探索尚未充分解决基于3D-GS范式的语义解耦问题;由于三维数据在复杂度和存储要求等方面都远远超过二维数据集,高质量标注的三维数据集较为稀缺,直接训练神经网络理解三维语义往往是困难的;针对上述挑战,因此提出了一种通过二维语义先验知识,编码低维度信息的办法;通过预训练的二维语义分割网络提取其中的先验知识,基于可微体渲染的思想训练一个低维语义信息;用动态阈值实现语义场粗分割后,再利用统计学算法滤除噪点重校准;通过解耦式语义场绑定方案,实现参数的独立控制;通过大量实验,验证了该方法能够通过数秒钟的优化达到之前基线方法的水准,并能够无缝集成至场景编辑等下游任务。