摘 要:3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多(试读)...