每日更新

在多模态模型中,CLIP 式编码器往往会过早地将视觉表示移近文本空间。对于抽象层面的问题和答案,例如总结图像的一般内容,这样的表示实际上很好,但是当询问与语言强烈无关的细节时,模型就很容易产生幻觉。根本原因之一是原生视觉结构在文本空间对齐之前被不可逆地压缩/丢失,并且语言模型必须“二次解码”来自其他模态的嵌入,这削弱了对齐并延长了推理链。为了实现这一目标,北京大学、加州大学圣地亚哥分校和BeingBeyond联合提出了一种新方法——BPE Being-VL视觉通路。 Ser-VL的起点就是推迟这一步。首先,在 apuram 环境中自监督且无语言的实体中,对图像进行离散化和“分词”,然后进行相同的 Transformer 使用序列中相同的词汇和文本对它们进行统一建模,缩短了源头的多式联运链接并保留了之前的视觉结构。 Being-VL的实现分为三个步骤。首先,使用 VQ(例如 VQ-GAN)将图像量化为离散的 VQ 标记。接下来,我们将训练 BPE 的可视化版本。它不仅检查共现的频率,而且还明确地测量空间相干性。这优先考虑在不同图像中常见且具有稳定相对位置的标记对,以获得具有更多语义和结构的 BPE 标记。最后,视觉和文本标记以相同的顺序组合并输入到相同的集成 LLM 自回归模型中,而无需依赖额外的投影仪或 CLIP 对齐。 BPE中的所有词汇学习都仅基于图像统计,而不查看文本,将“语言调整”留到后期阶段。文章链接:https://arxiv.org/abs/2506.23639 项目t 主页:https://beingbeyond.github.io/Being-VL-0.5 GitHub:https://github.com/beingbeyond/Being-VL-0.5 与“将视野直接投射到文本空间”有什么本质区别?传统的方法是让法学硕士解释外部视觉编码器的连续嵌入。即使编码器学习了丰富的模式并且没有相应的解码器,LLM仍然需要学习“读取”其他模态,这会放大模态间隙并诱发幻觉。通过将视觉离散化为可预组合的标记,并用序列中的文本对它们进行统一建模,Being-VL 减少了表征格式的滑移并缩短了跨模式因果链。这减少了“虚构成分”,同时保留了感知细节和高级语义。专为视觉场景设计的BPE分词器:频率×空间连贯性文本模型中的BPE仅考虑“谁通常与谁相邻”。在视觉上,简单的组合很容易破坏结构根据频率进行ng。因此,Being-VL提出了优先级引导编码。基于分数P(a,b)=F(a,b)+α・S(a,b)的BPE词汇构建。这里,F是邻居频率,S衡量不同图像相对位置的相干性,相似度通过高斯核进行调整。由此产生的视觉词汇不仅涵盖高频模式,而且保留了空间结构。而且这个过程完全独立于文本。三阶段训练:从 VQ/BPE 嵌入到 LLM 主干的逐步解压 为了将集成的离散表示无缝连接到语言模型,Being-VL 采用三阶段训练来显式控制解压顺序: 第 1 阶段/嵌入对齐:新的和改进的视觉令牌嵌入(包括 VQ 和 BPE) 使用仅训练和冻结所有其他参数即可完成基本调整,而无需 改变原始语言的功能。第二阶段/选择主动调整:首先 LLMDefreezes 一些层(默认值约为 25%)并继续冻结其余层,以最初允许在底层表示中发生跨模式交互。第三阶段/完全调整:完全解冻,敲定更复杂的推理/指令数据,提升高级技能。为了跟上不冻结的步伐,Data 采用了课程。也就是说,我们逐渐从对字幕和属性的基本识别转向视觉化和多轮问答,明确调整BPE的分层“部分到整体”性质。消融表明渐进+减压课程明显优于单步训练。单独使用其中之一不如同时使用两者有效。实验与分析Being-VL 的一系列对照实验得出了明确的结论。先对图像进行离散化,进行视觉BPE,然后用t统一建模,稳定高效ext 以相同的顺序。与传统的“首先进入文本空间”的方法相比,这种集成的离散表示对本地视觉信息的损失较小,使其在回答细节敏感问题和防止幻觉方面更加可靠。删除 BPE 后,性能和稳健性会整体下降。这表明,其好处主要来自于将“共同且稳定的空间关系”的视觉模式合成为更多语义标记,从而使法学硕士能够以更好的粒度进行推理。在训练和尺码选择方面也有明确的“实用”答案。三阶段渐进减压+课程是默认策略。首先,我们将简单地调整 VQ/BPE 入门,然后解压一些 LLM 主干,最后调整所有内容。可以在不妨碍语言能力的情况下可靠地提高跨模态理解。 BPE Visual Token 激活机制 视觉嵌入 wei 的可视化ghts 揭示了词汇设计对跨模态表示的影响。在没有视觉 BPE 的基线模型中(如上图所示),文本和视觉标记的权重显示出显着的偏差和分离,反映了明显的模式障碍。而进入BPE后,我看到了不同词汇量(中图和下图)的suals,两类token的权重分布趋于平衡和同构,这表明BPE的子词/子段级别的统计空间和表示空间进行了更细粒度的微调。这样做的直接效果是跨模态注意力的共享参考点更加一致,梯度信号更具可比性,减少模态之间的分布漂移和共存偏差。词汇量对训练效率和扩展潜力影响的研究进一步探讨了 BPE 词汇量的作用。可视化结果表明,当 tr在资源有限的情况下,与VQ大小相同的码本在表示能力和训练效率增长之间取得了更好的平衡,处于“最佳点”。随着词汇量不断增长(超过16000个),大量分布稀疏、利用率低的代币出现,导致单位算力收益递减。然而,这也表明随着数据规模的增大,该限制可能会变得更强。论文提出的方法可以释放这种扩展空间,并通过更大的词汇量和更多的数据协作进一步提高模型性能。开发与总结(Being-VL-0→Being-VL-0.5)Being-VL-0(ICLR 2025)Being-VL-0为视觉离散化+BPE提供了可行性和动机。从理论分析和玩具实验开始,得出的结论是,BPE 式融合可以将必要的结构背景注入到代币中,从而促进 Transformer 的学习。然后,我们f首先研究使用两阶段训练(PT → SFT)、嵌入冻结策略和数据缩放文本嵌套获得的固定收益。项目地址:https://github.com/BeingBeyond/Being-VL-0Being-VL-0.5(ICCV 2025亮点)Being-VL-0.5将此路径链接到内置模块。进一步优化以更深入地了解框架。具有混合频率和空间一致性的优先引导编码、VQ/BPE/LLM 的三阶段渐进解压缩以及对课程数据策略的支持。项目地址:https://beingbeyond.github.io/Being-VL-0.5
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本站仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

你可能也会喜欢...

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注