August 30, 2024

2024.08.30 每日AI论文 | 视觉表示优化模型性能，CogVLM2提升图像视频理解

6 minutes

大家好，欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日，我们将带您快速浏览9篇热门AI论文，涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在，让我们立即进入精彩的论文世界。

[00:24] 🔍 Law of Vision Representation in MLLMs（多模态大型语言模型中的视觉表示定律）

[01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding（CogVLM2：用于图像和视频理解的视觉语言模型）

[01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model（ReconX：利用视频扩散模型从稀疏视角重建任意场景）

[02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling（WavTokenizer：一种高效的音频语言建模声学离散编解码器标记器）

[02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners（SAM2Point：零样本和可提示方式下的3D视频分割）

[03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation（CSGO：文本到图像生成中的内容-风格组合）

[04:18] 🌐 3D Reconstruction with Spatial Memory（基于空间记忆的三维重建）

[04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models（扩展扩散和基于流的XGBoost模型）

[05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements（StyleRemix：通过蒸馏和扰动风格元素进行可解释的作者身份混淆）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

By duan