HuggingFace 每日AI论文速递

2024.08.30 每日AI论文 | 视觉表示优化模型性能,CogVLM2提升图像视频理解


Listen Later

大家好,欢迎收听“Hugging Face 每日AI论文速递”。今天是2024年8月30日,我们将带您快速浏览9篇热门AI论文,涵盖多模态大型语言模型、视觉语言模型、视频扩散模型等多个前沿领域。现在,让我们立即进入精彩的论文世界。

[00:24] 🔍 Law of Vision Representation in MLLMs(多模态大型语言模型中的视觉表示定律)

[01:03] 🔍 CogVLM2: Visual Language Models for Image and Video Understanding(CogVLM2:用于图像和视频理解的视觉语言模型)

[01:40] 🌐 ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model(ReconX:利用视频扩散模型从稀疏视角重建任意场景)

[02:18] 🎵 WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling(WavTokenizer:一种高效的音频语言建模声学离散编解码器标记器)

[02:54] 🎥 SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners(SAM2Point:零样本和可提示方式下的3D视频分割)

[03:28] 🎨 CSGO: Content-Style Composition in Text-to-Image Generation(CSGO:文本到图像生成中的内容-风格组合)

[04:18] 🌐 3D Reconstruction with Spatial Memory(基于空间记忆的三维重建)

[04:54] 📈 Scaling Up Diffusion and Flow-based XGBoost Models(扩展扩散和基于流的XGBoost模型)

[05:29] 🎭 StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements(StyleRemix:通过蒸馏和扰动风格元素进行可解释的作者身份混淆)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

...more
View all episodesView all episodes
Download on the App Store

HuggingFace 每日AI论文速递By duan