January 15, 2025

2025.01.15 | MiniMax-01扩展基础模型处理长上下文，填充符在T2I模型中影响图像生成。

10 minutes

本期的 15 篇论文如下：

[00:23] ⚡ MiniMax-01: Scaling Foundation Models with Lightning Attention（MiniMax-01：基于闪电注意力机制扩展基础模型）

[01:04] 🖼 Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models（填充符：T2I模型中填充符的机制分析）

[01:44] 🎨 MangaNinja: Line Art Colorization with Precise Reference Following（MangaNinja：基于精确参考跟随的线稿上色）

[02:21] 🧬 A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following（基于指令跟随的多模态AI副驾驶用于单细胞分析）

[02:57] 🎥 Diffusion Adversarial Post-Training for One-Step Video Generation（扩散对抗后训练用于一步视频生成）

[03:35] 🎲 PokerBench: Training Large Language Models to become Professional Poker Players（PokerBench：训练大型语言模型成为专业扑克玩家）

[04:11] 🎨 FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors（FramePainter：赋予交互式图像编辑视频扩散先验）

[04:52] 🎨 Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens（使用紧凑的文本感知一维标记实现文本到图像掩码生成模型的民主化）

[05:30] 🔍 Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks（Omni-RGPT：通过标记统一图像和视频的区域级理解）

[06:07] 🔍 Enhancing Automated Interpretability with Output-Centric Feature Descriptions（通过输出中心特征描述增强自动可解释性）

[06:49] 📚 OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training（OpenCSG中文语料库：一系列用于大语言模型训练的高质量中文数据集）

[07:27] 📹 Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding（Tarsier2：从详细视频描述到全面视频理解的大型视觉语言模型进阶）

[08:04] 🤔 HALoGEN: Fantastic LLM Hallucinations and Where to Find Them（HALoGEN：大型语言模型的幻觉及其发现之处）

[08:43] 🤖 Potential and Perils of Large Language Models as Judges of Unstructured Textual Data（大型语言模型作为非结构化文本数据评判者的潜力与风险）

[09:23] 🚫 AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages（AfriHate：非洲语言中仇恨言论和侮辱性语言的多语言数据集集合）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

...more

View all episodes

By duan

22 ratings