w434's blog

Created2025-04-13|Updated2025-04-14|课程笔记论文|Yo'LLaVA

Visual Instruction TuningAbstract 使用机器生成的指令跟随数据对大型语言模型（LLM）进行指令微调已被证明可以提高在新任务上的零样本能力，但这一思路在多模态领域的探索较少我们首次尝试使用仅语言的GPT-4生成多模态语言-图像指令跟随数据通过在此类生成数据上进行指令微调，我们提出了LLaVA（大型语言和视觉助手），这是一个端到端训练的大型多模态模型，连接了视觉编码器和LLM，用于通用视觉和语言理解为了促进未来对视觉指令跟随的研究，我们构建了两个评估基准，包含多样且具有挑战性的应用导向任务 LLaVA展示了强大的的多模态聊天能力，有时在未见过的图像/指令上表现出多模态GPT-4的行为，并在合成多模态指令跟随数据集上达到了GPT-4的85.1%相对分数在Science QA上微调后，LLaVA与GPT-4的协同作用达到了92.53%的最新准确率 1 Introduction 社区对开发语言增强的基础视觉模型表现出浓厚兴趣，这些模型在开放世界视觉理解（如分类、检测、分割和描述）以及视觉生成和编辑方面具有强大能力在这类工作中， ...

自然语言处理 lec8 dp

Created2025-04-13|Updated2025-04-13|课程笔记自然语言处理|fnlp

Syntactic Analysis IIDependency StructuresStructures 成分树：根据语法，哪个词应该和哪个词合起来而Dependency则从宏观到微观逐渐观测，什么和什么相关 e.g.我喜欢什么，我喜欢吃什么，我喜欢吃什么样的苹果… Predicate-Argument Structures(谓词论元): 重点考察核心的谓词之间的关系，左边是成分，右边是依存。通过依存关系来刻画意思，角色之间存在重要性的差异 In the words by Lucien Tesni`ere 句子是一个有组织的整体，其构成要素是单词在单词和它的邻居之间存在联系，这些联系的整体构成了句子的结构结构连接在单词之间建立依赖关系。原则上，每个连接都结合了一个上级项和一个下级项，单向的，从head -> dependency 词法项通过二进制不对称关系链接，称为依赖项 Dependency Structures Terminology Superior: Head/Governor(控制作用) Inferior: Dep ...

自然语言处理 lec7 phrase

Created2025-04-13|Updated2025-04-13|课程笔记自然语言处理|fnlp

Syntactic Analysis ISyntactic Structures 讨论了词义消歧、语言模型序列(这句话好不好)、序列标注(词性是否符合语法习惯) 我们没有触及另一个有趣而复杂的话题：语法 Syntax 语言遵循一定的语法规则(隐性的)，而且会不断变化：可以编译的有一定规则和形式没有歧义，他人能懂同时附带语义超越字级分析或纯序列分析分析语法的一种可能解决方案是将句子映射到复杂的结构中(句法分析)，例如树或图形。希望讨论的不再是序列而是更复杂的结构——树或图… 所需：设计计算解决方案来恢复这些具有挑战性的句法结构来自语言学的一个很好的理论，希望能完美地描述所有的语言现象一种将句子映射到某些目标结构的算法目标结构的形式可以多种多样，例如序列、树、图形等目标结构的形式可以多种多样，例如序列、树、图形等需要一个方法来评价好坏 Theories 句法结构(语法)：管理单词序列的语法或格式正确的规则，通常与某种语言有关语义：单词、短语、句子或段落的含义是如何构建的，如何基于世界或世界的近似值(意思如何聚合) 语用(上下文相关)： ...

自然语言处理 lec6 sper

Created2025-04-13|Updated2025-04-13|课程笔记自然语言处理|fnlp

HMM POS TaggerElements in HMM POS Tagger Elements: a sequence of words a sequence of POS tags the beginning and end of a sentence 参数： Sequences of POS tags → transition probabilities (p(yn|yn−2,yn−1)) Co-occurrences of words and POS tags → emission probabilities (p(xn|yn)) A Naive Way to Incorporate 可以加入先验知识考虑多种特征的方法需要优化多个lamada Alternative: A Classifier 每一个词进行分类，然后抽取特征，根据特征找到最好的POS标签 log-linear可以用于这个分类任务，但是效果并不好。问题：逐个词抽取特征，没有办法利用前后词特征 individual decisions v.s. a sequence of decisi ...

自然语言处理 lec5 hmm

Created2025-04-13|Updated2025-04-13|课程笔记自然语言处理|fnlp

Sequence Tagging I- Hidden Markov ModelsGenerative Models v.s. Discriminative Models Generative Models – Naive Bayes: 可能需要多个相关决策并且了解他们的背景，任务可以拆成小的决策，最后聚合成为大的决策：类似于抽取器，抽取特点，进行预测 Discriminative Models –Log-Linear model: 更好地适应拥有大量标注数据的目标决策场景，找到可以区分的特征，例如狗带项圈 The Sequence Tagging Problem 给定一个序列的项目，任务是针对序列中的每一个词标注决策对最后的任务有没有帮助，挑选出有帮助的部分最终小的分类决策可以聚合成复杂结构常用于语言标注、语音标注、词性标注、分词、切出名词块、大小写分析、口音恢复、信息抽取 NP Chunking and Named Entity Recognition 输入：一句话；输出：每个词给出词性标注 Noun phrase chunking:找到句子中的 ...

PERSONALIZED VISUAL INSTRUCTION TUNING

Created2025-04-03|Updated2025-04-05|课程笔记论文|PVIT

PERSONALIZED VISUAL INSTRUCTION TUNINGABSTRACT 多模态大语言模型（MLLMs）取得了显著进展，但这些模型存在一个明显的局限性，我们称之为“脸盲症”(“face blindness”) 它们能够进行一般性对话，但无法针对特定个体展开个性化对话。这一缺陷限制了MLLMs在个性化场景中的应用本文提出个性化视觉指令调优（PVIT），这是一种新颖的数据构建和训练框架，旨在使MLLMs能够识别图像中的目标个体并进行个性化和连贯的对话我们的方法包括开发一个复杂的流水线，自动生成包含个性化对话的训练数据。该流水线利用了多种视觉专家模型、图像生成模型以及（多模态）大语言模型的能力为了评估MLLMs的个性化潜力，我们提出了一个名为P-Bench的基准测试，涵盖不同难度级别的多种问题类型。使用我们构建的数据集进行微调后，模型的个性化性能得到了显著提升 1 INTRODUCTION 大语言模型（LLMs）的出现显著推动了人工智能的发展，改变了自然语言处理和理解领域。这些模型在大量文本语料库上训练，拥有丰富的世界知识，能够出色地完成各种任务 L ...

MyVLM:Personalizing VLMs for User-Specific Queries

Created2025-04-02|Updated2025-04-02|课程笔记论文|MyVLM

MyVLM:Personalizing VLMs for User-Specific QueriesAbstract 大规模视觉语言模型（VLMs）在理解和生成视觉内容的文本描述方面展现出了卓越的能力然而，这些模型缺乏对用户特定概念的理解我们首次尝试个性化 VLMs，使其能够学习并推理用户提供的概念。例如:模型是否能够学习识别图像中的“你”，并描述你的行为，从而使模型能够反映你的个人经历和人际关系为了有效识别多样化的用户特定概念，我们通过外部概念头（concept heads）增强VLM，这些概念头作为模型的开关，使VLM能够识别给定图像中特定目标概念的存在识别概念后，我们在VLM的中间特征空间中学习一个新的概念嵌入（concept embedding）该嵌入的任务是引导语言模型自然地将目标概念整合到其生成的响应中我们将该技术应用于BLIP-2和LLaVA以实现个性化图像描述，并进一步展示其在个性化视觉问答中的适用性实验表明，我们的方法能够泛化到已学习概念的新图像，同时保持模型在无关输入上的行为不变项目页面：https://snap-research.g ...

Yo'LLaVA:Your Personalized Language and Vision Assistant

Created2025-03-27|Updated2025-03-29|课程笔记论文|Yo'LLaVA

Yo’LLaVA: Your Personalized Language and Vision AssistantAbstract 大型多模态模型（Large Multimodal Models, LMMs）已在多种任务（如图像描述、视觉问答）中展现出卓越能力尽管知识面广泛，但其知识仍具有通用性（例如识别一只狗），无法处理个性化主体（例如识别用户的爱犬）。相比之下，人类推理通常围绕周围环境中的特定主体展开本文中，我们提出了个性化LMM的新任务，使其能够围绕特定主体展开对话。我们提出了Yo’LLaVA，它能够根据少量主体示例图像，学习将个性化主体嵌入到一组潜在token中定性与定量分析表明，与强提示基线（如LLaVA）相比，Yo’LLaVA能以更少的token更高效地学习概念，并更有效地编码视觉属性 1 Introduction “xx在这张照片里做什么？”或”我想为xx买生日礼物，你有什么推荐？”这些问题看似简单，但现有的大型多模态模型（LMMs）并非为回答此类_个性化_问题而设计虽然这些模型能利用广泛知识对图像中的物体和人进行分类，但它们无法将这些物体识别为用户 ...

MetaMorph:Multimodal Understanding and Generation via Instruction Tuning

Created2025-03-24|Updated2025-03-24|课程笔记论文|MetaMorph

MetaMorph:Multimodal Understanding and Generation via Instruction Tuning(通过指令微调实现多模态理解和生成)Abstract 在这项工作中，我们提出了视觉预测指令微调（Visual-Predictive Instruction Tuning, VPiT）——这是对视觉指令微调的一个简单而有效的扩展，它使得预训练的大语言模型（LLM）能够快速转变为一个统一的自回归模型，能够生成文本和视觉token VPiT 教会LLM从任何以指令跟随格式整理的图像和文本数据输入序列中预测离散的文本token和连续的视觉token 实证研究揭示了VPiT的几个有趣特性：视觉生成能力作为视觉理解能力提升的自然副产品出现，并且可以通过少量的生成数据高效解锁虽然我们发现理解和生成是相互促进的，但理解数据对这两种能力的贡献比生成数据更有效基于这些发现，我们训练了MetaMorph模型，并在视觉理解和生成方面取得了有竞争力的表现在视觉生成方面，MetaMorph能够利用从LLM预训练中获得的世界知识和推理能力，并克服其他生成 ...

VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model

Created2025-03-23|Updated2025-03-23|课程笔记论文|VARGPT

VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model(视觉自回归多模态大语言模型中的统一理解与生成)Abstract VARGPT是一种新颖的多模态大语言模型（MLLM），它在单一的自回归框架内统一了视觉理解和生成 VARGPT采用下一个token预测范式进行视觉理解，采用下一个尺度预测范式进行视觉自回归生成 VARGPT创新性地扩展了LLaVA架构，在MLLMs中实现了高效的尺度自回归视觉生成，同时无缝地支持单一模型框架内的混合模态输入和输出 VARGPT经过三个阶段的一体化训练过程，包括预训练阶段和两个混合视觉指令微调阶段统一训练策略旨在实现视觉和文本特征的对齐，增强理解和生成的指令跟随能力，并提高视觉生成质量 VARGPT自然地支持自回归视觉生成和指令到图像合成的能力，展示了其在视觉理解和生成任务中的多功能性 1. Introduction 近年来，多模态人工智能在理解和生成这两个核心领域取得了重大突破。多模态 ...