w434's blog

Created2025-09-18|Updated2025-09-18|课程笔记智能机器人概论|智能机器人

机器人传感器系统传感器与执行机构输入：传感器内部传感器、内部执行器：保证机器人的稳定运行外部传感器、外部执行器：决定了机器人的功能、类型及规划控制方法内部传感器：感知机器人自身状态，典型的内部传感器有编码器、IMU、电流传感器、力/扭矩传感器等等外部传感器：感知外部环境与环境的交互，典型的外部传感器有摄像头、LiDAR、麦克风、超声波内部传感器内部传感器：感知“自我”，回答机器人自己处于什么状态、位置、方向、… 外部传感器外部传感器：感知“世界”，回答机器人周围的环境是什么样的基于功能的传感器分类传感器基于功能可以分成三类：感知环境你、感知本体、感知交互传感器原理介绍内部传感器(感知本体)：运动及位姿估计编码器(关节\轮位移) 惯性传感器(加速度计、陀螺仪)、惯性测量单元IMU 外部传感器(感知环境)：环境感知建模视觉传感器：2D相机、RGB-D 距离传感器：激光雷达、毫米波雷达

生成模型基础 02 Autoencoders

Created2025-09-16|Updated2025-09-27|课程笔记生成模型基础|生成模型

AutoencodersBasicsWhat is autoencoder? autoencoder 是一种前馈神经网络，其功能是接收输入x并预测x 存在 Trivial (short-cut) solutions：神经网络可以学会恒等映射 𝑥 = 𝑓(𝑥)，即输入为x，经过中间的神经网络后，输出也为x Bottleneck architecture：使用bottle neck结构：防止过拟合可以分为encoder(编码、降维、提取特征)和decoder(解码、复原重构x) Why autoencoder? 将高维数据映射至二维空间以实现可视化数据压缩（降低通信成本）无监督学习（预训练），通过加入扰动再去噪生成模型，生成image The simplest autoencoder(线性autoencoder) 最简结构的autoencoder包含单个具有linear activations的hidden layer encoder通过线性投影到更小的空间，而decoder则通过线性投影还原到原来的维度，均为线性变化 ...

代数结构与组合数学期末考试复习

Created2025-09-05|Updated2025-09-05|课程笔记代组|代组•代数结构与组合数学

金融学概论期末考试复习

Created2025-09-05|Updated2025-09-05|课程笔记金融学概论|金融学概论•金融学

自然语言处理期中考试复习

Created2025-09-03|Updated2025-09-03|课程笔记自然语言处理|fnlp

多智能体基础深度强化学习部分考试复习

Created2025-09-02|Updated2025-09-03|课程笔记多智能体基础|多智能体基础

总结版：

多智能体基础博弈论部分考试复习

Created2025-09-02|Updated2025-09-03|课程笔记多智能体基础|多智能体基础

NLP from Scratch 自学笔记

Created2025-09-01|Updated2025-09-01|课程笔记pytorch官网|pytorch

NLP From ScratchNLP From Scratch: Classifying Names with a Character-Level RNN 我们将构建并训练一个基础的字符级循环神经网络（RNN）来实现词汇分类字符级RNN将单词作为字符序列进行读取，在每一步输出预测结果和hidden state，并将其前一步的hidden state输入到下一个步骤。以最终的预测结果作为输出，即判断该词汇属于哪个类别我们将使用来自18种语源的数千个姓氏进行训练，然后根据拼写来预测名字的来源语言 Preparing Torch 设置 torch 默认使用对应硬件所支持的设备（CPU 或 CUDA）以实现 GPU 加速 1234567891011121314import torch# Check if CUDA is availabledevice = torch.device('cpu')if torch.cuda.is_available(): device = torch.device('cuda')torch.set_de ...

What is torch.nn really? 自学笔记

Created2025-08-27|Updated2025-08-31|课程笔记pytorch官网|pytorch

What is torch.nn really? PyTorch通过精心设计的模块和类——torch.nn、torch.optim、Dataset及DataLoader——来协助构建和训练神经网络若要充分发挥其能力并针对具体问题实现定制化，就需要真正理解它们内部的运作机制为建立这种理解，我们将首先在不使用这些模型中任何功能的情况下，在MNIST数据集上训练一个基础神经网络；初始阶段仅使用最基本的PyTorch张量功能随后，逐步每次添加一个来自torch.nn、torch.optim、Dataset或DataLoader的功能组件，清晰展示每个部分的作用，以及它们如何使代码更简洁或更灵活 MNIST data setup 使用经典的MNIST数据集，它由手绘数字（0到9之间）的黑白图像组成使用pathlib处理路径（属于Python 3标准库），并通过requests库下载数据集 1234567891011121314from pathlib import Pathimport requestsDATA_PATH = Path("data") ...

Visual Instruction Tuning

Created2025-04-13|Updated2025-04-14|课程笔记论文|Yo'LLaVA

Visual Instruction TuningAbstract 使用机器生成的指令跟随数据对大型语言模型（LLM）进行指令微调已被证明可以提高在新任务上的零样本能力，但这一思路在多模态领域的探索较少我们首次尝试使用仅语言的GPT-4生成多模态语言-图像指令跟随数据通过在此类生成数据上进行指令微调，我们提出了LLaVA（大型语言和视觉助手），这是一个端到端训练的大型多模态模型，连接了视觉编码器和LLM，用于通用视觉和语言理解为了促进未来对视觉指令跟随的研究，我们构建了两个评估基准，包含多样且具有挑战性的应用导向任务 LLaVA展示了强大的的多模态聊天能力，有时在未见过的图像/指令上表现出多模态GPT-4的行为，并在合成多模态指令跟随数据集上达到了GPT-4的85.1%相对分数在Science QA上微调后，LLaVA与GPT-4的协同作用达到了92.53%的最新准确率 1 Introduction 社区对开发语言增强的基础视觉模型表现出浓厚兴趣，这些模型在开放世界视觉理解（如分类、检测、分割和描述）以及视觉生成和编辑方面具有强大能力在这类工作中， ...