SpongeBob's Blog

发表于2025-05-08

Softmax回归+损失函数+图像分类数据集Softmax回归回归vs分类回归估计一个连续值分类预测一个离散类别 MNIST：手写数字识别（10类） ImageNet：自然物体分类（1000类）

发表于2025-05-04

Prompt，Agent，MCP是什么prompt分为 system prompt 角色、性格、背景知识、语气 user prompt 例如：在网页端的聊天中，System prompt往往是系统预设的，用户不能随便更改。但是通常来讲，网站会提供一些设置，比如ChatGPT里有一个叫做Customize ChatGPT的功能，用户可以在里面写下自己的偏好，这些偏好就会变成System prompt的一部分。 AI Agent这种负责在模型、工具和最终用户之间传话的程序，叫做AI Agent。而这些提供给AI调用的函数或者服务，就叫做Agent Tool。不过这种结构可能有一个小问题。虽然在System Prompt里面写清楚了AI应该用什么格式返回，但是AI模型说到底是一个概率模型，还是有可能返回不对的内容。为了处理这些“不听话”的情况，很多AI Agent会在发现返回格式不对时，自动进行重试。现在市面上很多知名的Agent，比如Cline依然采用这种方式，这种反复的重试，人们总会觉得不太靠谱。于是大模型厂商开始出手了，ChatGPT、Claude、Gemini等 ...

多模态技术基础

发表于2025-05-01

多模态深度学习技术基础多模态任务图文跨模态检索图像描述视觉问答文本生成图像指称表达文本表示基于词嵌入的静态词表示词嵌入是指使用模型将语料中的每个词映射为一个低维、稠密、连续的向量的技术 Word2VecWord2Vec指一类神经网络语言模型，其中又分为两种CBOW和Skip-gram 导入——语言模型语言模型分为统计语言模型和神经网络语言模型统计语言模型：n-gram模型神经网络语言模型：NNLM模型 CBOW和Skip-gram CBOW：通过上下文来预测当前词 Skip-gram：用当前词来预测上下文 Word2Vec和NNLM的区别 NNLM的模型结构：对于语言模型，目的是想预测的更准确，而词向量矩阵知识一个副产品。 NNLM：重点是预测下一词，双层感知机$softmax(w_2(tanh(w_1 (xQ) +b_1))+b_2)$ Word2Vec：CBOW和Skip-gram的两种架构的重点都是得到一个$Q$矩阵，$softmax(w_1(xQ)+b_1)$ Word2Vec的缺点词向量不能表示多义–>ELMO GloVe基于循环神经网络的 ...

HarvardCS50

发表于2025-04-30

Introduction to Artificial Intelligence with PythonSearchTermsagent: entity that perceives its environment and acts upon that environment. state: a configuration of the agent and its environment. initial state: the state in which the agent begins. actions: choices that can be made in a state. ACTIONS(s) returns the set of actions that can be executed in state s. transition model: a description of what state results from performing any applicable action in any state. RESULTS(s,a) returns that sta ...

PyTorch函数

发表于2025-03-18

图像和视觉处理123torchvision.transforms.Resize() # 改变图像大小torchvision.transforms.Normalize() # 标准化图像数据torchvision.datasets # 提供常见的图像数据集加载接口神经网络构建1234torch.nn.Linear() # 全连接层torch.nn.Conv2d() # 2D卷积层torch.nn.ReLU() # ReLU激活函数torch.nn.Sigmoid() # Sigmoid激活函数训练和优化1234# 常见的优化器torch.optim.Adam(model.parameters(), lr=0.001)torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)torch.autograd.backward(model.parameters()) # 自动计算梯度模型保存和加载123# 用于保存和加载模型或张量torch.save(model.state_dict(), 'model. ...

深度学习

发表于2025-03-11

CNN-Attention网络Attention机制就是加权，目前实现形式主要包括三个方面：CNN-Attention(图像)、RNN-Attention(NLP)、self-Attention(机器翻译）。注意模块的开发大致可以分为两个方向: (1)增强特征聚合; (2)通道与空间注意相结合记录常用的CNN-Attention主要包括以下：SEnet（Squeeze-and-Excitation Network）在特征通道之间加入注意力机制，[论文][https://arxiv.org/abs/1709.01507]CBAM(Convolutional Block Attention Module) 在特征通道和特征空间两个维度上加入注意力机制，[论文][https://arxiv.org/abs/1807.06521]GSOP-Net(Global Second-order Pooling Convolutional Networks) 在特征通道之间加入注意力机制，[论文][https://arxiv.org/pdf/1811.12006.pdf]AA-Net(Attent ...

推荐系统学习笔记

发表于2025-02-16

小红书的推荐系统曝光→点击，停留几秒（说明不是误点）→阅读→点赞收藏转发评论转化流程（抖音没有下滑和点击）（短期）消费指标（不是衡量推荐系统好坏的根本指标）北极星指标（最关键的指标，衡量好坏的根本标准）通常来讲，点击率、点赞率与使用时长和阅读数量的涨跌是一致的，万一有冲突，以北极星指标为准。希望推荐系统能激励作者发布，让我们的内容池变大，优质内容池是核心竞争力；激励发布通常是由冷启动负责（后面再讲冷启动）实验流程算法工程师的工作：对模型、特征、策略、系统做改进离线实验的结果有参考价值，能大致反映出算法的好坏；但是离线实验并没有线上实验可靠，想最终判断算法的好坏还是需要做线上实验。北极星指标都是线上指标，只能通过线上实验获得，做离线实验无法得到。具体做法是开小流量AB测试，把用户随机分为实验组和对照组，实验组用新策略，对照组用就策略；对比两者的业务指标，判断新策略是否会显著由于旧策略；如果新策略显著优于旧策略，可以加大流量，最终推全推荐系统链路例如，小红书有上亿篇笔记，当刷新小红书的时候，系统会调用几十条召回通道，每条召回通道会取回几十到几百篇笔记 ...

JS学习笔记

发表于2025-02-06

JavaScript 基础 - 第1天了解变量、数据类型、运算符等基础概念，能够实现数据类型的转换，结合四则运算体会如何编程。体会现实世界中的事物与计算机的关系理解什么是数据并知道数据的分类理解变量存储数据的“容器” 掌握常见运算符的使用，了解优先级关系知道 JavaScript 数据类型隐式转换的特征介绍掌握 JavaScript 的引入方式，初步认识 JavaScript 的作用引入方式JavaScript 程序不能独立运行，它需要被嵌入 HTML 中，然后浏览器才能执行 JavaScript 代码。通过 script 标签将 JavaScript 代码引入到 HTML 中，有两种方式：内部方式通过 script 标签包裹 JavaScript 代码 12345678910111213<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>JavaScript 基础 - 引入 ...

HTML+CSS学习笔记

发表于2024-12-28

h5(html5)+css3+移动端第一部分基础知识1. 网页1.1 什么是网页网页是构成网站的基本元素元素：文字声音视频链接后缀名：.htm 或者 .html （俗称HTML文件） 1.2 什么是HTML（重点）HTML指的是超文本标记语言（Hyper Text Markup Language),用来描述网页的一种语言。 HTML不是一种编程语言，而是一种标记语言（markup language) 标记语言是一套标记标签（markup tag) 超文本有两层含义：可以加入图片，声音，动画，多媒体等内容（超越了文本限制）从一个文件跳转到另一个文件，与世界各地的文件连接（超级链接文本） 1.3 网页的形成网页由网页元素组成，这些元素是利用html标签描述出来，然后通过浏览器解析来显示给用户的。前端人员开发代码——>浏览器显示代码（解析，渲染）——>生成最后的Web页面 1.4 网页总结网页是由图片，链接，文字，声音，视频等元素组成，其实就是一个html文件（.htm或者.html) 网页生成制作：有前端人员书写HTML文件，然后浏览器打开，就能看到网页。 ...

机器学习

发表于2024-12-26

机器学习初步机器学习经典定义：利用经验改善系统自身的性能[T.Mitchell 教科书，1997] 典型的机器学习过程机器学习有坚实的理论基础计算学习理论（Computational learning theory) 最重要的理论模型： PAC（Probably Approximately Correct，概率近似正确）learning model [Valiant, 1984]$$P(|f(x)-y|\leq\epsilon)\geq1-\delta$$ 基本术语 instance是没有结果的；example是有结果的假设（hypothesis):$$f(x)$$ 真相（ground-truth): $$y$$ 学习器（learner）：学到的模型关于输出部分的术语：分类，回归二分类，多分类正类，反类正类不一定就是好西瓜，坏西瓜也可能是正类。这只是对A和B的一种抽象的说法。通常认为这两类是可交换的。可交换意味着这两类满足的很多性质是差不多的，比如在数据集里，这两类的比例是差不多的。关于学习任务：监督学习（supervised lea ...