欢迎来到 ailogc
关于这个站点ailogc 上线了。这里将记录我在人工智能领域的学习心得,以及日常发现的实用工具资源。 为什么做这个站AI 技术发展太快。每天有新的模型、新的工具、新的论文。不记录就会忘。 这个站有两个目标: 学习笔记:用自己的话把学到的知识写下来。写作是最好的思考方式。 工具整理:把用过的好工具系统性地整理分类。自己方便回查,也希望对他人有用。 主要内容方向 大语言模型原理:Transformer、注意力机制、训练推理 Prompt 工程:提示词技巧、模板设计、实践案例 论文阅读笔记:重要 AI 论文的解读 实战记录:模型部署、工具搭建、踩坑复盘 工具评测:值得推荐的 AI 工具详细介绍
从零理解 Transformer 注意力机制
为什么需要注意力机制在处理序列数据时,传统 RNN 存在两个核心问题: 长距离依赖衰减:信息在序列传递中逐渐丢失 无法并行计算:每一步依赖上一步的输出 注意力机制优雅地解决了这两个问题。 Scaled Dot-Product Attention核心公式: 1Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) * V 其中: Q (Query):查询矩阵——「我想找什么」 K (Key):键矩阵——「我有什么特征标签」 V (Value):值矩阵——「我的实际内容是什么」 sqrt(d_k):缩放因子,防止点积过大导致 softmax 梯度消失 直观理解把注意力想象成在图书馆查资料: 你有一个问题(Query) 每本书有索引标签(Key) 书有实际内容(Value) 注意力机制做的事情就是:计算问题与每个标签的相似度,按相似度加权汇总所有书的内容。 下一步理解了注意力机制,就可以进一步学习 Multi-Head Attention 和完整的 Transformer 架构。
Prompt Engineering 实用技巧汇总
基本原则写好 prompt 没有银弹,但有几条反复验证过的原则: 1. 明确角色与任务给模型设定清晰的角色和任务边界: 你是一位资深 Python 代码审查者。请审查以下代码,关注性能问题和安全隐患。 比直接说「review 这段代码」效果好得多。 2. 提供示例(Few-Shot)一个示例胜过千言万语。 3. 分步骤引导(Chain of Thought)对复杂任务,让模型先思考再回答: 请按以下步骤分析: 先总结这段代码的功能 列出潜在的性能瓶颈 对每个瓶颈提出改进建议 给出优化后的完整代码 常用技巧速查 场景 技巧 示例 格式控制 明确输出模板 请按 JSON 格式输出,包含 name、summary、tags 字段 长度控制 指定字数范围 用 50 到 100 字概括以下内容 风格控制 给出风格参照 以科普文章风格写作,面向非技术读者 幻觉抑制 要求标注置信度 如果不确定,请注明「待核实」