记录

哈哈,随心记

llama

"llama"

Llama 结构 加速训练 指令微调 Pre-normalization优势 其它 Llama2 数据清洗 改进点 SFT llama2-chat reward model ...

对齐

"对齐"

LIMA:Less Is More for Alignment

微调

"微调"

为什么需要高效微调 Adapter Tuning Prefix Tuning prompt tuning p-tuningv1 p-tuningv2 lora 基础 训练策略 qlora Quantize 4-bit NormalFloat Double Quanti...

matplotlib

"matplotlib"

中文乱码问题 中文乱码问题 删除缓存 1 2 3 import matplotlib as mpl print(mpl.get_cachedir()) # /Users/xiewenwen/.matplotlib 下载字体SimHei fc-cache -fv 刷新字体缓存 测试: ```python import matplotlib as ...

Github

"Hello World"

github page 设置过程 制作自己的主页 支持Latex github git操作 git再windows中密码出错 git生成ssh question google Colab .git删除大文件 git errot github page 设置过程 在github中新建仓库 ...

token

"token"

大词表优劣 优势 劣势 参考 大词表优劣 优势 LLM通常是自回归,解码的token越多,速度越慢。通过增大词表就可以缩短序列的长度,提高压缩比率。也就是说模型处理相同的序列所对应的token会变少(极端情况下每句话都对应一个token,则一个序列就是一个token对应,当然不可能这么做)相应的解码步数也会变少,从而提升了解码速...

softmax

"softmax"

softmax公式 什么是上溢下溢问题 softmax计算时的问题 如何解决 参考 softmax公式 \(\operatorname{Softmax}\left(z_i\right)=\frac{\exp \left(z_i\right)}{\sum_j \exp \left(z_j\right)}\) 什么是上溢下溢问题 溢出指的是超过二进制的精度。上溢出值为in...

transformer

"transformer"

来源 Transformer整体结构 输入编码 self-Attention multi-head Atterntion Encoder-Decoder Attention 损失层 位置编码 并行 encoder decoder 参数计算 参数量 训练所占显存 ...

组件优化

"组件优化"

RMSNorm AdamW SwiGLU GLU FFN及其变体 GLU及其变体 FFN变体和GLU变体结合 all_reduce a cosine learning rate schedule causal multi-head attention 参考 RMSNorm layerNo...

Gpt