AI · NLP · ML · Engineering

Practical AI Notes, Systems, and Engineering

围绕 NLP、LLM、机器学习与工程实践,持续沉淀值得复用的方法、系统设计、实验记录与项目思考。

Focus NLP / LLM / ML
Style Notes · Practice · Systems
Content Articles · Experiments · Engineering
Latest Posts

Tinybert

"bert家族"

基础 比较直接的方法 DistillBert Tinybert 参考 基础 缩小模型的方法: 1 2 3 Distillation:蒸馏,将大模型(可以是集成模型)的精华注入到小模型,使其具备接近大模型的能力。 Quantizationb:量化,将高精度模型用低精度表示。 Pruning...

bert

"bert"

准备 modeling.py BertConfig是为加载配置文件所定义的对象 BertModel对象: gelu embedding_lookup embedding_postprocessor create_attent...

classfication

"分类"

1 2 一些trick 1 2 一些trick 对于分词器:在有接预训练词向量的前提下,如果可以找到预训练词向量所使用分词器最好,这样可以防止带来oov问题。找不到也要尝试使用与预训练词向量所使用的分词器最接近的分词器。 对于中文字向量:最好也预训练一下,同时预训练时候的窗口开大一点。 ...

词向量

"word embedding"

为什么需要做词向量 独热编码 神经网络语言模型 语言模型 神经网络语言模型 word2vec CBOW Skip-gram 计算效率 Glove 共现矩阵 ...

文本相似度

二叉树

"数据结构"

二叉树的遍历 代码 二叉树的遍历 前序遍历:访问根节点->依照前序遍历访问左子树->依照前序遍历访问右子树 中序遍历:中序遍历左子树->根节点->中序访问右子树 后序遍历:后序遍历左子树->后序遍历右子树->根节点 ...

集成学习

"集思广益"

一、基本概念 二、学习器的选择 三、随机森林 四、AdaBoost 4.1、算法流程 4.2、\(Adaboost\)前向分布算法 4.3、总结 五、$GDBT$ 六、$XGBOOST$ 6.1、基本思想 ...

问题总结

"面试问题"

公司面试问题 微盟 平安 一览群智 网络收集问题 机器学习理论 深度学习 NLP 图像 推荐系统 代码 自注意力 ...

协同过滤

"推荐"

概述 基于用户的协同过滤 基于物品的推荐系统 比较 协同过滤的一些问题 代码 参考 概述 考虑用户之间的相似度或者考虑物品之间的相似度。比如要为一个用户做出推荐,可以先找到与当前用户相似的用户,然后在里面找到当前用户没有购买过的物品推荐过去。同时考虑物品之间的相似度的话,就是针对需...

异常值处理

"机器学习"

异常点检测 异常值处理 异常点检测 简单统计 3\(\alpha\)原则,假设数据服从正太分布,异常值超过3倍的标准差就视其为异常值,正负\(3\alpha\)的概率是99.7%。 箱型图,通过四分位距来对异常值检测,超过上四分位+1.5四分位距离或者下四分位-1.5四分位距离称为异常...