AI · NLP · ML · Engineering

Practical AI Notes, Systems, and Engineering

围绕 NLP、LLM、机器学习与工程实践,持续沉淀值得复用的方法、系统设计、实验记录与项目思考。

Focus NLP / LLM / ML
Style Notes · Practice · Systems
Content Articles · Experiments · Engineering
Latest Posts

定时任务

"定时"

安装 基本组件 使用步骤 使用示例 date interval cron 参考 安装 1 pip install apscheduler 基本组件 触发器triggers:主要包含调度逻辑,每个昨天都有自己的触发器,来确...

socket

"网络编程"

参考 参考 Python3的文件上传

Torch

«««< HEAD layout: post title: “torch” subtitle: “ "工具"” date: 2020-10-28 18:00:00 mathjax: true author: “zwt” header-img: “img/post-b...

kaldi

"语音识别工具"

安装 测试 参考 安装 1 2 3 4 5 6 7 8 9 git上下载https://github.com/kaldi-asr/kaldi cd kaldi/tools extras/check_dependencies.sh make -j 8 进入src目录 cpu版本 ./conf...

ABtest

"ABtest"

原理 参考 原理 主要用于搜索相关性的评分,概况如下:对Query进行语素解析,生成语素$q_i$,然后对于搜索结果D,计算语素$q_i$与D的相关性得分,最后将$q_i$相对于D的相关性得分进行加权求和,从而得到最终的query和D的相关性得分。一般公式如下: \(\operatorname{Sc...

ABtest

"ABtest"

定义 基础概念 正交试验与互斥实验 实验分组 假设检验 假设检验中的P值 置信度 参考 定义 AB测试是为明确某个问题,制作两个(A/B)或多个(A/B/n)版本...

语音数据增强

"语音识别"

SpecAugment 参考 SpecAugment 构建一种直接作用于log mel频谱图的语音数据增强策略,从而帮助网络学习有用的特征。动机主要是:特征应该对在时间方向上的变形、频率信息的部分丢失、小段语音的丢失具有鲁棒性。 增强的策略有一下三种: 时间扭曲: 通过tensorflow的函数...

搜索

"搜索"

概述 搜索前 技术方案 搜索中 技术方案 搜索后 技术方案: 内容纠错 筛选器 无结果或者少结果 ...

语音识别

"语音识别"

特征抽取 MFCC 预加重 分帧 加窗 快速傅里叶变换 三角带通滤波器 对数计算 DCT离散余弦变换 ...

未登录词

"未登录词"

一般处理 好久没更新了,最近在忙着写毕业论文,刚好写到与优化相关部分,想起了之前在知乎上收藏过的一篇很好的文章,重新看一遍还是觉得获益良多,特意转载。原文链接见这里,侵删。 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药...