记录

哈哈,随心记

kaldi

"语音识别工具"

安装 测试 参考 安装 1 2 3 4 5 6 7 8 9 git上下载https://github.com/kaldi-asr/kaldi cd kaldi/tools extras/check_dependencies.sh make -j 8 进入src目录 cpu版本 ./configure --use-cuda=no gpu版本 ./configure ...

ABtest

"ABtest"

原理 参考 原理 主要用于搜索相关性的评分,概况如下:对Query进行语素解析,生成语素$q_i$,然后对于搜索结果D,计算语素$q_i$与D的相关性得分,最后将$q_i$相对于D的相关性得分进行加权求和,从而得到最终的query和D的相关性得分。一般公式如下: \(\operatorname{Score}(Q, d)=\sum_{i}^{n} W_{i} \cdot R\le...

ABtest

"ABtest"

定义 基础概念 正交试验与互斥实验 实验分组 假设检验 假设检验中的P值 置信度 参考 定义 AB测试是为明确某个问题,制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些...

语音数据增强

"语音识别"

SpecAugment 参考 SpecAugment 构建一种直接作用于log mel频谱图的语音数据增强策略,从而帮助网络学习有用的特征。动机主要是:特征应该对在时间方向上的变形、频率信息的部分丢失、小段语音的丢失具有鲁棒性。 增强的策略有一下三种: 时间扭曲: 通过tensorflow的函数稀疏图像扭曲来应用与时间轴。给定具有$\tau$个时间步长的log mel频谱图...

搜索

"搜索"

概述 搜索前 技术方案 搜索中 技术方案 搜索后 技术方案: 内容纠错 筛选器 无结果或者少结果 参考 概述 通常搜索可以分为三步: 1 2 3 对用...

语音识别

"语音识别"

特征抽取 MFCC 预加重 分帧 加窗 快速傅里叶变换 三角带通滤波器 对数计算 DCT离散余弦变换 fbank 比较 评价指标 参...

未登录词

"未登录词"

一般处理 好久没更新了,最近在忙着写毕业论文,刚好写到与优化相关部分,想起了之前在知乎上收藏过的一篇很好的文章,重新看一遍还是觉得获益良多,特意转载。原文链接见这里,侵删。 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出...

docker部署

"部署"

安装 配置 实施 windows下 环境配置 删除容器 push容器 docker链接pycharm 服务部署 一些问题 端口暴露问题 参考 安装 通常linux系统自带docker 剩下的就需要自己拉去镜像,我是在阿里云拉取的: 1 2 3 ...

gunicorn部署

"部署"

环境 配置文件: 实施 环境 1 2 pip install gevent pip install gunicorn 配置文件: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43...

kenlm

"统计语言模型"

安装 快速使用 安装碰到问题 python接口 参考 安装 1 2 3 4 5 wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz mkdir kenlm/build cd kenlm/build cmake .. make -j2 快速使用 1 2 3 4 5 6 7 8 9 10 训练: bui...