记录

哈哈,随心记

vim

"vim"

nohup vim操作 杀进程 ubuntu18.04LTS设置静态IP 创建用户 创建用户: 创建用户设置密码: 修改用户权限: 删除用户: xhsell下文件的传输 将普通用户加入到root权限 其他命令 一点问题 nohup 实现后台运行指令不挂起。 示例: 1 2 3...

SVM

"支持向量机"

参考 参考 合页损失

tigergraph

"知识图谱"

安装以及基本操作 安装 基本操作 安装以及基本操作 安装 下载地址 安装: 1 2 3 tar xzf <your_tigergraph_package>.tar.gz cd tigergraph*/ sudo ./install.sh 基本操作 数据准备: 1 2 3 4 5 6 7 8 9 10 11 12...

图卷积

"图卷积"

基本概念 基本公式 应用 方向 参考 基本概念 传统的卷积神经网路只能处理欧式空间的数据,因为这些领域的数据具有平移不变性。平移不变性的优点使得我们可以再输入数据空间定义全局共享的卷积核,从而定义卷积神经网络。但是在图数据中,不存在平移变性,所以这对图数据上的卷积神经网络的定义提出了挑战。 主要的挑战: 1 2 3 图数据是非欧式空间:每个节点的结构各异,不满足...

编辑距离

"编辑距离"

概念 公式以及解释 实现 应用 概念 编辑距离又称Levenshtein Distance,主要用来衡量两个序列的相似程度。具体指的是: 1 2 3 4 5 6 两个序列之间,由一个序列转换到另一个序列所需要的的次数 主要的操作包含:插入、删除、修改 例子: abc->ab:将abc删除一个字符即可,编辑距离为1 ab->abc:在ab后加一个字符即可,编辑...

bert

"bert家族"

bert XLNET RoBERTa ALBERT ELECTRA ERNIE BERT-WWM SpanBERT TinyBERT DistillBERT 参考 bert 输入: 1 2 3 Token Embedding:词向量 Segment Embedding:句子特征的嵌入 Position Embedding:词位置特征 输出:...

Tinybert

"bert家族"

基础 比较直接的方法 DistillBert Tinybert 参考 基础 缩小模型的方法: 1 2 3 Distillation:蒸馏,将大模型(可以是集成模型)的精华注入到小模型,使其具备接近大模型的能力。 Quantizationb:量化,将高精度模型用低精度表示。 Pruning:剪枝,将模型中作用小的部分舍弃。 ==注意:对于nlp来说,蒸馏时目前比较实...

bert

"bert"

准备 modeling.py BertConfig是为加载配置文件所定义的对象 BertModel对象: gelu embedding_lookup embedding_postprocessor create_attention_mask_from_input_mask attention...

classfication

"分类"

1 2 一些trick 1 2 一些trick 对于分词器:在有接预训练词向量的前提下,如果可以找到预训练词向量所使用分词器最好,这样可以防止带来oov问题。找不到也要尝试使用与预训练词向量所使用的分词器最接近的分词器。 对于中文字向量:最好也预训练一下,同时预训练时候的窗口开大一点。 对于数据噪声:一种是数据集杂乱,比如文本的口语或者是生成的文本,一种是标签标注...

词向量

"word embedding"

为什么需要做词向量 独热编码 神经网络语言模型 语言模型 神经网络语言模型 word2vec CBOW Skip-gram 计算效率 Glove 共现矩阵 模型公式 推导过程 fasttext e...