记录

哈哈，随心记

vim

"vim"

nohup vim操作杀进程 ubuntu18.04LTS设置静态IP 创建用户创建用户：创建用户设置密码：修改用户权限：删除用户： xhsell下文件的传输将普通用户加入到root权限其他命令一点问题 nohup 实现后台运行指令不挂起。示例： 1 2 3...

Posted by zwt on August 11, 2020

SVM

"支持向量机"

参考参考合页损失

Posted by zwt on August 7, 2020

tigergraph

"知识图谱"

安装以及基本操作安装基本操作安装以及基本操作安装下载地址安装： 1 2 3 tar xzf <your_tigergraph_package>.tar.gz cd tigergraph*/ sudo ./install.sh 基本操作数据准备： 1 2 3 4 5 6 7 8 9 10 11 12...

Posted by zwt on August 7, 2020

图卷积

"图卷积"

基本概念基本公式应用方向参考基本概念传统的卷积神经网路只能处理欧式空间的数据，因为这些领域的数据具有平移不变性。平移不变性的优点使得我们可以再输入数据空间定义全局共享的卷积核，从而定义卷积神经网络。但是在图数据中，不存在平移变性，所以这对图数据上的卷积神经网络的定义提出了挑战。主要的挑战： 1 2 3 图数据是非欧式空间：每个节点的结构各异，不满足...

Posted by zwt on August 5, 2020

编辑距离

"编辑距离"

概念公式以及解释实现应用概念编辑距离又称Levenshtein Distance，主要用来衡量两个序列的相似程度。具体指的是： 1 2 3 4 5 6 两个序列之间，由一个序列转换到另一个序列所需要的的次数主要的操作包含：插入、删除、修改例子： abc->ab：将abc删除一个字符即可，编辑距离为1 ab->abc：在ab后加一个字符即可，编辑...

Posted by zwt on July 13, 2020

bert

"bert家族"

bert XLNET RoBERTa ALBERT ELECTRA ERNIE BERT-WWM SpanBERT TinyBERT DistillBERT 参考 bert 输入： 1 2 3 Token Embedding:词向量 Segment Embedding:句子特征的嵌入 Position Embedding:词位置特征输出：...

Posted by zwt on July 6, 2020

Tinybert

"bert家族"

基础比较直接的方法 DistillBert Tinybert 参考基础缩小模型的方法： 1 2 3 Distillation:蒸馏，将大模型（可以是集成模型）的精华注入到小模型，使其具备接近大模型的能力。 Quantizationb：量化，将高精度模型用低精度表示。 Pruning：剪枝，将模型中作用小的部分舍弃。 ==注意：对于nlp来说，蒸馏时目前比较实...

Posted by zwt on July 6, 2020

bert

"bert"

准备 modeling.py BertConfig是为加载配置文件所定义的对象 BertModel对象： gelu embedding_lookup embedding_postprocessor create_attention_mask_from_input_mask attention...

Posted by zwt on July 1, 2020

classfication

"分类"

1 2 一些trick 1 2 一些trick 对于分词器：在有接预训练词向量的前提下，如果可以找到预训练词向量所使用分词器最好，这样可以防止带来oov问题。找不到也要尝试使用与预训练词向量所使用的分词器最接近的分词器。对于中文字向量：最好也预训练一下，同时预训练时候的窗口开大一点。对于数据噪声：一种是数据集杂乱，比如文本的口语或者是生成的文本，一种是标签标注...

Posted by zwt on July 1, 2020

词向量

"word embedding"

为什么需要做词向量独热编码神经网络语言模型语言模型神经网络语言模型 word2vec CBOW Skip-gram 计算效率 Glove 共现矩阵模型公式推导过程 fasttext e...

Posted by zwt on June 23, 2020