2018年对话系统相关论文 发表于 2018-12-01 | | 阅读次数: 语料库相关2018EMNLP:MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling这篇是2018EMNLP最佳论文之一。 这篇文章构建了一个Multi-Domai ... 阅读全文 »
对话系统综述 发表于 2018-11-28 | | 阅读次数: 1. 概要本文是阅读京东数据团队的论文《A Survey on Dialogue Systems:Recent Advances and New Frontiers》以及微软亚洲研究院周明院长的演讲《自然语言对话引擎》的一些摘要。希望通过该论文首先对dialogue system的常用方法有一个了解。 阅读全文 »
“周志华《机器学习》笔记01 模型评估” 发表于 2017-10-18 | | 阅读次数: 终于放假了,也有时间写博客了。最近在看西瓜书,记一下自己的理解和笔记。比较基础的内容已经在Coursera的机器学习课程笔记中写过了,为了节约时间就不再赘述了,只记一些之前课程里没有深入到的概念。绪论就不写了,直接从第二章模型评估开始写吧。 2.1 经验误差与过拟合【错误率】:分类错误的样本数占样本 ... 阅读全文 »
Stanford cs224d 深度学习与nlp(二) 高级词向量 发表于 2017-08-31 | | 阅读次数: SGD与词向量在每一个窗口中,我们最多只有2m+1个单词,所以 会非常稀疏 我们实际上只更新了出现在窗口中的那些词的列 所以我们只需要更新词向量矩阵U和V中的少数列,或者为每个词和词向量建立一个hash映射 负采样词向量矩阵的量级很大,所以下面 ... 阅读全文 »
Stanford CS224d 深度学习与自然语言处理笔记(一) word2vec 发表于 2017-08-29 | | 阅读次数: 前言 一直对nlp比较感兴趣,最近开始学习Stanford大学cs224d课程,对深度学习在nlp上的应用进行一些了解。之后每节课上完都会根据课程内容和一些其他人的博客在博客理笔记。第一节课绪论的内容非常简单,就不写了。从第二节课word2vec开始写起。 计算机中如何表示一个词的意思 word v ... 阅读全文 »
PCA简介 发表于 2017-08-20 | | 阅读次数: PCA与LDA与许多相似之处,都是一种将高维数据降维的方法,区别是LDA是带标签的,而PCA是不带标签的,所以是一种unsupervised learning。上一篇写过了LDA的数学原理,所以接着上一篇总结一下PCA的数学原理。同时感到上一篇还有一些地方没有写明白,在参考了几篇文章后,在这篇博文中 ... 阅读全文 »
SVD简介 发表于 2017-08-15 | | 阅读次数: 引言奇异值分解可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所 ... 阅读全文 »
Stanford cs224d 深度学习与nlp(三)词窗分类与神经网络 发表于 2017-08-15 | | 阅读次数: 分类问题前面我们讨论了如何构建、训练、评估一个词向量,这些都属于内部性任务。我们构建一个好的词向量的目的还是为了解决实际问题(也叫做外部任务)。下面我们讨论一下处理外部任务的一般方法。 问题描述大部分nlp的任务都可以看作分类问题,如情感分析,就是判断指代的情况是褒义、贬义还是中性。命名实体识别,就 ... 阅读全文 »
线性回归的python实现 发表于 2017-08-05 | | 阅读次数: 基本的线性回归1234567891011121314151617181920212223import numpy as npdef loadDataSet(Filename): fr=open(Filename) numFeat=len(fr.readline().split('\t') ... 阅读全文 »
LDA简介 发表于 2017-08-04 | | 阅读次数: LDALDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。LDA的原理是,将带标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,相同类别的点,将会在投影后的空间中更接近。要说明 ... 阅读全文 »