最大熵模型与逻辑回归模型等价性证明假设现在有一个二分类问题,即$y\in {0, 1}$,而$x \in \mathcal{R}^N$ (1)在LR模型中,假设参数为$\theta \in \mathcal{R}^N$,则有模型定义为: $$P(y=1|x) = \frac{\exp(\theta^Tx)}{1 + \exp(\theta^Tx)}$$ $$ P(y=0|x) = 1 - P(y=1|x) =\frac{1}{1 + \exp(\theta^Tx)}$$ (2)对于ME模型,其定 ...
Read more »

CRF的学习笔记 本文是针对《统计学习方法》第11章相关部分的纠错和更为详细的说明。 条件随机场的矩阵形式假设现有一个线性链条件随机场$P_w(y|x)=\frac{1}{Z(x)}\exp\sum_{k=1}^K w_k f_k(y,x)$,其中$Z(x)=\sum_y \exp \sum_{k=1}^K w_k f_k(y,x)$。 表示对给定观测序列x,相应的标记序列y的条件概率。引进特殊的起点和终点状态标记$y_0=start, y_{n+1}=stop$,这时条件随机场可以通过矩阵形 ...
Read more »

理解LSTM网络 本文译自:colah’s blog: Understanding LSTM Networks Posted on August 27, 2015. 循环神经网络(Recurrent Neural Networks)人类并不是每时每刻从空白处开始思考的。在阅读这篇文章时,你如何理解每个词都基于你对其之前的词的理解。你并不会将所有的思想丢弃而开始重新思考。人类的思想是具有持续性的。 传统的神经网络模型不能以这样的方式运作,这似乎是一个巨大的弊端。例如,想象你试图区分电影中每个时间 ...
Read more »

背景2016年9月24日的上海 EMNLP 2016 论文研讨会之行结束之后,愈发觉得深度学习在NLP领域内的应用广泛了起来。虽说自己也一直觉得深度学习在NLP任务上的可解释性一直不明了,有些任务它就是好但你说不出它为什么好,所以一直有些不敢试水。但现在觉得再不跟上步伐,可能就真的要被别人甩开了。 于是回到学校之后,决定开始学习TensorFlow。作为一个入口,慢慢学习如何用Deep Learnning进行自然语言处理。 TensorFlow 选择TensorFlow作为入门的工具,是经过同组 ...
Read more »

LeetCode 146. LRU Cache 链接:https://leetcode.com/problems/lru-cache/ 难度:Hard 标签:Design 描述:Design and implement a data structure for Least Recently Used (LRU) cache. It should support the following operations: get and set. get(key) - Get the value (wil ...
Read more »

LeetCode 刷题记录 争取每日一题~ 2015.8~2016.8 期间未做笔记的题目共71题,具体可查看github repo: Leetcode-exercise 2016.8.1610. Regular Expression Matching 链接:https://leetcode.com/problems/regular-expression-matching/ 难度:Hard 标签:Dynamic Programming, Backtracking, String 题目的描述很 ...
Read more »

什么是Electron If you can build a website, you can build a desktop app. Electron is a framework for creating native applications with web technologies like JavaScript, HTML, and CSS. It takes care of the hard parts so you can focus on the core of your a ...
Read more »

使用HMM的中文词性标注程序这两天做了一个使用隐马尔可夫模型(HMM)的中文词性标注的简单程序,虽说是一个试水性质的探索,但这其中的某些小细节仍值得研究。 有关HMM的模型介绍不再赘述,对于中文词性标注,我们做出的假设是:文本中的句子是观测状态序列,句子中的每一个词是一个观测状态,其词性标注就是隐含状态。那么要得到这个模型的具体信息,我们需要得到$(\pi, A, B)$这三个模型参数。 参数计算设隐含状态空间为$S$,$\pi$是HMM的初始概率矩阵。$\pi_i$为隐含状态$i$在0时刻(即 ...
Read more »

定义词性用来描述一个词在上下文中的作用。词性标注(Part-of-Speech或POS tagging)是指对于句子中的每个词都指派一个合适的词性,也即确定每个词是名词、动词、形容词或其他词的过程,又称词类标注或者简称标注。给定一个句子(或词序列): 我 中 了 一张 彩票 。 对其的标注结果可以是: 我/代词 中/动词 了/助词 一/数词 张/量词 彩票/名词 。/标点 通常为了简化表达,人们常使用一个定义好的标注集去表达上面的标注结果,例如“r”表示代词,“n”表示名词。使用北大计算所词性标 ...
Read more »

Makefile介绍以前在使用windows时,编写一个C/C++项目往往使用Visual Studio,所有头文件、源文件、资源文件等等在编译时IDE都已经做好了所有的相关工作,我只是点一下编译->链接->运行而已。去年将主力机更换为MacBook Pro后,我有很长一段时间没有再写过一个包含多个文件的C++项目了,等真正需要写的时候又懵了,而苹果的Xcode又实在用不习惯,故而学习Makefile的使用方法。 Makefile关系到了整个工程的编译规则。一个工程中的源文件不计数, ...
Read more »