最大熵模型的原理用通俗的话解释很好理解,但是对于模型的数学定义却不是那么容易理解。其实,网上有大量的论文、笔记、幻灯片介绍最大熵模型,这篇文章主要是我对该模型的一些笔记和推导。 最大熵模型的原理最大熵原理是统计学习的一般原理,将它应用到分类问题时得到最大熵模型。在实际处理分类问题时,我们常常将数据看成是有对应关系的实例。实例称为Event,每个Event包含一个上下文环境Context和对应类别Outcome,是一个Context和Outcome的二元组。 假设分类模型学习的是一个条件概率分 ...
Read more »

临近春节,又到了回家要压岁钱的时候了。这话虽说有些不要脸,但其实印象中春节除了和家人团聚,这确实是最令我兴奋的部分了。 拿了压岁钱就可以买下自己心仪已久的物件了。转念一想,2015年这一年我基本把自己想要的东西都买全了。突然觉得好像没什么愿望了呢。。。胡说,还没找到女朋友呢!(逃…. 宿舍楼的同学们也被这喜庆的气氛所感染,贴出了语不惊人死不休的对联: 虽说平仄不对,也不押韵,但是这位同学的娱乐精神还是很棒的。 2016年开始还没有多久,就收到了一份让我惊喜的新年礼物,是一台kindle。谢谢王 ...
Read more »

以下的内容是我在根据《统计学习方法》一书第8章所撰写的总结笔记。原书中提到的公式大多在此推导了一遍,以便日后温习所需。 关键字:多个基本分类器线性组合 提升方法常用的统计学习方法中有一种叫做提升(boosting)方法,应用十分广泛。在分类问题中,提升方法利用样本学习出多个分类器,并将这些分类器进行线性组合,提高分类性能。 这其实是基于这样一种思想:对于一个复杂任务来说,讲多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独做出的判断好。实际上,就是俗话所说的“三个臭皮匠顶个诸 ...
Read more »

记忆中,我对于节日和生日这样的日子都是没有特殊感觉的。对于我来说,唯一的区别就是有的日子放假有的却仍要干活。看着朋友一到节日各种开心的样子,我还有点羡慕他们。 感觉自己一直是这个样子的,对生活中的事也越来越不上心。前几天跨年的时候,朋友都在搞活动要庆祝、要狂欢,我却在想这其实不过又是一个普通的日子罢了吧,没什么特殊意义来着。时间是连续的,从感受上来说,过了今天到明天和是不是跨年并没有多大的区别。 然后我还是正常时间睡觉,第二天正常赖床,正常去教研室。嗯…这里的正常换成普通可能会比较带感,听过普 ...
Read more »

因为本科毕业设计的课题是中文分词,与此结缘,研究生入学后也就继续在这个方向上学习与实践。这篇文章是以我现有的已实现分词算法为基础而编写的,介绍基于感知器实现一个中文分词算法的基本原理。 基于字标注的分词方法基于字标注的方法的实际上是构词方法,即把分词过程视为字在一串字的序列中的标注问题。由于每个字在构造成词的时候,都有一个确定的位置。也即对于词中的一个字来说,它只能是词首字、词中字、词尾字或单字词一个身份。 以常用的4-tag标注系统为例,假如规定每个字最多有四个构词位置,即: B(词首) ...
Read more »

个人的理解基于统计的命名实体识别与基于字标注的中文分词在方法思想上是有很大相似之处的,都是给token不同的角色标注,统计相关的初始概率、转移概率和发射概率,最后利用Viterbi算法进行解码,求得最优标注序列。 不同之处在于,命名实体识别的角色标注是高度定制的。首先就根据人名、地名、机构名分为了三类标注集合,然后再根据是否有嵌套,并结合专家知识进行设计。而基于字标注的中文分词方法一般使用的是4-tag标注系统(B, M, E, S)。 角色标注的增多,很大程度上是与中文命名实体数量众多且构成规 ...
Read more »