文本分类入门(番外篇)特征选择与特征权重计算的区别

2016-02-19 17:28 12 1 收藏

下面是个简单易学的文本分类入门(番外篇)特征选择与特征权重计算的区别教程,图老师小编详细图解介绍包你轻松学会,喜欢的朋友赶紧get起来吧!

【 tulaoshi.com - Web开发 】

  在文本分类的过程中,特征(也可以简单的理解为词)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似如何使用TFIDF做特征选择或者卡方检验量化权重后每篇文章都一样等等困惑。

  文本分类本质上也是一个模式识别的问题,因此我想借用一个更直观的例子来说说特征选择和权重量化到底各自是什么东西,当然,一旦解释清楚,你马上就会觉得文本分类这东西实在白痴,实在没什么技术含量,你也就不会再继续看我的技术博客,不过我不担心,因为你已经踏上了更光明的道路(笑),我高兴还来不及。

  想想通过指纹来识别一个人的身份,只看一个人的指纹,当然说不出他姓甚名谁,识别的过程实际上是比对的过程,要与已有的指纹库比较,找出相同的,或者说相似到一定程度的那一个。

  首要的问题是,人的指纹太复杂,包含太多的位置和几何形状,要完全重现一个人的指纹,存储和计算都是大麻烦。因此第一步总是一个特征选择的问题,我们把全人类的指纹都统计一下,看看哪几个位置能够最好的区分不同的人。显然不同的位置效果很不一样,在有的位置上,我的指纹是是什么形状,其他人也大都是这个形状,这个位置就不具有区分度,或者说不具有表征性,或者说,对分类问题来说,它的重要程度低。这样的位置我们就倾向于在识别的时候根本不看它,不考虑它。

  那怎么看谁重要谁不重要呢?这就依赖于具体的选择方法如何来量化重要程度,对卡方检验和信息增益这类方法来说,量化以后的得分越大的特征就越重要(也就是说,有可能有些方法,是得分越小的越重要)。

  比如说你看10个位置,他们的重要程度分别是:

   1 2   3   4   5 6   7 8 9  10

  (20,5,10,20,30,15,4,3,7, 3)

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/webkaifa/)

  显然第1,第3,4,5,6个位置比其他位置更重要,而相对的,第1个位置又比第3个位置更重要。

  识别时,我们只在那些重要的位置上采样。当今的指纹识别系统,大都只用到人指纹的5个位置(惊讶么?只要5个位置的信息就可以区分60亿人),这5个位置就是经过特征选择过程而得以保留的系统特征集合。假设这个就是刚才的例子,那么该集合应该是:

  (第1个位置,第3个位置,第4个位置,第5个位置,第6个位置)

  当然,具体的第3个位置是指纹中的哪个位置你自己总得清楚。

  确定了这5个位置之后,就可以把一个人的指纹映射到这个只有5个维度的空间中,我们就把他在5个位置上的几何形状分别转换成一个具体的值,这就是特征权重的计算。依据什么来转换,就是你选择的特征权重量化方法,在文本分类中,最常用的就是TFIDF。

  我想一定是权重这个词误导了所有人,让大家以为TFIDF计算出的值代表的是特征的重要程度,其实完全不是。例如我们有一位男同学,他的指纹向量是:

  (10,3,4,20,5)

  你注意到他第1个位置的得分(10)比第3个位置的得分(3)高,那么能说第1个位置比第3个位置重要么?如果再有一位女同学,她的指纹向量是:

  (10,20,4,20,5)

  看看,第1个位置得分(10)又比第3个位置(20)低了,那这两个位置到底哪个更重要呢?答案是第1个位置更重要,但这不是在特征权重计算这一步体现出来的,而是在我们特征选择的时候就确定了,第1个位置比第3个位置更重要。

  因此要记住,通过TFIDF计算一个特征的权重时,该权重体现出的根本不是特征的重要程度!

  那它代表什么?再看看两位同学的指纹,放到一起:

  (10, 3,4,20,5)

  (10,20,4,20,5)

  在第三个位置上女同学的权重高于男同学,这不代表该女同学在指纹的这个位置上更优秀(毕竟,指纹还有什么优秀不优秀的分别么,笑),也不代表她的这个位置比男同学的这个位置更重要,3和20这两个得分,仅仅代表他们的不同。

  在文本分类中也是如此,比如我们的系统特征集合只有两个词:

  (经济,发展)

  这两个词是使用卡方检验(特征选择)选出来的,有一篇文章的向量形式是

  (2,5)

  另一篇

  (3,4)

  这两个向量形式就是用TFIDF算出来的,很容易看出两篇文章不是同一篇,为什么?因为他们的特征权重根本不一样,所以说权重代表的是差别,而不是优劣。想想你说经济这个词在第二篇文章中得分高,因此它在第二篇文章中比在第一篇文章中更重要,这句话代表什么意义呢?你自己都不知道吧(笑)。

  所以,当再说起使用TFIDF来计算特征权重时,最好把权重这个字眼忘掉,我们就把它说成计算得分好了(甚至得分也不太好,因为人总会不自觉的认为,得分高的就更重要),或者就仅仅说成是量化。

  如此,你就再也不会拿TFIDF去做特征选择了。

  小Tips:为什么有的论文里确实使用了TFIDF作特征选择呢?

  严格说来并不是不可以,而且严格说来只要有一种方法能够从一堆特征中挑出少数的一些,它就可以叫做一种特征选择方法,就连随机选取一部分都算是一种,而且效果并没有差到惊人的地步哦!还是可以分对一大半的哦!所以有的人就用TFIDF的得分来把特征排排序,取得分最大的几个进入系统特征集合,效果也还行(毕竟,连随机选取效果也都还行),怎么说呢,他们愿意这么干就这么干吧。就像咱国家非得实行户口制度,这个制度说不出任何道理,也不见他带来任何好处,但不也没影响二十一世纪成为中国的世纪么,呵呵。

  系列文章:

  文本分类入门(一)文本分类问题的定义

  文本分类入门(二)文本分类的方法

  文本分类入门(三)统计学习方法

  文本分类入门(四)训练Part 1

  文本分类入门(五)训练Part 2

  文本分类入门(六)训练Part 3

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/webkaifa/)

  文本分类入门(七)相关概念总结

  文本分类入门(八)中英文文本分类的异同

  文本分类入门(九)文本分类问题的分类

  文本分类入门(十)特征选择算法之开方检验

  文本分类入门(十一)特征选择方法之信息增益

来源:http://www.tulaoshi.com/n/20160219/1615321.html

延伸阅读
标签: 茶梅花 花卉
落花的形态不同 茶花与茶梅最为典型的区别,就是落花的形态:茶梅,是一片片地散落;而山茶花是整朵地凋落。 另外,山茶的花期在1至3月,而茶梅的花期在11月至翌年1月。 两者的枝叶与开花的时间不同 茶花和茶梅相差不多,都是山茶科山茶属。目前在花市里的大多数的茶花是小乔木,而大多数的茶梅为灌木。所以前者枝长...
人像摄影:人像特征的强调与美化 人像的特征是一个人特有的,是个性的体现,有时我们在拍摄中需要体现个性,有时我们又需要表达完美,以下说明也只是示范并不能作为完全的法则来遵循,实际拍摄中更需要我们细心、准确的取景观察来决定(相对于135SLR120大取景器是很有利的)。 脸部 圆脸: 突出或强调正面像。平光不要太...
老年痴呆与健忘的特征区分 健忘是老年痴呆的一个明显症状,因此导致我们不少老年朋友把健忘当作老年痴呆,其实这是一个明显的误区。记忆力不好可不是老年痴呆。我们分别看看健忘和老年痴呆的几个特征。 健忘的几个特征 1、只是遗忘事情的某一部分,一般经人提醒就会想起; 2、对时间、地点、人物关系和周围环境的认知...
小孩的想象特征 想象是对感知过的事物进行思维加工、改组、创造出现实中未曾有过的事物形象,想象带有明显的间接性和概括性,在思维的基础上发展。 小孩的想象特征: 1-2岁想象萌芽,如:将椅子当(想象成)汽车开,将木棒当马骑等。 3-4岁想象的内容是自己不熟悉的或没经历过的,但是现实中有过的,如:办家家,角色扮演(老师、学生)等,...
标签: 拼布
蓝印花布: 为中国传统民间手工艺,相传自汉朝起,先民采掘蓝锭草经发酵加温后,以素布浸染,于河水缥洗七次,晾干后蓝清色泽跃然脱俗,如今用作拼布使用,更能突显出中华文化的传统艺术。 先染布: 先染的触感与颜色,有一种特殊的典雅风格,不管你用深色或浅色,都能给人一种稳定的感觉,永不...

经验教程

545

收藏

81
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部