衡阳派盒市场营销有限公司

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

基于詞頻信息的改進的IG文本特征選擇算法

大小:0.56 MB 人氣: 2018-01-25 需要積分:2

  向量空間的高維性和文檔表示向量的稀疏性不但增加了分類的時間復雜度和空間復雜度,而且還大大影響到分類的精度,因此,特征選擇顯得特別重要。目前,文本分類研究中常用的特征選擇算法主要有:文檔頻度、互信息、信息增益、開方擬合檢驗、期望交叉熵、特征權和文本證據權等。Ng等比較了文檔頻率( Document Frequency,DF)、信息增益(Information Cain,IG)、互信息(Mutual Information,MI)、開方擬合檢驗(X2 -test,CHI)和特征權(Term Strength,TS)五種特征選擇算法,得出IC、DF和CHI比MI和TS效果好的結論。Yang等研究得出IC是最有效的特征選擇算法之一的結論。目前IC已成為文本分類研究中常用的特征選擇算法。因此,尋找該方法中的不足,并針對不足作出有效的改進,提高特征提取的效率具有非常重要的現實意義。

  近年來,一些學者針對IG算法的不足作了一些改進工作。李文斌等提出了三種基于特征信息增益權重的分類算法,通過添加權重系數來平衡“正貢獻”和“負貢獻”的特征項對分類的影響,但是由于權重系數的設置是根據人為的經驗設定.所以存在很大的偶然性,且不適用于各種情形。黃秀麗等針對傳統IC算法過分看重高頻特征項的缺點,提出一種強調中低頻特征項的改進的算法SIC,此算法在一定程度上提高了特征選擇的效率,但算法中沒有考慮到特征項在不同類別的分布差異對分類能力的影響。郭頌等在以上改進算法的基礎上,通過引入特征分布差異因子、類內和類間加權因子,提出一種加權的IC改進算法,該方法比較全面地考慮到了詞頻對特征提取的作用,但此算法沒有考慮到特征項在類內位置上分布對算法的影響。本文針對上述改進算法的不足之處,充分考慮特征項頻數對分類能力的作用,提出一種基于詞頻的改進的IC特征選擇算法。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發表評論

      用戶評論
      評價:好評中評差評

      發表評論,獲取積分! 請遵守相關規定!

      ?
      大发888娱乐城 健账号| 百家乐平的概率| 明珠百家乐官网的玩法技巧和规则 | 乐透世界娱乐城| 哪个百家乐官网技巧平台信誉好| 百家乐赌博破解| 百家乐官网太阳城| 百家乐彩金| 金榜百家乐官网娱乐城| 姚记娱乐城信誉最好| 金百亿百家乐官网娱乐城| 大发888娱乐场玩什么| 尊龙百家乐娱乐平台| 澳门百家乐官网网络游戏信誉怎么样| 大田县| 百家乐五湖四海娱乐城| 锦屏县| 大发888我发财官网| 百家乐赌博机有鬼吗| 大姚县| 盈丰娱乐城| 大发888官方zhuce| 百家乐必赢法软件| 韩国百家乐官网的玩法技巧和规则 | 百家乐棋牌官网| 逍遥坊百家乐官网的玩法技巧和规则 | 免费百家乐预测软件| 百家乐任你博娱乐平台| 缅甸百家乐网上投注| 实战百家乐官网十大取胜原因百分百战胜百家乐官网不买币不吹牛只你能做到按我说的.百家乐官网基本规则 | 澳门百家乐必胜看路| 240线法杨公风水| 百家乐官网有没有稳赢| 七乐娱乐城| 百家乐官网代理每周返佣| 海南省| 大发888免费送奖金| 太阳城花园| 全讯网a3322| 大发888八大胜博彩| 大发888 casino exe|