中文文本分類(lèi)中的特征選擇研究
- 文件介紹:
- 該文件為 pdf 格式(源文件可編輯),下載需要
20 積分
- 中文文本分類(lèi)中的特征選擇研究
目的: 隨著信息技術(shù)不斷前進(jìn)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及,信息呈近乎爆炸的形式急速膨脹。無(wú)論網(wǎng)絡(luò)上、企業(yè)中或是個(gè)人系統(tǒng)上,都有海量的信息需要處理。文本作為計(jì)算機(jī)系統(tǒng)中信息的最重要表現(xiàn)形式之一,其增長(zhǎng)速度更為驚人。如何在海量文本庫(kù)中搜尋、過(guò)濾和管理這些文本成為一個(gè)亟待解決的問(wèn)題。作為數(shù)據(jù)挖掘技術(shù)的重要手段之一,基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)可以在較大程度上解決文本庫(kù)雜亂無(wú)章的現(xiàn)象,幫助人們將大量的文本自動(dòng)分門(mén)別類(lèi),從而更好地把握文本信息,使信息的價(jià)值最大化。 在采用向量空間模型對(duì)文本進(jìn)行表示的情況下,文本分類(lèi)的最大特點(diǎn)和困難之一是特征空間的高維性和文檔表示向量的稀疏性。中文的詞條總數(shù)有二十多萬(wàn)條,尋求一種有效的特征抽取算法,降低特征空間的維數(shù),提高分類(lèi)的效率和精度,成為文本自動(dòng)分類(lèi)中需要首先面對(duì)的重要問(wèn)題。特征選擇是解決這個(gè)問(wèn)題的有效方法。 本選題的核心目的就在于研究如何進(jìn)行特征項(xiàng)的選取,使得分類(lèi)的效率和效果最好。 思路: 首先需要理解中文文本分類(lèi)技術(shù)以及應(yīng)用的框架,熟悉中文文本分類(lèi)技術(shù)的各個(gè)組成部分,然后搭建一個(gè)中文文本分類(lèi)的輔助平臺(tái)(包括分詞組件、分類(lèi)器、測(cè)試文檔集、訓(xùn)練文檔集,大部分都可以從開(kāi)源軟件或公開(kāi)資料里獲得),在輔助平臺(tái)的基礎(chǔ)上研究特征相的提取并用實(shí)驗(yàn)檢驗(yàn)之。 方法: 通過(guò)閱讀大量的資料或文檔學(xué)習(xí)所要用的知識(shí)和技術(shù),并通過(guò)實(shí)驗(yàn)驗(yàn)證自己的想法和理論。 相關(guān)支持條件: PC、java或C++開(kāi)發(fā)環(huán)境、中文文本分類(lèi)輔助平臺(tái)(自己搭建)、Internet ...
中文文本分類(lèi)中的特征選擇研究_下載(pdf格式) 技術(shù)文檔
主站蜘蛛池模板:
xxxx免费国产在线视频
|
久久91精品国产91久久跳舞
|
日日夜夜精品免费视频
|
99视频精品全国在线观看
|
看一级特黄a大片日本片黑人
|
日本特级aⅴ一级毛片
|
精品亚洲性xxx久久久
|
色婷婷5月精品久久久久
|
国产精品午夜高清在线观看
|
91福利视频免费观看
|
亚洲精品久久99久久一
|
台湾成人性视频免费播放
|
免费在线精品视频
|
一区二区三区高清
|
国产精品尹人在线观看免费
|
国产图区|
色噜噜国产精品视频一区二区
|
免费国产黄线在线观看视频
|
麻豆91精品91久久久
|
欧美一级毛片片免费
|
99精品久久99久久久久久
|
麻豆精品一区二区三区免费
|
国产网友自拍
|
精品国产免费一区二区
|
亚州国产视频
|
久久天堂成人影院
|
欧美激情精品久久久久久久久久
|
黄色一级片a
|
亚洲黄色a
|
99精品福利视频
|
欧美综合激情
|
欧美性生活视频免费
|
爆操极品美女
|
成人精品一区久久久久
|
久久久综合网
|
久久社区视频
|
日本高清视频www夜色资源网
|
66精品综合久久久久久久
|
日本高清中文字幕一区二区三区a
|
成人免费国产欧美日韩你懂的
|
爱爱小视频成人免费
|