首頁 > 期刊 > 自然科學(xué)與工程技術(shù) > 信息科技 > 圖書情報(bào)與數(shù)字圖書館 > 數(shù)字圖書館論壇 > 基于改進(jìn)TF-IDF-CHI算法的農(nóng)業(yè)科技文獻(xiàn)文本特征抽取 【正文】
摘要:針對相近農(nóng)業(yè)科研領(lǐng)域文獻(xiàn)的文本特征信息高度重合的特點(diǎn),以及傳統(tǒng)的文本特征抽取方法存在的不足,對TF-IDF算法進(jìn)行優(yōu)化并加以應(yīng)用驗(yàn)證。通過引入卡方檢驗(yàn)值與特征詞頻修正因子等方式,對特征詞加權(quán)函數(shù)進(jìn)行重構(gòu),形成改進(jìn)的ImpTF-IDF-CHI方法。將該方法與文檔頻率法、信息增益法及TF-IDF3種傳統(tǒng)的文本特征抽取結(jié)果應(yīng)用于樸素貝葉斯分類實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果判定方法的優(yōu)劣性。通過4種方法的58組特征抽取與文本分類實(shí)驗(yàn),發(fā)現(xiàn)與前述的3種特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征詞,應(yīng)用于文本分類的正確率最高,平均準(zhǔn)確率達(dá)94%,F1值為0.844,證明該方法在對相近農(nóng)業(yè)科研領(lǐng)域文本進(jìn)行特征抽取方面,具有準(zhǔn)確率高、穩(wěn)定性好、主題詞代表性強(qiáng)等優(yōu)點(diǎn),可以有效地應(yīng)用于此類文獻(xiàn)文本分類、特征表達(dá)、主題抽取等場景。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社
主管單位:中華人民共和國科學(xué)技術(shù)部;主辦單位:中國科學(xué)技術(shù)信息研究所
一對一咨詢服務(wù)、簡單快捷、省時(shí)省力
了解更多 >直郵到家、實(shí)時(shí)跟蹤、更安全更省心
了解更多 >去除中間環(huán)節(jié)享受低價(jià),物流進(jìn)度實(shí)時(shí)通知
了解更多 >正版雜志,匹配度高、性價(jià)比高、成功率高
了解更多 >