SVM(支持向量机)和EM(最大熵)文本分类算法
源代码在线查看: properties.txt
#词频统计以及SVM训练的目录
statsourcedir = tt
#词频词典
dictionary.propdic = dictionary/sdic.txt
#SVM模型使用的特征词词典
featurefile = feature/feature.txt
#统计了词频后的结果输出目录
statoutputdir = result
#倒排文档频度保存的目录
dfdir = result/worddf
#词频保存的目录
tfdir = result/wordtf
#MI计算词的值结果保存目录
MIoutputdir = result/MI
#chi统计计算词的结果保存目录
CHIoutputdir = result/CHI
#IG计算词的结果保存目录
IGoutputdir = result/IG
#选取特征词的目录
#训练好的SVM模型存放位置
SVM.model.dir = svmmodel
#DAGSVM多分类要保存的类名-类编号
SVM.model.catenamefile = svmmodel/index.txt
SVM.model.C = 1.9
# 0表示线性分类 ,1表示多项式核 ,2 表示RBF
SVM.model.kerneltype = 0
# 从每个类中选取的词个数
model.wordNumOneCate = 150
# 总的向量维数 每个类选取的词个数*类的个数
SVM.model.dimension = 300
SVM.model.kernelpara.gama = 0.00001
SVM.model.kernelpara.r = 0
SVM.model.kernelpara.d = 0
# ME训练使用的参数,
ME.Newton.TONERANCE = 0.0000001
ME.Newton.MAX_ITERS = 50
#me模型测试训练统计的文件目录
ME.testdir = tt
#me模型的特征词词典
MEfeaturefile = feature/MEfeature.txt
#me模型使用的特征词数目
ME.feature.num = 300
#训练的ME模型的参数文件
mefeaturevalue = feature/mefeaturevalue.txt
#是否使用高斯先验 0,1
ME.usingprior = 0
#高斯先验的参数值 mu为0
ME.GaussPrior.sita = 10
#ME模型的特征函数值,ME.feature.type为0表示用1表示值,1表示用词频 2表示其他
ME.feature.type = 1
#ME模型参数中的lamta值单独保存
ME.lamta = feature/lamta.txt