This complete matlab for neural network
源代码在线查看: 111.txt
发信人: roamingo (漫步鸥), 信区: DataMining
标 题: Re: 何不挖掘一下bbs上的信息
发信站: 南京大学小百合站 (Mon Sep 17 16:29:02 2001), 站内信件
对于中文文本的挖掘其实应该是中文信息处理研究中的重要内容. 我认为一个
研究方向是中文页面的分类(classfication)和聚类(clustering).
- 实现分词算法;
- 采取某种策略将分词后的文档表示为向量;
- 人工选择一些测试文档并指定类, 然后训练分类器得到分类函数;
- 或者, 对文档向量进行聚类.
另外要是有研究过自动摘要的, 先将文档用自动摘要系统缩减可能是一个很好
的预处理方法.
再有就是作搜索引擎, 中文也需要象google这样的就好了(baidu似乎一般). Google
现在还是一个私有企业(没有上市), 预计今年的赢利为8位数($).
抛砖引玉, 欢迎指教.
【 在 screen (沉默) 的大作中提到: 】
: 何必将研究目光放到自己完全不熟悉的领域上呢,bbs上的信息完全可以让你有开阔的..
: 空间。
--
Read digitally, save a tree.
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.120.7.27]