利用lwp::get写的
源代码在线查看: readme.txt
数据库概论课程实习作业
论文网页网络抓取程序
说明文件
00448004 乐大山, 2006/11/26
·特别注意:
我的输出文件与给定格式略有不同。为了使输出文件符合XML标准,我在每个文件的开始和结尾分别加上了和标签。因为XML规定每个XML文档只能有一个根节点。
·文件清单:
SIGMOD/SIGMOD_????_elementary.txt - SIGMOD 会议论文抓取结果
ICDE/ICDE_????_elementary.txt - SIGMOD 会议论文抓取结果
MyGrabber.pm - 网页抓取包
MyXMLWriter.pm - XML书写工具包
MyCrawler.pm - 论文抓取程序包
Start_SIGMOD.pl - 抓取 SIGMOD 会议论文程序
Start_ICDE.pl - 抓取 ICDE 会议论文程序
Readme.txt - 说明文件 (本文件)
Readme.doc - 详细说明文档
TOC.kpf - 本项目的 Komodo Project File
有关本程序的详细信息,请阅读 Readme.doc。