1. 因为决定从Ubuntu下源码运行Heritrix, 所以首先安装Eclipse:$sudo apt-get install eclipse2. 从这里下载Heritrix源码:3. 解压:$tar xzvf /home/xxx/workspace/heritrix-1.14.4-src.tar.gz4. 将文件夹改名为heritrix(不是必须的, 这里是便于导入到eclipse):$mv heritrix-1.14.4 heritrix5. 打开eclipse, New->Java Project->Create Project from exsiting source
注意保证输入的Project Name和项目文件夹名称一致.6. 进入Run Configurations, 【Linux公社 www.linuxidc.com 】指定Main class为org.archive.crawler.Heritrix
添加VM arguments:-Dheritrix.development -Xmx512m添加Classpath: Advanced->Add External Folder, 将src/conf和src/resources添加到Classpath中. 否则会报两个错误:Exception in thread "main" java.io.IOException: Failed to load properties file from filesystem or from classpath.
at org.archive.crawler.Heritrix.getPropertiesInputStream(Heritrix.java:924)
at org.archive.crawler.Heritrix.loadProperties(Heritrix.java:863)
at org.archive.crawler.Heritrix.containerInitialization(Heritrix.java:492)
at org.archive.crawler.Heritrix.main(Heritrix.java:555)
和2010-07-10 10:03:01.250 严重 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable
java.lang.NullPointerException
at java.io.Reader.(Unknown Source)
at java.io.InputStreamReader.(Unknown Source)
at org.archive.util.ArchiveUtils.(ArchiveUtils.java:759)
........
更严重的是, 会使Heritrix的Modules界面不能改变选择项.
7. 其他诸如设置用户名密码, 添加和运行job之类的, 这里就不详细说明了。RVDS 4.0分别在Windows 7和Ubuntu 10.10上安装和破解详解Project 1-2: 我们得到的Heritrix Crawl Job Report相关资讯 Ubuntu Project
- 如果没有Ubuntu,我们将去哪里? (02月04日)
- Libra—扁平化风格Ubuntu Unity主 (11/30/2014 08:21:04)
- 一盘棋:Ubuntu明明不赚钱为什么还 (08/19/2013 16:59:50)
| - 桌面/移动端 Ubuntu 将获重大 UI (09/29/2015 11:48:18)
- Ubuntu将消失 有人欢喜有人愁 (10/18/2013 11:43:45)
- 烧钱不断的Ubuntu——一个理想主义 (08/14/2013 07:36:21)
|
本文评论 查看全部评论 (0)