1、下载并解压eclipse(集成开发环境)
下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers
2、安装Subclipse插件(SVN客户端)
插件地址:http://subclipse.tigris.org/update_1.8.x,
3、安装IvyDE插件(下载依赖Jar)
插件地址:http://www.apache.org/dist/ant/ivyde/updatesite/
4、签出代码
File > New > Project > SVN > 从SVN 检出项目
创建新的资源库位置 > URL:https://svn.apache.org/repos/asf/nutch/tags/release-1.6/ > 选中URL > Finish
弹出New Project向导,选择Java Project > Next,输入Project name:nutch1.6 > Finish
5、配置构建路径
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Build Path > Configure Build Path...
> 选中Source选项 > 选择src > Remove > Add Folder... > 选择src/bin, src/java, src/test 和 src/testresources(对于插件,需要选中src/plugin目录下的每一个插件目录下的src/java , src/test文件夹) > OK
切换到Libraries选项 >
Add Class Folder... > 选中nutch1.6/conf > OK
下载已经jar包并放到build path中:automaton.jar, jdom-1.0.jar, nekohtml-1.9.6.2.jar, rome-1.0.jar, tagsoup-1.1.3.jar
Add JARs... > 需要选中src/plugin目录下的每一个插件目录下的lib目录下的jar文件 > OK
Add Library... > IvyDE Managed Dependencies > Next > Main > Ivy File > Browse > ivy/ivy.xml > Finish
切换到Order and Export选项>
选中conf > Top
6、执行ANT
在左部Package Explorer的 nutch1.6文件夹下的build.xml文件上单击右键 > Run As > Ant Build (需要挺长时间)
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Refresh
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Build Path > Configure Build Path... > 选中Libraries选项 > Add Class Folder... > 选中build > OK
7、修改配置文件nutch-site.xml
将如下配置项加入文件nutch-site.xml:
<property>
<name>http.agent.name</name>
<value>nutch</value>
</property>
<property>
<name>http.content.limit</name>
<value>-1</value>
</property>
8、开发调试
在左部Package Explorer的 nutch1.6文件夹上单击右键 > New > Folder > Folder name: urls
在刚新建的urls目录下新建一个文本文件url,文本内容为:http://news.163.com
打开src/java下的org.apache.nutch.crawl.Crawl.java类,单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: urls -dir data -depth 2 > Run
在需要调试的地方打上断点Debug As > Java Applicaton
9、查看结果
查看segments目录:
打开src/java下的org.apache.nutch.segment.SegmentReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: -dump data/segments/* data/segments/dump
用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息
打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/crawldb -stats
控制台会输出 crawldb统计信息
打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/linkdb -dump data/linkdb_dump
用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息
相关推荐
eclipse配置nutch,eclipse配置nutch
Eclipse 中编译 Nutch-1.0 运行源代码
Eclipse 编译 Nutch-0.9
将nutch1.2源码嵌入到myeclipse8.5 在window环境的nutch1.2的简单应用 将其放于tomcat的webapp下
本文章修改了在eclipse中加入Nutch的详细过程!
Windows下使用Eclipse配置Nutch2图文详解
外网不能访问,故上传,一方面自己备份,一方面也方便大家不能下载的痛苦,只有nutch的源码,没有依赖包,如果需要依赖包,请自行下载
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
一个解析MP3,一个解析rtf文件
详细解释了如何搭建nutch开发环境,每一个步骤都有详细说明
nutch1.6源码,直接从官网也可以下
nutch_src 源码 tar—zip格式
Nutch源码研究
Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...
Lucene+nuctch一书的全部源码 测试源码 和几个简单的项目 (Lucene+ Nuctch a book all the source code and test a few simple items)
Lucene nutch 搜索引擎 开发 实例 源码 里面包含了Lucene的使用源码 以及nutch使用的源码 还有spider的使用源码 例子的注释比较详细~适合初学者
Eclipse中编译Nutch-1.0。。。。。。。。。。。。
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 1.1.6 Cygwin 安装配置 ...1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合
nutch源码分析,很好的一份资料,讲解了搜索引擎
lucene+nutch搜索引擎开发一书源码第一部分,因为源码太大,所以分两部分。