Nutch相关框架安装使用最佳指南

一、nutch1.2

二、nutch1.5.1

三、nutch2.0

四、配置SSH

五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch

六、安装Hadoop Cluster（分布式运行模式）并运行Nutch

七、配置Ganglia监控Hadoop集群和HBase集群

八、Hadoop配置Snappy压缩

九、Hadoop配置Lzo压缩

十、配置zookeeper集群以运行hbase

十一、配置Hbase集群以运行nutch-2.1(Region Servers会因为内存的问题宕机)

十二、配置Accumulo集群以运行nutch-2.1(gora存在BUG)

十三、配置Cassandra 集群以运行nutch-2.1（Cassandra 采用去中心化结构）

十四、配置MySQL 单机服务器以运行nutch-2.1

十五、nutch2.1 使用DataFileAvroStore作为数据源

十六、nutch2.1 使用AvroStore作为数据源

十七、配置SOLR

十八、Nagios监控

十九、配置Splunk

二十、配置Pig

二十一、配置Hive

二十二、配置Hadoop2.x集群

一、nutch1.2

步骤和二大同小异，在步骤5、配置构建路径中需要多两个操作：在左部Package Explorer 的nutch1.2文件夹上单击右键> Build Path > Configure Build Path... >选中Source选项> Default output folder:修改nutch1.2/bin为nutch1.2/_bin，在左部Package Explorer的nutch1.2文件夹下的bin文件夹上单击右键> Team >还原

二中黄色背景部分是版本号的差异，红色部分是1.2版本没有的，绿色部分是不一样的地方，如下：

1、Add JARs... > nutch1.2 > lib ，选中所有的.jar文件> OK

2、crawl-urlfilter.txt

3、将crawl -urlfilter.txt.template改名为crawl -urlfilter.txt

4、修改crawl-urlfilter.txt，将

# accept hosts in https://www.360docs.net/doc/a06213709.html,

+^http://([a-z0-9]*\.)*https://www.360docs.net/doc/a06213709.html,/

# skip everything else

5、cd /home/ysc/workspace/nutch1.2

nutch1.2是一个完整的搜索引擎，nutch1.5.1只是一个爬虫。nutch1.2可以把索引提交给SOLR，也可以直接生成LUCENE索引，nutch1.5.1则只能把索引提交给SOLR：

1、cd /home/ysc

2、wget https://www.360docs.net/doc/a06213709.html,/apache/tomcat/tomcat-7/v7.0.29/bin/apache-tomcat-7.0.29 .tar.gz

3、tar -xvf apache-tomcat-7.0.29.tar.gz

4、在左部Package Explorer的nutch1.2文件夹下的build.xml文件上单击右键> Run As > Ant Build... >选中war target > Run

5、cd /home/ysc/workspace/nutch1.2/build

6、unzip nutch-1.2.war -d nutch-1.2

7、cp -r nutch-1.2 /home/ysc/apache-tomcat-7.0.29/webapps

8、vi /home/ysc/apache-tomcat-7.0.29/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml

加入以下配置：

searcher.dir

/home/ysc/workspace/nutch1.2/data

Path to root of crawl. This directory is searched (in

order) for either the file search-servers.txt, containing a list of

distributed search servers, or the directory "index" containing

merged indexes, or the directory "segments" containing segment

indexes.

9、vi /home/ysc/apache-tomcat-7.0.29/conf/server.xml

将

connectionTimeout="20000"

redirectPort="8443"/>

改为

connectionTimeout="20000"

redirectPort="8443" URIEncoding="utf-8"/>

10、cd /home/ysc/apache-tomcat-7.0.29/bin

11、./startup.sh

12、访问：http://localhost:8080/nutch-1.2/

关于nutch1.2更多的BUG修复及资料，请参看我在CSDN发布的资源：https://www.360docs.net/doc/a06213709.html,/user/yangshangchuan

二、nutch1.5.1

1、下载并解压eclipse（集成开发环境）

下载地址：https://www.360docs.net/doc/a06213709.html,/downloads/，下载Eclipse IDE for Java EE Developers

2、安装Subclipse插件（SVN客户端）

插件地址：https://www.360docs.net/doc/a06213709.html,/update_1.8.x，

3、安装IvyDE插件（下载依赖Jar）

插件地址：https://www.360docs.net/doc/a06213709.html,/dist/ant/ivyde/updatesite/

4、签出代码

File > New > Project > SVN >从SVN 检出项目

创建新的资源库位置> URL：https://https://www.360docs.net/doc/a06213709.html,/repos/asf/nutch/tags/release-1.5.1/ >选中URL > Finish

弹出New Project向导，选择Java Project > Next，输入Project name：nutch1.5.1 > Finish 5、配置构建路径

在左部Package Explorer的nutch1.5.1文件夹上单击右键> Build Path > Configure Build Path... >选中Source选项>选择src > Remove > Add Folder... >选择src/bin, src/java, src/test 和src/testresources（对于插件，需要选中src/plugin目录下的每一个插件目录下的src/java ，src/test文件夹）> OK

切换到Libraries选项>

Add Class Folder... >选中nutch1.5.1/conf > OK

Add JARs... >需要选中src/plugin目录下的每一个插件目录下的lib目录下的jar文件> OK Add Library... > IvyDE Managed Dependencies > Next > Main > Ivy File > Browse > ivy/ivy.xml > Finish

切换到Order and Export选项>

选中conf > Top

6、执行ANT

在左部Package Explorer的nutch1.5.1文件夹下的build.xml文件上单击右键> Run As > Ant Build

在左部Package Explorer的nutch1.5.1文件夹上单击右键> Refresh

在左部Package Explorer的nutch1.5.1文件夹上单击右键> Build Path > Configure Build Path... >选中Libraries选项> Add Class Folder... >选中build > OK

7、修改配置文件nutch-site.xml 和regex-urlfilter.txt

将nutch-site.xml.template改名为nutch-site.xml

将regex-urlfilter.txt.template改名为regex-urlfilter.txt

在左部Package Explorer的nutch1.5.1文件夹上单击右键> Refresh

将如下配置项加入文件nutch-site.xml：

https://www.360docs.net/doc/a06213709.html,

nutch

http.content.limit

-1

修改regex-urlfilter.txt，将

# accept anything else

替换为：

+^http://([a-z0-9]*\.)*https://www.360docs.net/doc/a06213709.html,/

8、开发调试

在左部Package Explorer的nutch1.5.1文件夹上单击右键> New > Folder > Folder name: urls 在刚新建的urls目录下新建一个文本文件url，文本内容为：https://www.360docs.net/doc/a06213709.html,

打开src/java下的org.apache.nutch.crawl.Crawl.java类，单击右键Run As > Run Configurations > Arguments >在Program arguments输入框中输入: urls -dir data -depth 3 > Run

在需要调试的地方打上断点Debug As > Java Applicaton

9、查看结果

查看segments目录：

打开src/java下的org.apache.nutch.segment.SegmentReader.java类

单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法

单击右键Run As > Run Configurations > Arguments >在Program arguments输入框中输入: -dump data/segments/* data/segments/dump

用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息

查看crawldb目录：

打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类

单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法

单击右键Run As > Run Configurations > Arguments >在Program arguments输入框中输入: data/crawldb -stats

控制台会输出crawldb统计信息

查看linkdb目录：

打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类

单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法

单击右键Run As > Run Configurations > Arguments >在Program arguments输入框中输入: data/linkdb -dump data/linkdb_dump

用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息

10、全网分步骤抓取

在左部Package Explorer的nutch1.5.1文件夹下的build.xml文件上单击右键> Run As > Ant Build

cd /home/ysc/workspace/nutch1.5.1/runtime/local

#准备URL列表

wget https://www.360docs.net/doc/a06213709.html,/rdf/content.rdf.u8.gz

gunzip content.rdf.u8.gz

mkdir dmoz

bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/url

#注入URL

bin/nutch inject crawl/crawldb dmoz

#生成抓取列表

bin/nutch generate crawl/crawldb crawl/segments

#第一次抓取

s1=`ls -d crawl/segments/2* | tail -1`

echo $s1

#抓取网页

bin/nutch fetch $s1

#解析网页

bin/nutch parse $s1

#更新URL状态

bin/nutch updatedb crawl/crawldb $s1

#第二次抓取

bin/nutch generate crawl/crawldb crawl/segments -topN 1000

s2=`ls -d crawl/segments/2* | tail -1`

echo $s2

bin/nutch fetch $s2

bin/nutch parse $s2

bin/nutch updatedb crawl/crawldb $s2

#第三次抓取

bin/nutch generate crawl/crawldb crawl/segments -topN 1000

s3=`ls -d crawl/segments/2* | tail -1`

echo $s3

bin/nutch fetch $s3

bin/nutch parse $s3

bin/nutch updatedb crawl/crawldb $s3

#生成反向链接库

bin/nutch invertlinks crawl/linkdb -dir crawl/segments

11、索引和搜索

cd /home/ysc/

wget https://www.360docs.net/doc/a06213709.html,/apache/lucene/solr/3.6.1/apache-solr-3.6.1.tgz

tar -xvf apache-solr-3.6.1.tgz

cd apache-solr-3.6.1 /example

NUTCH_RUNTIME_HOME=/home/ysc/workspace/nutch1.5.1/runtime/local

APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1

cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/conf/ 如果需要把网页内容存储到索引中，则修改schema.xml文件中的

为

修改${APACHE_SOLR_HOME}/example/solr/conf/solrconfig.xml,将里面的text都替换为content

把${APACHE_SOLR_HOME}/example/solr/conf/schema.xml中的修改为

#启动SOLR服务器

java -jar start.jar

http://127.0.0.1:8983/solr/admin/

http://127.0.0.1:8983/solr/admin/stats.jsp

cd /home/ysc/workspace/nutch1.5.1/runtime/local

#提交索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb

crawl/segments/*

执行完整crawl:

bin/nutch crawl urls -dir data -depth 2 -topN 100 -solr http://127.0.0.1:8983/solr/

使用以下命令分页查看所有索引的文档：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

标题包含“网易”的文档：

http://127.0.0.1:8983/solr/select/?q=title%3A%E7%BD%91%E6%98%93&version=2.2&start=0&r ows=10&indent=on

12、查看索引信息

cd /home/ysc/

wget https://www.360docs.net/doc/a06213709.html,/files/lukeall-3.5.0.jar

java -jar lukeall-3.5.0.jar

Path: /home/ysc/apache-solr-3.6.1/example/solr/data

13、配置SOLR的中文分词

cd /home/ysc/

wget https://www.360docs.net/doc/a06213709.html,/files/mmseg4j-1.8.5.zip

unzip mmseg4j-1.8.5.zip -d mmseg4j-1.8.5

APACHE_SOLR_HOME=/home/ysc/apache-solr-3.6.1

mkdir $APACHE_SOLR_HOME/example/solr/lib

mkdir $APACHE_SOLR_HOME/example/solr/dic

cp mmseg4j-1.8.5/mmseg4j-all-1.8.5.jar $APACHE_SOLR_HOME/example/solr/lib

cp mmseg4j-1.8.5/data/*.dic $APACHE_SOLR_HOME/example/solr/dic

将${APACHE_SOLR_HOME}/example/solr/conf/schema.xml文件中的

和

替换为

#重新启动SOLR服务器

java -jar start.jar

#重建索引，演示在开发环境中如何操作

打开src/java下的org.apache.nutch.indexer.solr.SolrIndexer.java类

单击右键Run As > Java Applicaton，控制台会输出该命令的使用方法

单击右键Run As > Run Configurations > Arguments >在Program arguments输入框中输入: http://127.0.0.1:8983/solr/ ; data/crawldb -linkdb data/linkdb data/segments/*

使用luke重新打开索引就会发现分词起作用了

三、nutch2.0

nutch2.0和二中的nutch1.5.1的步骤相同，但在8、开发调试之前需要做以下配置：

在左部Package Explorer的nutch2.0文件夹上单击右键> New > Folder > Folder name: data并

指定数据存储方式，选如下之一：

1、使用mysql作为数据存储

1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：

storage.data.store.class

org.apache.gora.sql.store.SqlStore

2）、将nutch2.0/conf/gora.properties文件中的

gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver

gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest

https://www.360docs.net/doc/a06213709.html,er=sa

gora.sqlstore.jdbc.password=

修改为

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://127.0.0.1:3306/nutch2

https://www.360docs.net/doc/a06213709.html,er=root

gora.sqlstore.jdbc.password=ROOT

3）、打开nutch2.0/ivy/ivy.xml中的mysql-connector-java依赖

4）、sudo apt-get install mysql-server

2、使用hbase作为数据存储

1）、在nutch2.0/conf/nutch-site.xml中加入如下配置：

storage.data.store.class

org.apache.gora.hbase.store.HBaseStore

2）、打开nutch2.0/ivy/ivy.xml中的gora-hbase依赖

3）、cd /home/ysc

4）、wget https://www.360docs.net/doc/a06213709.html,/apache/hbase/hbase-0.90.5/hbase-0.90.5.tar.gz

5）、tar -xvf hbase-0.90.5.tar.gz

6）、vi hbase-0.90.5/conf/hbase-site.xml

加入以下配置：

hbase.rootdir

file:///home/ysc/hbase-0.90.5-database

7)、hbase-0.90.5/bin/start-hbase.sh

8)、将/home/ysc/hbase-0.90.5/hbase-0.90.5.jar加入开发环境eclipse的build path

四、配置SSH

三台机器devcluster01，devcluster02，devcluster03，分别在每一台机器上面执行如下操作：

1、sudo vi /etc/hosts

加入以下配置：

192.168.1.1 devcluster01

192.168.1.2 devcluster02

192.168.1.3 devcluster03

2、安装SSH服务：

sudo apt-get install openssh-server

3、(有提示的时候回车键确认）

ssh-keygen -t rsa

该命令会在用户主目录下创建.ssh 目录，并在其中创建两个文件：id_rsa 私钥文件。是基于RSA 算法创建。该私钥文件要妥善保管，不要泄漏。id_rsa.pub 公钥文件。和id_rsa 文件是一对儿，该文件作为公钥文件，可以公开。

4、cp .ssh/id_rsa.pub .ssh/authorized_keys

把三台机器devcluster01，devcluster02，devcluster03 的文件/home/ysc/.ssh/authorized_keys的内容复制出来合并成一个文件并替换每一台机器上的/home/ysc/.ssh/authorized_keys文件

在devcluster01上面执行时，以下两条命令的主机为02和03

在devcluster02上面执行时，以下两条命令的主机为01和03

在devcluster03上面执行时，以下两条命令的主机为01和02

5、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster02

6、ssh-copy-id -i .ssh/id_rsa.pub ysc@ devcluster03

以上两条命令实际上是将.ssh/id_rsa.pub 公钥文件追加到远程主机server 的user 主目录下的.ssh/authorized_keys 文件中。

五、安装Hadoop Cluster（伪分布式运行模式）并运行Nutch

步骤和四大同小异，只需要1台机器devcluster01，所以黄色背景部分全部设置为devcluster01，不需要第11步

六、安装Hadoop Cluster（分布式运行模式）并运行Nutch

三台机器devcluster01，devcluster02，devcluster03(vi /etc/hostname)

使用用户ysc登陆devcluster01：

1、cd /home/ysc

2、wget https://www.360docs.net/doc/a06213709.html,/apache/hadoop/common/hadoop-1.1.1/hadoop-1.1.1-bin.ta r.gz

3、tar -xvf hadoop-1.1.1-bin.tar.gz

4、cd hadoop-1.1.1

5、vi conf/masters

替换内容为：

devcluster01

6、vi conf/slaves

替换内容为：

devcluster02

devcluster03

7、vi conf/core-site.xml

加入配置：

https://www.360docs.net/doc/a06213709.html,

hdfs://devcluster01:9000

Where to find the Hadoop Filesystem through the network.

Note 9000 is not the default port.

(This is slightly changed from previous versions which didnt have "hdfs")

hadoop.security.authorization

true

编辑conf/hadoop-policy.xml

8、vi conf/hdfs-site.xml

加入配置：

https://www.360docs.net/doc/a06213709.html,.dir

/home/ysc/dfs/filesystem/name

dfs.data.dir

/home/ysc/dfs/filesystem/data

dfs.replication

dfs.block.size

671088640

The default block size for new files.

9、vi conf/mapred-site.xml

加入配置：

mapred.job.tracker

devcluster01:9001

The host and port that the MapReduce job tracker runs at. If

"local", then jobs are run in-process as a single map and

reduce task.

Note 9001 is not the default port.

mapred.reduce.tasks.speculative.execution

false

If true, then multiple instances of some reduce tasks

may be executed in parallel.

mapred.map.tasks.speculative.execution

false

If true, then multiple instances of some map tasks

may be executed in parallel.

mapred.child.java.opts

-Xmx2000m

mapred.tasktracker.map.tasks.maximum

the core number of host

mapred.map.tasks

mapred.tasktracker.reduce.tasks.maximum

define mapred.map tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host

mapred.reduce.tasks

define mapred.reduce tasks to be number of slave hosts.the best number is the number of slave hosts plus the core numbers of per host

https://www.360docs.net/doc/a06213709.html,pression.type

BLOCK

If the job outputs are to compressed as SequenceFiles, how should they be

compressed? Should be one of NONE, RECORD or BLOCK.

https://www.360docs.net/doc/a06213709.html,press

true

Should the job outputs be compressed?

https://www.360docs.net/doc/a06213709.html,press.map.output

true

Should the outputs of the maps be compressed before being sent across the network. Uses SequenceFile compression.

mapred.system.dir

/home/ysc/mapreduce/system

mapred.local.dir

/home/ysc/mapreduce/local

10、vi conf/hadoop-env.sh

追加：

export JAVA_HOME=/home/ysc/jdk1.7.0_05

export HADOOP_HEAPSIZE=2000

#替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待export HADOOP_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"

11、复制HADOOP文件

scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster02:/home/ysc/hadoop-1.1.1

scp -r /home/ysc/hadoop-1.1.1 ysc@devcluster03:/home/ysc/hadoop-1.1.1

12、sudo vi /etc/profile

追加并重启系统：

export PATH=/home/ysc/hadoop-1.1.1/bin:$PATH

13、格式化名称节点并启动集群

hadoop namenode -format

start-all.sh

14、cd /home/ysc/workspace/nutch1.5.1/runtime/deploy

mkdir urls

echo https://www.360docs.net/doc/a06213709.html, > urls/url

hadoop dfs -put urls urls

bin/nutch crawl urls -dir data -depth 2 -topN 100

15、访问http://localhost:50030 可以查看JobTracker 的运行状态。访问http://localhost:50060 可以查看TaskTracker 的运行状态。访问http://localhost:50070 可以查看NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及log 等

16、通过stop-all.sh停止集群

17、如果NameNode和SecondaryNameNode不在同一台机器上，则在SecondaryNameNode 的conf/hdfs-site.xml文件中加入配置：

dfs.http.address

namenode:50070

七、配置Ganglia监控Hadoop集群和HBase集群

1、服务器端（安装到master devcluster01上）

1）、ssh devcluster01

2）、addgroup ganglia

adduser --ingroup ganglia ganglia

3）、sudo apt-get install ganglia-monitor ganglia-webfront gmetad

//补充：在Ubuntu10.04上，ganglia-webfront这个package名字叫ganglia-webfrontend //如果install出错，则运行sudo apt-get update，如果update出错，则删除出错路径4）、vi /etc/ganglia/gmond.conf

先找到setuid = yes,改成setuid =no;

在找到cluster块中的name，改成name =”hadoop-cluster”;

5）、sudo apt-get install rrdtool

6)、vi /etc/ganglia/gmetad.conf

在这个配置文件中增加一些datasource，即其他2个被监控的节点，增加以下内容：data_source “hadoop-cluster” devcluster01:8649 devcluster02:8649 devcluster03:8649

gridname "Hadoop"

2、数据源端（安装到所有slaves上）

1)、ssh devcluster02

addgroup ganglia

adduser --ingroup ganglia ganglia

sudo apt-get install ganglia-monitor

2)、ssh devcluster03

addgroup ganglia

adduser --ingroup ganglia ganglia

sudo apt-get install ganglia-monitor

3）、ssh devcluster01

scp /etc/ganglia/gmond.conf devcluster02:/etc/ganglia/gmond.conf

scp /etc/ganglia/gmond.conf devcluster03:/etc/ganglia/gmond.conf

3、配置WEB

1）、ssh devcluster01

2）、sudo ln -s /usr/share/ganglia-webfrontend /var/www/ganglia

3）、vi /etc/apache2/apache2.conf

添加：

ServerName devcluster01

4、重启服务

1）、ssh devcluster02

sudo /etc/init.d/ganglia-monitor restart

ssh devcluster03

sudo /etc/init.d/ganglia-monitor restart

2）、ssh devcluster01

sudo /etc/init.d/ganglia-monitor restart

sudo /etc/init.d/gmetad restart

sudo /etc/init.d/apache2 restart

5、访问页面

http:// devcluster01/ganglia

6、集成hadoop

1）、ssh devcluster01

2）、cd /home/ysc/hadoop-1.1.1

3）、vi conf/hadoop-metrics2.properties

# 大于0.20以后的版本用ganglia31 *.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31

*.sink.ganglia.period=10

# default for supportsparse is false

*.sink.ganglia.supportsparse=true

*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both

*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

#广播IP地址，这是缺省的，统一设该值(只能用组播地址239.2.11.71)

namenode.sink.ganglia.servers=239.2.11.71:8649

datanode.sink.ganglia.servers=239.2.11.71:8649

jobtracker.sink.ganglia.servers=239.2.11.71:8649

tasktracker.sink.ganglia.servers=239.2.11.71:8649

maptask.sink.ganglia.servers=239.2.11.71:8649

reducetask.sink.ganglia.servers=239.2.11.71:8649

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

dfs.period=10

dfs.servers=239.2.11.71:8649

mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

mapred.period=10

mapred.servers=239.2.11.71:8649

jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

jvm.period=10

jvm.servers=239.2.11.71:8649

4）、scp conf/hadoop-metrics2.properties root@devcluster02:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties

5）、scp conf/hadoop-metrics2.properties root@devcluster03:/home/ysc/hadoop-1.1.1/conf/hadoop-metrics2.properties

6）、stop-all.sh

7）、start-all.sh

7、集成hbase

1）、ssh devcluster01

2）、cd /home/ysc/hbase-0.92.2

3）、vi conf/hadoop-metrics.properties(只能用组播地址239.2.11.71)

hbase.extendedperiod = 3600

hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

hbase.period=10

hbase.servers=239.2.11.71:8649

jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

jvm.period=10

jvm.servers=239.2.11.71:8649

rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

rpc.period=10

rpc.servers=239.2.11.71:8649

4）、scp conf/hadoop-metrics.properties root@devcluster02:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties

5）、scp conf/hadoop-metrics.properties root@devcluster03:/home/ysc/ hbase-0.92.2/conf/hadoop-metrics.properties

6）、stop-hbase.sh

7）、start-hbase.sh

八、Hadoop配置Snappy压缩

1、wget https://www.360docs.net/doc/a06213709.html,/files/snappy-1.0.5.tar.gz

2、tar -xzvf snappy-1.0.5.tar.gz

3、cd snappy-1.0.5

4、./configure

5、make

6、make install

7、scp /usr/local/lib/libsnappy* devcluster01:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* devcluster02:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/

scp /usr/local/lib/libsnappy* devcluster03:/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/

8、vi /etc/profile

追加：

export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64

9、修改mapred-site.xml

https://www.360docs.net/doc/a06213709.html,pression.type

BLOCK

If the job outputs are to compressed as SequenceFiles, how should

they be compressed? Should be one of NONE, RECORD or BLOCK.

https://www.360docs.net/doc/a06213709.html,press

true

Should the job outputs be compressed?

https://www.360docs.net/doc/a06213709.html,press.map.output

true

Should the outputs of the maps be compressed before being

sent across the network. Uses SequenceFile compression.

https://www.360docs.net/doc/a06213709.html,pression.codec

https://www.360docs.net/doc/a06213709.html,press.SnappyCodec

If the map outputs are compressed, how should they be

compressed?

https://www.360docs.net/doc/a06213709.html,pression.codec

https://www.360docs.net/doc/a06213709.html,press.SnappyCodec

If the job outputs are compressed, how should they be compressed?

九、Hadoop配置Lzo压缩

1、wget https://www.360docs.net/doc/a06213709.html,/opensource/lzo/download/lzo-2.06.tar.gz

2、tar -zxvf lzo-2.06.tar.gz

3、cd lzo-2.06

4、./configure --enable-shared

5、make

6、make install

7、scp /usr/local/lib/liblzo2.* devcluster01:/lib/x86_64-linux-gnu

scp /usr/local/lib/liblzo2.* devcluster02:/lib/x86_64-linux-gnu

scp /usr/local/lib/liblzo2.* devcluster03:/lib/x86_64-linux-gnu

8、wget https://www.360docs.net/doc/a06213709.html,/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz

9、tar -xzvf hadoop-gpl-compression-0.1.0-rc0.tar.gz

10、cd hadoop-gpl-compression-0.1.0

11、cp lib/native/Linux-amd64-64/* /home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64/

12、cp hadoop-gpl-compression-0.1.0.jar /home/ysc/hadoop-1.1.1/lib/(这里hadoop集群的版本要和compression使用的版本一致)

13、scp -r /home/ysc/hadoop-1.1.1/lib devcluster02:/home/ysc/hadoop-1.1.1/

scp -r /home/ysc/hadoop-1.1.1/lib devcluster03:/home/ysc/hadoop-1.1.1/

14、vi /etc/profile

追加：

export LD_LIBRARY_PATH=/home/ysc/hadoop-1.1.1/lib/native/Linux-amd64-64

15、修改core-site.xml

https://www.360docs.net/doc/a06213709.html,pression.codecs

https://www.360docs.net/doc/a06213709.html,pression.lzo.LzoCodec,https://www.360docs.net/doc/a06213709.html,press.DefaultCodec,or https://www.360docs.net/doc/a06213709.html,press.GzipCodec,https://www.360docs.net/doc/a06213709.html,press.BZip2Codec,org.apach https://www.360docs.net/doc/a06213709.html,press.SnappyCodec

A list of the compression codec classes that can be used

for compression/decompression.

https://www.360docs.net/doc/a06213709.html,pression.codec.lzo.class

https://www.360docs.net/doc/a06213709.html,pression.lzo.LzoCodec

fs.trash.interval

1440

Number of minutes between trash checkpoints.

If zero, the trash feature is disabled.

16、修改mapred-site.xml

https://www.360docs.net/doc/a06213709.html,pression.type

BLOCK

If the job outputs are to compressed as SequenceFiles, how should

they be compressed? Should be one of NONE, RECORD or BLOCK.

https://www.360docs.net/doc/a06213709.html,press

true

Should the job outputs be compressed?

https://www.360docs.net/doc/a06213709.html,press.map.output

true

Should the outputs of the maps be compressed before being

sent across the network. Uses SequenceFile compression.

https://www.360docs.net/doc/a06213709.html,pression.codec

https://www.360docs.net/doc/a06213709.html,pression.lzo.LzoCodec

If the map outputs are compressed, how should they be

compressed?

https://www.360docs.net/doc/a06213709.html,pression.codec

https://www.360docs.net/doc/a06213709.html,pression.lzo.LzoCodec

If the job outputs are compressed, how should they be compressed?

十、配置zookeeper集群以运行hbase

1、ssh devcluster01

2、cd /home/ysc

3、wget https://www.360docs.net/doc/a06213709.html,/apache/zookeeper/stable/zookeeper-3.4.5.tar.gz

4、tar -zxvf zookeeper-3.4.5.tar.gz

5、cd zookeeper-3.4.5

6、cp conf/zoo_sample.cfg conf/zoo.cfg

7、vi conf/zoo.cfg

修改：dataDir=/home/ysc/zookeeper

添加：

server.1=devcluster01:2888:3888

server.2=devcluster02:2888:3888

server.3=devcluster03:2888:3888

maxClientCnxns=100

8、scp -r zookeeper-3.4.5 devcluster01:/home/ysc

scp -r zookeeper-3.4.5 devcluster02:/home/ysc

scp -r zookeeper-3.4.5 devcluster03:/home/ysc

9、分别在三台机器上面执行：

ssh devcluster01

mkdir /home/ysc/zookeeper（注：dataDir是zookeeper的数据目录，需要手动创建）echo 1 > /home/ysc/zookeeper/myid

ssh devcluster02

mkdir /home/ysc/zookeeper

echo 2 > /home/ysc/zookeeper/myid

ssh devcluster03

mkdir /home/ysc/zookeeper

echo 3 > /home/ysc/zookeeper/myid

10、分别在三台机器上面执行：

cd /home/ysc/zookeeper-3.4.5

bin/zkServer.sh start

bin/zkCli.sh -server devcluster01:2181

bin/zkServer.sh status

十一、配置Hbase集群以运行nutch-2.1(Region Servers会因为内存的问题宕机)

1、nutch-2.1使用gora-0.2.1，gora-0.2.1使用hbase-0.90.4，hbase-0.90.4和hadoop-1.1.1不兼容，hbase-0.94.4和gora-0.2.1不兼容，hbase-0.92.2没问题。hbase存在系统时间同步的问题，并且误差要再30s以内。

sudo apt-get install ntp

sudo ntpdate -u 210.72.145.44

2、HBase是数据库，会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的。还需要修改hbase 用户的nproc，在压力下，如果过低会造成OutOfMemoryError异常。

vi /etc/security/limits.conf

添加：

ysc soft nproc 32000

ysc hard nproc 32000

ysc soft nofile 32768

ysc hard nofile 32768

vi /etc/pam.d/common-session

添加：

session required pam_limits.so

3、登陆master，下载并解压hbase

ssh devcluster01

cd /home/ysc

wget https://www.360docs.net/doc/a06213709.html,/hbase/hbase-0.92.2/hbase-0.92.2.tar.gz

tar -zxvf hbase-0.92.2.tar.gz

cd hbase-0.92.2

4、修改配置文件hbase-env.sh

vi conf/hbase-env.sh

追加：

export JAVA_HOME=/home/ysc/jdk1.7.0_05

export HBASE_MANAGES_ZK=false

export HBASE_HEAPSIZE=10000

#替换掉默认的垃圾回收器，因为默认的垃圾回收器在多线程环境下会有更多的wait等待export HBASE_OPTS="-server -Xmn256m -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:CMSInitiatingOccupancyFraction=70"

5、修改配置文件hbase-site.xml

vi conf/hbase-site.xml

hbase.rootdir

hdfs://devcluster01:9000/hbase

hbase.cluster.distributed

true

hbase.zookeeper.quorum

devcluster01,devcluster02,devcluster03

hfile.block.cache.size

0.25

Percentage of maximum heap (-Xmx setting) to allocate to block cache

used by HFile/StoreFile. Default of 0.25 means allocate 25%.

Set to 0 to disable but it's not recommended.

hbase.regionserver.global.memstore.upperLimit

0.4

Maximum size of all memstores in a region server before new updates are blocked and flushes are forced. Defaults to 40% of heap

hbase.regionserver.global.memstore.lowerLimit

0.35

When memstores are being forced to flush to make room in memory, keep flushing until we hit this mark. Defaults to 35% of heap.

This value equal to hbase.regionserver.global.memstore.upperLimit causes the minimum possible flushing to occur when updates are blocked due to memstore limiting.

hbase.hregion.majorcompaction

The time (in miliseconds) between 'major' compactions of all HStoreFiles in a region. Default: 1 day.

Set to 0 to disable automated major compactions.

6、修改配置文件regionservers

vi conf/regionservers

devcluster01

devcluster02

devcluster03

7、因为HBase建立在Hadoop之上，Hadoop使用的hadoop*.jar和HBase使用的必须一致。所以要将HBase lib 目录下的hadoop*.jar替换成Hadoop里面的那个，防止版本冲突。

cp /home/ysc/hadoop-1.1.1/hadoop-core-1.1.1.jar /home/ysc/hbase-0.92.2/lib

rm /home/ysc/hbase-0.92.2/lib/hadoop-core-1.0.3.jar

8、复制文件到regionservers

scp -r /home/ysc/hbase-0.92.2 devcluster01:/home/ysc

scp -r /home/ysc/hbase-0.92.2 devcluster02:/home/ysc

scp -r /home/ysc/hbase-0.92.2 devcluster03:/home/ysc

9、启动hadoop并创建目录

hadoop fs -mkdir /hbase

10、管理HBase集群:

启动初始HBase 集群：

bin/start-hbase.sh

停止HBase 集群：

bin/stop-hbase.sh

启动额外备份主服务器，可以启动到9 个备份服务器(总数10 个)：

bin/local-master-backup.sh start 1

bin/local-master-backup.sh start 2 3

启动更多regionservers, 支持到99 个额外regionservers (总100个)：

bin/local-regionservers.sh start 1

bin/local-regionservers.sh start 2 3 4 5

停止备份主服务器:

cat /tmp/hbase-ysc-1-master.pid |xargs kill -9

停止单独regionserver：

bin/local-regionservers.sh stop 1

使用HBase命令行模式:

bin/hbase shell

11、web界面

http://devcluster01:60010

http://devcluster01:60030

12、如运行nutch2.1则方法一：

cp conf/hbase-site.xml /home/ysc/nutch-2.1/conf

cd /home/ysc/nutch-2.1

ant

cd runtime/deploy

unzip -d apache-nutch-2.1 apache-nutch-2.1.job

rm apache-nutch-2.1.job

cd apache-nutch-2.1

rm lib/hbase-0.90.4.jar

4收集和筛选客户资料的方式的培训.

客户资源的收集顾客资源是整个营销过程的重要的环节, 只有找到顾客以后我们才可以开展电话邀约、拜访、销售等活动。如何寻找顾客资源,如何正确有效的开发利用顾客资源是做会议营销必备的前提条件,也是作会议营销公司长期坚持不懈的奋斗目标。一、寻找顾客前的几件事 (1 了解信息进行目标顾客定位 A. 了解公司的顾客是什么范围的群体。是儿童?是老人?是中年人?一定要仔细研究公司的产品适合什么样的人群。 B. 了解公司目标顾客的定位:四多两少——钱多、病多、知识多、保健意识多、负担少、关心少。 (2 努力学习、分析相关知识 C. 相关知识:老年心理学、老年常见疾病知识等。 D. 心理分析:老年人的需求?现在最关心的是什么?公司的产品他能否接受?怎么样使他对我们产生信任? E. 人际关系:要学会关心别人、尊重别人,搞好人际关系。 (3 学会教育顾客比如初期大家都不知道补钙对人体的重要性,由于大力度的宣传钙的重要性和补钙的好处, 现在绝大多数人脑中才有补钙的概念。所以,公司为了推广产品也有必要不断的教育顾客。二、资源收集的途径条条大道通罗马,但只有懂得方法、善于寻找捷径的人,才会不浪费时间最先到达终点。根据 8年来会议营销在中国市场里的运行模式来看,收集档案资源有以下几种途径 :

A. 公共场所 B. 科学普及收集 C. 赞助老年活动 D. 顾客转介绍 E. 媒体互动性收集 F. 合作联盟收集 G. 其他收集方式公共场所公共场所是老年人比较集中的地方,如我们经常看到较多老年人在广场、公园、小区活动站等地方活动。这种方式比较陈旧, 已经在市场上运作了多年, 我们不难发现从 90年代的三珠、天年、红桃 k 等都采用过这种方式,这种方式虽然陈旧但很实用,它可以较快的收集较多档案资源,宣传面较广,至今还有很多家企业在使用这种收档方式。 ①外联人员先摸清本地区老年人活动比较集中的地方, ②与小区或公园或广场联系好再作收档。 ③收档工具包括一些与这次收档相关内容的物料如:桌子、凳子、笔、条幅、着装、相关的资料等。具体操作有以下几种方式: 1、赠书赠书活动是一种宣传性和收益性较好的一种方式,可以获取较多的客户资源。夕阳美早期的收档途径之一就是准确的利用了图书,在全国免费发放夕阳美系列图

常用17大学术搜索引擎

常用的十七大学术搜索引擎常用的十七大学术搜索引擎：： 1、https://www.360docs.net/doc/a06213709.html,/ 虽然还是Beta 版，但个人已觉得现在已经是很好很强大了，Google 学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数。略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章。 2、https://www.360docs.net/doc/a06213709.html, Scirus 是目前互联网上最全面、综合性最强的科技文献搜索引擎之一，由Elsevier 科学出版社开发，用于搜索期刊和专利，效果很不错！Scirus 覆盖的学科范围包括：农业与生物学，天文学，生物科学，化学与化工，计算机科学，地球与行星科学，经济、金融与管理科学，工程、能源与技术，环境科学，语言学，法学，生命科学，材料科学，数学，医学，神经系统科学，药理学，物理学，心理学，社会与行为科学，社会学等。 3、https://www.360docs.net/doc/a06213709.html,/ BASE 是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160 个开放资源（超过200 万个文档）的数据。 4、http://www.vascoda.de/ Vascoda 是一个交叉学科门户网站的原型，它注重特定主题的聚合，集成了图书馆的收藏、文献数据库和附加的学术内容。 5、https://www.360docs.net/doc/a06213709.html,/ 与google 比较了一下发现，能搜索到一些google 搜索不到的好东东。它界面简洁，功能强大，速度快，YAHOO 、网易都采用了它的搜索技术。各位可以一试。 6、 https://www.360docs.net/doc/a06213709.html, Google 在同一水平的搜索引擎。是https://www.360docs.net/doc/a06213709.html, 推出的，Web result 部分是基于Google 的，所以保证和Google 在同一水平，另外增加了Amazon 的在书本内搜索的功能和个性化功能：主要是可以记录你的搜索历史。现在还是Beta ，不过试用后感觉很好，向大家推荐一试，不过缺憾是现在书本内搜索没有中文内容。 7、https://www.360docs.net/doc/a06213709.html, 严格意义上讲不是搜索引擎，是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生，Ixquick meta －search 正是目前最具光芒的新星。但是对于大多数国内用户来说，Ixquick 还很陌生。Ixquick 众多独特的功能我不一一介绍了，只介绍我们最关心的，搜索数据库密码。使用方法：先进入Ixquick ，以“Proquest”数据库为例。填入Proquest Username Password History Online 后点击search ，看看出来的结果，第一页中第6个，proquest 的username 和password 赫然在目，别急，再看第4个结果“HB Thompson Subscription Online Databases”，即https://www.360docs.net/doc/a06213709.html,/onlinedbs/HBTData bases/，进入后发现这是一个密码页，选择Magazines & Journals 栏，就有 EBSCO 、Electric Library Elementary 、Electric Library Elementary 、ProQuest Platinum (in school)、ProQuest Platinum (remote)等众多数据库的密码，都有uesrname 和password ，随便试一下EBSCO ，OK ，成功登陆。 8、https://www.360docs.net/doc/a06213709.html,/ cmu 的作品，对搜索的内容进行分类，这样可以有效地做出选择，比较有特色。可实现分类检索，检索速度也很好，如EBSCO 密码几分钟就可找一大堆 . https://www.360docs.net/doc/a06213709.html,/ User ID: mountain Password: ridge 这个密码可以试试。 9、https://www.360docs.net/doc/a06213709.html,/ 一个检索免费paper 的好工具。进入网页以后，可以看到他有三个功能，driectory web article ，其中article 对我们很有帮助，你可以尝试输入你要找的文章，会有很多发现的！ 10、https://www.360docs.net/doc/a06213709.html,/Sample 感觉不是很好用，内容也不是太多，主要靠用户添加网址，提供信息的搜索引擎，搜索功能也比较差，输入常见的关键词，往往找不到相匹配的内容。 11、https://www.360docs.net/doc/a06213709.html, 现点击后或跳转到https://www.360docs.net/doc/a06213709.html, ，在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商，与Chemblink 有点相似，但提供的化学品理化信息没有Chemblink 详细，与其不同的是该搜索引擎可提供化学品结构式搜索（主页上有在线绘制化学结构式的搜索框）。 12、 https://www.360docs.net/doc/a06213709.html,/ OJOSE (Online Journal Search Engine ，在线期刊搜索引擎)是一个强大的免费科学搜索引擎，通过OJOSE ，你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。 13、https://www.360docs.net/doc/a06213709.html,/ 一个关于计算机和信息科学的搜索引擎。 14、http://hpsearch.uni-trier.de/ 专家个人主页搜索引擎 15、https://www.360docs.net/doc/a06213709.html,/ 为了给读者用户提供一个方便快捷的查阅国外各类期刊文献的综合网络平台，中图公司组织开发了cnpLINKer （cnpiec LINK service ）在线数据库检索系统，并正式开通运行。cnpLINKer 即“中图链接服务”，目前主要提供约

Nutch搜索引擎(第1期)_Nutch简介及安装

细细品味Nutch ——Nutch搜索引擎（第1期）精华集锦 csAxp 虾皮工作室 https://www.360docs.net/doc/a06213709.html,/xia520pi/ 2014年3月18日

Nutch搜索引擎（第1期） ——Nutch简介及安装 1、Nutch简介 Nutch是一个由Java实现的，开放源代码（open-source）的 web搜索引擎。主要用于收集网页数据，然后对其进行分析，建立索引，以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储，索引使用了Solr分布式索引框架来做，Solr是一个开源的全文索引框架，从Nutch 1.3开始，其集成了这个索引架构。 Nutch目前最新的版本为version1.4。 1.1 Nutch的目标 Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标，Nutch必须能够做到： ●每个月取几十亿网页 ●为这些网页维护一个索引 ●对索引文件进行每秒上千次的搜索 ●提供高质量的搜索结果 ●以最小的成本运作 1.2 Nutch的优点 ●透明度 Nutch是开放源代码的，因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的，我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步，一些搜索引擎允许竞价排名，比如百度，这样的索引结果并不是和站点内容相关的。因此Nutch对学术搜索和政府类站点的搜索来说，是个好选择。因为一个公平的排序结果是非常重要的。 ●扩展性你是不是不喜欢其他的搜索引擎展现结果的方式呢？那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的，他可以被很好的客户订制并集成到你的应用程序中。使用Nutch 的插件机制，Nutch 可以作为一个搜索不同信息载体的搜索平台。当然，最简单的就是集成Nutch到你的站点，为你的用户提供搜索服务。 ●对搜索引擎的理解

常用的26条学术搜索引擎

常用的26条学术搜索引擎学术搜索是一项免费服务，可以帮助快速寻找学术资料，如专家评审文献、论文、书籍、预印本、摘要以及技术报告。这里为你介绍26个学术搜索引擎。 1、 Google 学术搜索虽然还是Beta版，但个人已觉得现在已经是很好很强大了，Google学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数。略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章。 2、Scirus学术搜索 Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一，其口号为“for scientific informationonly”。它由Elsevier科学出版社开发，用于搜索期刊和专利，效果很不错！Scirus覆盖的学科范围包括：农业与生物学，天文学，生物科学，化学与化工，计算机科学，地球与行星科学，经济、金融与管理科学，工程、能源与技术，环境科学，语言学，法学，生命科学，材料科学，数学，医学，神经系统科学，药理学，物理学，心理学，社会与行为科学，社会学等。 3、Base学术搜索 BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源（超过200 万个文档）的数据。 4、Vascoda Vascoda是一个交叉学科门户网站的原型，它注重特定主题的聚合，集成了图书馆的收藏、文献数据库和附加的学术内容。 5、Goole 与google比较了一下发现，能搜索到一些google搜索不到的好东东。它界面简洁，功能强大，速度快，YAHOO、网易都采用了它的搜索技术。各位可以一试。 6、A9

客户信息收集的方法

客户信息收集的方法 1．统计资料法。这是跟单员收集客户信息的主要方法，它通过企业的各种统计资料、原始记录、营业日记、订货合同、客户来函等，了解企业在营销过程中各种需求变化情况和意见反映。这些资料多数是靠人工收集和整理的，而且分散在企业各职能部门内部，需要及时整理汇总。 2．观察法。主要是通过跟单员在跟单活动的第一线进行实地观察收集客户信息。此法由于信息来源直接，可以减少传递者的主观偏见，所得资料较为准确，但观察法主要是看到事实的发生，难于说明内在原因。在现实生活中是处处都有信息的，只要善于观察，就能捕捉市场机会。 3．会议现场收集法。主要是通过各种业务会议、经验交流会、学术报告会、信息发布会、专业研讨会、科技会、技术鉴定会等，进行现场收集。 4．阅读法。主要是指从各种报纸、杂志、图书资料中收集有关信息。报刊是传播信息的媒介，只要详细阅读，认真研究，不难发现其中对自己有用的信息。据外国一所战略研究所分析，世界上有60%~70%的信息情报是来自公开的图书资料，可见从阅读中收集信息的重要性。 5．视听法。主要是指在广播、电视节目中去捕捉信息。广播与电视是大众传播媒介，信息传递快，除广告外还有各种市场动态报道，这些都是重要的信息源。 6．多向沟通法。这是指与企业外部有关单位建立信息联络网，互通情报，交流信息。多向沟通可分为纵向沟通与横向沟通两大类：纵向沟通是加强企业上下级之间的信息交流，建立自上而下的信息联络网，既反映企业的情况，又能取得上级有关部门的情报资料；横向沟通是指行业内企业之间、地区之间、协作单位之间建立各种信息交换渠道，定期或不定期交换信息情报资料。 7．聘请法。根据企业对信息的需求情况，聘请外地或本地的专职或兼职信息员、顾问等，组成智囊团，为企业提供专业情报，并为企业出谋划策。 8．购买法。这是一种有偿转让信息情报的方法。随着信息革命的发展，国内外新兴起各种信息行业，如咨询公司、顾问公司等，他们负责收集、整理各种信息资料；各类专业研究机构、大学研究部门也有各种信息资料。购买法就是向这些信息服务单位有偿索取，虽然这些资料多数属于第二手资料，但省时且来源广，只要目的明确，善于挑选，也不失为重要来源。 9．加工法。企业的结构，一般都有底层、中层、顶层之分，不同的层次有不同的信息流。底层的一些数据，如日报、周报、月报等。这还不能算是高一层次所需要的信息，但当这些数据往上输送，中层进行加工，便成为一种有用的信息。例如，企业将各部门的月报加以综合分析，便可形成一种信息。

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取

Hadoop-0.20.2+ Nutch-1.2+Tomcat-7——分布式搜索配置随着nutch的发展，各模块逐渐独立性增强，我从2.1到1.6装过来，也没有实现整个完整的功能。今天装一下nutch1.2，这应该是最后一个有war文件的稳定版本。 1. 准备工作下载apache-nutch-1.2-bin.zip、apache-tomcat-7.0.39.tar.gz、hadoop-0.20.2.tar.gz。将下载的hadoop-0.20.2.tar.gz解压到/opt文件夹下。将下载的apache-nutch-1.2-bin.zip解压到/opt文件夹下。将下载的apache-tomcat-7.0.39.tar.gz解压到/opt文件夹下。 2. 配置hadoop-0.20.2 (1) 编辑conf/hadoop-env.sh，最后添加 export JAVA_HOME=/opt/java-7-sun export HADOOP_HEAPSIZE=1000 export HADOOP_CLASSPATH=.:/opt/nutch-1.2/lib:/opt/hadoop-0. 20.2 export NUTCH_HOME=/opt/nutch-1.2/lib (2) 编辑/etc/profile，添加 #Hadoop export HADOOP_HOME=/opt/hadoop-0.20.2 export PATH=$PATH:$HADOOP_HOME/bin (3) 编辑conf/core-site.xml

找客户资料的几种收集方法

找客户资料的几种收集方法对于负责销售商品的销售人员，会对去哪里取得拜访客户资料感到十分困扰。他们常常透过客户再介绍或者花钱买名单，但往往是缓不济急或是效果不佳。甚至有些销售人员会想出许多新奇的点子来获得客户资料的，当然每个人的方法都是不同的，那接下来就简单给大家介绍几个找客户资料的方法吧： 1、客户搜索工具我们可以通过客户搜索工具搜客通，它是一款在线客户搜索管理软件，可以帮助销售人员快速的找到需要的客户资料，并且搜客通能帮销售人员管理和整理客户资料，从而给销售人员这个群体提供一个一体化的找客户→管客户→维护客户的一个平台。 2、在调查中获取客户信息即调查人员通过面谈、问卷调查、电话调查等方法得到第一手的客户资料。 3、在营销活动中获取客户信息例如，广告发布后，潜在客户或者目标客户与企业联系——或者打电话，或者剪下优惠券寄回，或者参观企业的展室等，一旦有所回应，企业就可以把他们的信息添加到客户数据库中。 4、在服务过程中获取客户信息对客户的服务过程也是企业深入了解客户、联系客户、收集客户信息的最佳时机。在服务过程中，客户通常能够直接并且毫无避讳地讲述自己对产品的看法和期望，对服务的评价和要求，对竞争对手的认识，以及其他客户的意愿和销售机会，其信息量之大、准确性之高是在其他条件下难以实现的。 5、各种媒介是指企业从公开的信息中或者通过购买获得客户资料。国内外各种权威性报纸、杂志、图书和国内外各大通讯社、电视台发布的有关信息，这些往往都会涉及到客户资料。 6、展览会客户都会参观展览会，在展览会上，销售人员就可以搜集一些客户资料，销售人员销售产品，不一定要和竞争者在同一个展览会上争取客户，客户也会参加很多的展览会，你也可以和他们一同设置争取商机的专柜，形成互补。

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案

第1章Python爬虫环境与爬虫简介教案课程名称：Python网络爬虫技术课程类别：必修适用专业：大数据技术类相关专业总学时：32学时（其中理论14学时，实验18学时）总学分：2.0学分本章学时：2学时一、材料清单（1）《Python网络爬虫技术》教材。（2）配套PPT。（3）引导性提问。（4）探究性问题。（5）拓展性问题。二、教学目标与基本要求 1.教学目标先对爬虫的概念和原理，及反爬虫的概念进行基本的概述，列举针对反爬虫的常用手段制定对应爬取策略。而后简要介绍了Python常用爬虫库和爬虫环境，以及用于存储爬取的数据的MySQL、MongoDB数据库。 2.基本要求（1）了解爬虫的原理。

（2）了解爬虫运作时应遵守的规则。（3）了解反爬虫的目的和常用手段。（4）了解Python常用爬虫库。（5）掌握MySQL、MongoDB数据库的配置方法。三、问题 1.引导性提问引导性提问需要教师根据教材内容和学生实际水平，提出问题，启发引导学生去解决问题，提问，从而达到理解、掌握知识，发展各种能力和提高思想觉悟的目的。（1）爬虫能够做什么？（2）爬虫能爬哪些数据？（3）Python语言在爬虫方面有哪些优势？ 2.探究性问题探究性问题需要教师深入钻研教材的基础上精心设计，提问的角度或者在引导性提问的基础上，从重点、难点问题切入，进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。（1）爬虫能够应用在那些场景？（2）爬虫的原理是什么？ 3.拓展性问题拓展性问题需要教师深刻理解教材的意义，学生的学习动态后，根据学生学习层次，提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨，完成拓展性问题。（1）爬虫是不是万能的？（2）爬虫在数据分析有哪些作用？

Nutch 1.5.1入门指南

Nutch 1.5.1入门指南一、简介 Nutch是一个Java实现的web爬虫，爬取的结果存储到database（指定文件路径下的一系列文件及目录）供Solr或Lucene索引和检索。 2012年7月发布的最新版本有两个：主流的v1.5.1和支持大范围爬取、大数据存储的v2.0。 Grub (search engine)是开源的分布式搜索爬虫平台（distributed search crawler platform）。创建于2000年，2003年被LookSmart收购，后来被中止，2007年再次启动。官网https://www.360docs.net/doc/a06213709.html,。注意与GNU GRUB的不同，GNU GRUB是计算机启动的引导加载程序（boot loader）。Larbin是法国人用C++实现的web爬虫，最近已经不更新了。二、使用Nutch 1.解压缩Nutch二进制分发包，目录如下： ●bin目录，只包含一个可执行文件nutch ●conf目录，nutch命令执行的配置参数 ●docs目录，JavaDoc帮助 ●lib目录，相关Jar类库 ●plugins目录，相关插件库记{Nutch解压缩目录}/nutch为NUTCH_HOME 2.设置环境变量JAVA_HOME 略 3.修改配置文件conf/nutch-site.xml

4.设置要爬取的网址URL 创建myURLs目录（为了执行方便，最好为$NUTCH_HOME/myURLs）在myURLs目录创建文件seed.txt，编辑该文件，一行一个要爬取的网址url。 5.执行命令nutch命令 bin/nutch crawl myURLs -dir crawlDir -depth 3 -topN 5 说明： crawl是nutch命令的参数，表示进行爬取操作； myURLs指定要爬取的URLs； crawlDir指定爬取结果的存放目录； depth指定爬取的网址的深度，即从指定URL逐层进入的链接的深度； topN指定在每个深度爬取的页面数量上限 6.爬取结果分析经过若干时间，nutch命令执行完毕，crawlDir目录下将出现如下3个子目录： ●crawldb,其中是Nutch已知的全部URL（包括已经爬取的和未爬取的，爬取的时间）。 ●linkdb,其中是到每个URL的已知链接列表，包括源URL和链接的锚名字。 ●segments,其中是segment的集合。一个segment是URLs的集合，这些URLs作为一个单位（unit）被爬取。 ?crawl_generate，命名爬取的URLs集合 ?crawl_fetch，包含每个URL的爬取状态 ?content，包含从每个URL爬取的原始内容 ?parse_text，包含每个URL的解析之后的文本 ?parse_data，包含从每个URL解析出来的外部链接(outlinks)和元数据(metadata) ?crawl_parse，包含外部链接URLs，用以更新crawldb

获得客户资料的方法

如何获得客户资料（一）能找到你想要的信息的十个方法： 1、搜索：动动你的手指，信息尽在指尖；网上信息让你搜——企业网站、新闻报道、行业评论等等。优点：信息量大，覆盖面广泛。缺点：准确性，可参考性不高，需要经过筛选方可放心使用。 2、权威数据库：他们是谁；国家或者国际上对行业信息或者企业信息有权威的统计和分析，是可供参考的重点，对企业销售具有重要的知道作用。优点：内容具有权威性和准确性。缺点：不易获得。 3、专业网站：很多是免费的；各行业内部或者行业之间为了促进发展和交流，往往设立有行业网站，或者该方面技术的专业网站。优点：以专业的眼光看行业，具有借鉴性，企业间可做对比。缺点：不包含深层次的信息。 4、展览：最值得去的地方；各行业或者地区定期或不定期会有展览。会有很多企业参展。优点：更丰富具体的信息。缺点：展览时间的不确定性。 5、老客户：你忽略了信息价值吗；你的老客户同你新的大客户之间会有一定的相同之处。而同行业之间会有更多的相似之处，因此，你的老客户也会很了解其他客户的信息。销售企业可根据同老客户的关系，获得行业内部的一些信息，优点：信息的针对性和具体性，可参考性高。缺点：容易带主观思想色彩。 6、竞争对手：让对手开口告诉你你的客户信息。 7、客户企业：他会为您提供相应的一些必要信息。 8、市场考察：想畅销就得做。 9、会议与论坛：注意那些头脑们的观点，这些观点对行业的发展会起到很深的影响。 10、专业机构：为你提供专业信息。

（二）一.客户资料的搜寻通常我们获取客户资料有第一手和第二手两部分组成。 1. 第一手客户资料来源 (1) 现场参观考察 (2) 会展观察报告 (3) 产品解剖分析 2. 第二手客户资料来源 (1)报刊和专业杂志 (2)行业协会出版物 (3)产业研究报告 (4)政府各管理机构对外公开的档案（如工商企业注册资料、上市公司业绩报告等） (5)政府出版物 (6)互联网及数据库 (7)工商企业名录 (8)产品样本、手册 (9)企业招聘广告 (10)企业内部员工 (11)经销商 (12)供货商 (13)客户 (14)行业主管部门 (16)竞争对手 (17)信用调查报告 (18)专业调查咨询机构 (19)驻外使馆和驻华机构 (20)驻京的国际组织其中，互联网的功能与作用日益重要。互联网作为20世纪最伟大的技术发明之一，商用才十几年，以大大改变了人类生活、工作、交往和交易的方式。成为经济全球化的重要标志和动力之一。网络已经成为企业情报人员收集信息的最主要的手段。报刊杂志和其它信息收集方式已经成为了辅助的手段。但是，却只有少数的企业在使用专门的情报收集系统帮助搜集信息。

nutch配置过程

Nutch搜索引擎数据获取 1 基本原理： 1.1 体系结构设计：网络蜘蛛一般都具有3模块：HTTP下载模块，链接分析模块，下载控制模块。 HTTP下载模块利用http网络协议下载，获取并存储内容。链接分析模块能提取网页中的超链接，用来获得后续页面入口。下载控制模块控制页面访问次序、更新策略、访问队列调度等工作。工作流程： 1、访问URL数据库，读取URL入口地址，生成内存访问队列。 2、寻找空闲的HTTP下载模块，分配URL，启动下载任务。 3、HTTP下载模块访问互联网，得到的网页内容放入结果队列。 4、定期保存到网页数据库，为后续索引做准备。 5、链接分析模块提取页面内的新连接，存入URL数据库等待下载。 6、重复上述过程直到全部下载完成，等待新的任务。 1.2 访问策略与算法：网络蜘蛛访问一个网站，一般入口页面为网站的首页或者sitemap页面。从这个页面通过链接分析，寻找并访问后续页面地址。网络蜘蛛对网站的访问有深度限制，一般在3~5层，遍历策略一般采用广度优先算法和深度优先算法。从应用角度看，广度优先能尽可能的比较平均的获取不同网站的内容，比较适合于大型搜索引擎系统初期网页库的建立；深度优先在设计师比较容易，对垂直搜索或者站内搜索比较合适。 2 Nutch网络蜘蛛 2.1 概述 Nutch系统包含一个功能强大的网络蜘蛛。这个网络蜘蛛的核心是Crawl工具。这个工具根据事先设定的入口URL列表，不断地自动下载页面，知道满足系统预设的停止条件。Crawl本身是另外一系列网页下载相关工具的组合。 Nutch主要的5个操作命令： Admin：用来创建一个新的WEB数据库，WEB数据库实际上就是URL数据库，存储了网络爬虫抓取的网页信息和网页之间的链接信息。 Inject：添加数据下载的入口链接。首先读取给定的纯文本格式文件，获取URL列表，作为入口地址添加到已有的web数据库中。 Generate：生成待下载URL列表。按照WEB数据库格式提取未下载的URL，以fetchlist形式给出，为下载做好准备。 Fetch：按照HTTP协议访问互联网，获取网页数据的具体内容。下载过程有下载列表和操作参数控制，直到下载完毕。 Updatedb：用来添加网页下一层链接的URL。从已经下载文件中获取URL 链接，更新web数据库，添加到已有的web数据库。下载的数据存储主要以目录文件形式存放，具体内容包括WEB数据库、数据段（segments）和数据索引。

42种网络学术搜索引擎大全

42种网络学术搜索引擎大全 2014-11-03浙大研究生 “看新闻，查文献，做调研，找素材，怎么样样都要搜搜搜？？”今天小研给大家介绍各种搜索引擎吧！让你的搜索更精确，更全面~ 1 Google 学术搜索 https://www.360docs.net/doc/a06213709.html,/（若打不开，修改host文件即可）不少人说这玩意不好，尤其是与百度比较。这也只是一说，你可以自己试试。Google学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数。略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章。 2 百度学术搜索 https://www.360docs.net/doc/a06213709.html,/ 2011年6月初，“百度学术搜索”上线，经过重大变革后重新出世。收录国内外学术站点超过70万家，如中文学术站点知网、万方、维普、外文学术站点acm、IEEE、springer等,共计收录中外文学术资源总量逾2亿，中文超1.5亿，外文超1亿，让学术搜索“一键直达”。据悉，这也是国内首个拥有亿级别索引量的互联网学术平台。 3 BASE搜索 https://www.360docs.net/doc/a06213709.html,/ BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源（超过200万个文档）的数据。 4 Vascoda http://www.vascoda.de/ Vascoda是一个交叉学科门户网站的原型，它注重特定主题的聚合，集成了图书馆的收藏、文献数据库和附加的学术内容。 5 学术搜索引擎导航 https://www.360docs.net/doc/a06213709.html,/science/science-search.htm 收录了优秀的中外文学术搜索引擎及其地址。 6 读秀学术搜索

客户资源的收集方法

客户资源的收集方法客户资源收集的方法各种各样，也来源于各个地方，有时候不经意的一个号码也会是一个机遇，同时也要做到知己知彼，百战不殆。有效名单标准 1、姓名 2、职位（优质：大公司人力资源部总监、常务总监、总经理、总裁、执行董事、常务董事、董事长等） 3、办公电话、传真、信箱、邮箱、手机 4、公司名称 5、公司地址优质名单特点；有需求、有购买力的企业公司人数至少50人大公司人力资源部总监、常务总监、店长、厂长、总经理、总裁、执行董事、常务董事、董事长等的手机号码的名单收集客户资源的方法：第一类 A、名片店、复印店、印刷厂收集 B、报纸和电视上广告的企业，路牌等户外传媒广告的企业、 C、专业报刊、杂志收集，整理 D、人才市场、招聘会收集 E、向专业的名录公司购买第二类 A、陌拜扫楼（带上邀请函或需求调查表） B、随时随地交换名片 C、和竞争对手互换资源 D、和其他公司业务人员互换资源（如保险公司、高尔夫球会等）第三类 A参加展览会名单 B加入专业俱乐部会所 C参加其他培训公司的大型公开课程的名单（如陈安之等）。第四类 A、商业协会、行业协会 B、工商局、税务局 C、商学院的同学录（如：MBA\EMBA）

第五类 A、亲人、朋友介绍 B、未成交客户转介绍 C、已成交客户转介绍第六类 A、黄页、工商名册（如联通黄页） B、网上下载的名单（网络查询） C、114查询（注：实际上客户资源很多，只要养成随时随地记录电话号码、索要名片的习惯，客户资源无处不在。）客户资源的方法 1、从名片店中获取名单（以想做名片为由，两人合作，一人和工作人员聊天，引开注意力，另一人用手记录号码。和其中一位店员搞好关系，定期从中拿取或购买）注：每张有效名片都是一张没有密码的信用卡 2、从已成交的客户或未成交的客户但态度很好的人中获取 3、参加其它公司的公开课获取名单（大量交换名片或发放有价值资料交换名片） 4、向专业的名录公司购买总经理的手机号码（一定要测试） 5、扫楼，带一百份邀请函（直接卖嘉宾券并交换名片，很有效） 6、汽车销售公司客户服务人员手中获得（和对方达成等定期交换协议） 7、房地产物业管理人员，联通、移动的客服人员中获得 8、参加同行业的说明会，推广课，或与同行业互换名单（找到几人合作，定期交换） 9、熟人朋友中获得（例：前台、文员、秘书、有影响力的朋友） 10、找商业协会，行业协会，同乡会 11、保险公司人员中弄名单，业务主管以上（定期交换） 12、加入俱乐部、会所等聚会活动 13、参加论坛：财富论坛，财富沙龙 14、商学院老师的同学录（例：MBA、EMBA等） 15、寻找大型的商业城 16、工商局、税务局、银行的名单 17、参加民营企业考察团 18、黄页、工商名录（例：新出的带企业法人的名录） 19、参加展览会的名单（留意各种会展信息，找展会的参展商名录） 20、网上下载名单（网络查询）

Nutch 分布式网络爬虫研究与优化

*The Natural Science Foundation of Hunan Province of China under Grant No. 07555084 (湖南省自然科学基金); the Science and Technology Projects of Guangdong Province under Grant No. 2009B080701031 (广东省科技计划项目). Received 2010-04, Accepted 2010-06. ISSN 1673-9418 CODEN JKYTA8 E-mail: fcst@https://www.360docs.net/doc/a06213709.html, Journal of Frontiers of Computer Science and Technology https://www.360docs.net/doc/a06213709.html, 1673-9418/2011/05(01)-0068-07 Tel: +86-10-51616056 DOI: 10.3778/j.issn.1673-9418.2011.01.007 Nutch 分布式网络爬虫研究与优化* 詹恒飞1+, 杨岳湘2, 方宏2 1. 国防科学技术大学计算机学院, 长沙 410073 2. 国防科学技术大学信息中心, 长沙 410073 Research and Optimization of Nutch Distributed Crawler * ZHAN Hengfei 1+, YANG Yuexiang 2, FANG Hong 2 1. School of Computer Science, National University of Defense Technology, Changsha 410073, China 2. Information Center, National University of Defense Technology, Changsha 410073, China + Corresponding author: E-mail: zhf_a_b@16 https://www.360docs.net/doc/a06213709.html, ZHAN Hengfei, YANG Yuexiang, FANG Hong. Research and optimization of Nutch distributed crawler. Journal of Frontiers of Computer Science and Technology, 2011, 5(1): 68-74. Abstract: As a good open-source search engine, Nutch kernel code uses a lot of MapReduce programming models, being used by more and more businesses and organizations to customize their needs in line with the distributed search engine product. As a good search engine, one of the important prerequisites is how to grab network data as much as possible to build indexes. This paper introduces Nutch’s working mechanism based on Hadoop distributed Web crawler, points out its shortcomings and proposes an improved program, which can make Web crawler using network resources more efficiently to capture network data. Experimental results show that it is indeed more effi-cient than the original programs. Key words: Nutch; Web crawler; flexible crawling 摘要: Nutch 作为一个优秀的开源搜索引擎, 其内核代码大量采用了MapReduce 的编程模式, 被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎, 其重要的前提是如何

客户资料收集及整理方案

客户资料收集及整理参考方案 1，客户资料的收集渠道; 客户资料的获得是成功的第一步，为了后续工作的开展，在收集客户资料的渠道上首先应该掌握足够的获取方法。从多个渠道收集我们所需要的信息，是保证我们信息全面的有效方法，因为客户信息对我们后面的专业判断影响甚大，因此要严格认真的对待。在获取客户信息时，要充分明确自身信息需求，积极汇聚潜在客户信息，要以敏锐的触觉感知市场，洞悉自己的竞争对手，实时跟踪动态信息的流变，要对行业市场全貌有所了解。 1、网络搜索：企业网站、新闻报道、行业评论等等。优点：信息量大，覆盖面广泛。缺点：准确性，可参考性不高，需要经过筛选方可放心使用。 2、权威数据库：国家或者国际上对行业信息或者企业信息有权威的统计和分析，是可供参考的重点，对企业销售具有重要的知道作用。优点：内容具有权威性和准确性。缺点：不易获得。 3、专业网站：各行业内部或者行业之间为了促进发展和交流，往往设立有行业网站，或者该方面技术的专业网站。优点：以专业的眼光看行业，具有借鉴性，企业间可做对比。缺点：不包含深层次的信息。 4、展览：各行业或者地区定期或不定期会有展览。会有很多企业参展。优点：更丰富具体的信息。缺点：展览时间的不确定性。 5、老客户：你的老客户同你新的大客户之间会有一定的相同之处。而同行业之间会有更多的相似之处，因此，你的老客户https://www.360docs.net/doc/a06213709.html,也会很了解其他客户的信息。销售企业可根据同老客户的关系，获得行业内部的一些信息，优点：信息的针对性和具体性，可参考性高。缺点：容易带主观思想色彩。 6、竞争对手：让对手开口告诉你你的客户信息。 7、客户企业：他会为您提供相应的一些必要信息。 8、市场考察：想畅销就得做。 9、会议与论坛：注意那些头脑们的观点，这些观点对行业的发展会起到很深的影响。 10、专业机构：为你提供专业信息。 2，对客户资料的整理信息收集后要进行归类整理，便于及时回复和节省时间。要学会挖掘提炼信息价值，使收集的各类资料最大限度的服务于企业销售。 1，大客户基础资料其为什么样的客户? 规模多大？员工多少? 一年内大概会买多少同类产

18个科研必备搜索引擎

18个科研必备搜索引擎 2014-07-31 22:25 来源：100biotech 作者：100biotech 字体大小 - | + 编者注：部分链接可能已失效。科研工作者总是少不了要在网上检索各类信息。“工欲善其事必先利其器”，好的搜索引擎可以帮我们迅速找到所需的资料。在此为大家推荐18个科研常用搜索引擎，它们各有所长，善用它们，相信可以达到事半功倍的效果。 1、谷歌学术搜索—— https://www.360docs.net/doc/a06213709.html,/ 2004年，Google第一次发布了Google学术搜索的试用版。该项索引包括了世界上绝大部分出版的学术期刊，可广泛搜索学术文献的简便方法。您可以从一个位置搜索众多学科和资料来源：来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。 2、qns全能搜后起之秀，科研人员的良好助手，上此网站的90%是从事科研的学生与老师。其词典搜索集成了目前市面上最好的在线英汉写作及科研词典，用此搜索引擎写作英文论文相当方便；其文献搜索集成了目前最优秀的数据库。一键切换搜索，非常方便，不用开很多窗口而打断思路。 3、https://www.360docs.net/doc/a06213709.html,/ Scirus是目前互联网上最全面、综合性最强的科技文献搜索引擎之一，由Elsevier科学出版社开发，用于搜索期刊和专利，效果很不错！ Scirus覆盖的学科范围包括：农业与生物学，天文学，生物科学，化学与化工，计算器科学，地球与行星科学，经济、金融与管理科学，工程、能源与技术，环境科学，语言学，法学，生命科学，材料科学，数学，医学，神经系统科学，药理学，物理学，心理学，社会与行为科学，社会学等。 4、https://www.360docs.net/doc/a06213709.html,/ BASE是德国比勒弗尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒弗尔德大学图书馆的图书馆目录和大约160 个开放资源（超过200万个文文件）的数据。 5、http://www.vascoda.de/

收集客户资源最有效方法

收集客户资源最有效方法收集客户资源的第1种有效途径是：找黄页（包括网上黄页）。这种方法在前几年网络不发达的时候，就已经是收集客户资源的最主要的工具，但现在它已经很少被市场人员所采用。原因一是，随着互联网不断发展，出现了更快捷准确的信息收集渠道，取为代之，二是很多黄页多是黄页公司采集来的企业，并不都是实力雄厚的公司。但它仍有一定作用：因为当我们没有网络或电脑的时候，仍能保证开展业务，同时黄页多有分类查阅功能，可从宏观上了解一个地区的主要行业及企业的分布状况。所以，建议配备一套这样的黄页也有必要。收集客户资源的第2种有效途径是：用好baidu或google等搜索工具。这种途径是目前最流行、也是最快捷方便的方法，它具有实时性、完整性、互动性等特点，但如何用好网络收集客户，也是一个最复杂的过程。假设我们要整理一份舟山普陀地区主要企业及其HR 联系名单，我们将如何做呢？首先，可在百度或谷歌里搜索关键词“舟山普陀主要企业”，这样就可能出现很多类似的名单或名称，但也有可能没有。没有的话，那怎么办呢？我呢之前在网上听过一些关于搜索引擎的一些课程：“搜索的要诀在于对关键词的选择。”这几个关键词不行，就换！换个“普陀企业”扩大一点（注意：搜索的规则是，先搜最具体的关键词，如“普陀企业hr名单”，如搜不出，则可以把关键词分开，试一试“普陀企业 hr 名单”，还没有的话，

就换个意思相近的词，如“企业”改为“公司”，“hr”改为“人力资源”，“公司名单”改为“企业一百强”等，还不行的话，则要扩大关键词了，换几个意义更广阔的，如搜索“舟山企业名单”等，出来之后，肯定不仅仅是普陀的企业了，但一般包括普陀的企业，这就需要你一页一页的细细寻找了）。另外，搜索的另一个要诀是换个搜索引擎，百度不行谷歌，同时也试一试搜搜，试一下有道。这里说一下搜索的要诀技巧：别人经常使用的一些词要是搜不出，就找它的同义词去搜。收集客户资源的第3种有效途径是：善于利用百度文库、百度快照、百度百科、百度知道等工具。打个比方，无数知名或不知名的人都被百度百科收录进去，你要找的客户无论是单位或是个人，可能已经被收录进去了。假设，我想了解下“21世纪法律研究院”这个机构的情况，但没看到其网站，怎么办？在百科里试一试，结果真有。（类似百度百科的还有搜搜百科，维基百科等，其中维基百科的收录标准最严，也最权威一些）。至于百度文库，里面有很多别人上传上的资料，只要有心，一般都能找到，例如在文库里找“中国电子政务百强企业”，一般能找到类似的名单，有人问了，下载这些资料的时候要注册，还要财富值，没有怎么办？我可以告诉大家：没有登录照样可以在其窗口复制其内容。（类似百度文库的还有道客巴巴、豆丁网等）。百度知道的功能在于你可以提出问题让别人解答。例如你想知道国脉研究院的人力资源总监的名字，你可以提问，有可能就有网友给你提供。

Nutch相关框架安装使用最佳指南

4收集和筛选客户资料的方式的培训.

常用17大学术搜索引擎

Nutch搜索引擎(第1期)_Nutch简介及安装

常用的26条学术搜索引擎

客户信息收集的方法

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取

找客户资料的几种收集方法

Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案

Nutch 1.5.1入门指南

获得客户资料的方法

nutch配置过程

42种网络学术搜索引擎大全

客户资源的收集方法

Nutch 分布式网络爬虫研究与优化

客户资料收集及整理方案

18个科研必备搜索引擎

收集客户资源最有效方法

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案