HttpClient学习笔记

HttpClient学习笔记
HttpClient学习笔记

Jakarta Commons HttpClient 学习笔记

笔记一:

1、HttpClient的功能

1.基于标准,纯正java,实现了http1.0和1.1。

2.在一个可扩展的OO框架内,实现了HTTP的全部方法(GET, POST,

PUT, DELETE, HEAD, OPTIONS, and TRACE)

3.支持HTTPS(ssl上的HTTP)的加密操作

4.透明地穿过HTTP代理建立连接

5.通过CONNECT方法,利用通过建立穿过HTTP代理的HTTPS连接

6.利用本地Java socket,透明地穿过SOCKS(版本5和4)代理建立连接

7.支持利用Basic、Digest和NTLM加密的认证

8.支持用于上传大文件的Multi-Part表单POST方法

9.插件式安全socket实现,易于使用第三方的解决方案

10.连接管理,支持多线程应用,支持设定单个主机总连接和最高连接数量,自动检测和

关闭失效连接

11.直接将请求信息流送到服务器的端口

12.直接读取从服务器的端口送出的应答信息

13.支持HTTP/1.0中用KeepAlive和HTTP/1.1中用persistance设置的持久连接

14.直接访问由服务器送出的应答代码和头部信息

15.可设置连接超时时间

16.

17.HttpMethods 实现Command Pattern,以允许并行请求或高效连接复用

18.遵循the Apache Software License协议,源码免费可得

2、预备工作

对jre1.3.*,如果要HttpClient支持https,则需要下载并安装jsse和jce.安装的步骤如下:

1)下载jsse和jce.

2)检查CLASSPATH中没有与jsse和jce相关的jar包

3)将US_export_policy.jar、local_policy.jar、jsse.jar、jnet.jar、jce1_2_x.jar、sunjce_provider.jar、jcert.jar复制到目录:

UNIX:$JDK_HOME/jre/lib/ext

Windows:%JDK_HOME%\jre\lib\ext

4)修改下述目录下的java.security文件。

UNIX:$JDK_HOME/jre/lib/security/

Windows:%JDK_HOME%\jre\lib\security\

5)

#

# List of providers and their preference orders:

#

security.provider.1=sun.security.provider.Sun

security.provider.2=com.sun.rsajca.Provider

改为:

#

# List of providers and their preference orders:

#

security.provider.1=com.sun.crypto.provider.SunJCE

security.provider.2=sun.security.provider.Sun

security.provider.3=com.sun.rsajca.Provider

security.provider.4=https://www.360docs.net/doc/c410388281.html,.ssl.internal.ssl.Provider

HttpClient还要求安装commons-logging,下面跟httpclient一块安装。

3、取得源码

cvs -d :pserver:anoncvs@https://www.360docs.net/doc/c410388281.html,:/home/cvspublic login

password: anoncvs

cvs -d :pserver:anoncvs@https://www.360docs.net/doc/c410388281.html,:/home/cvspublic checkout jakarta-commons/logging

cvs -d :pserver:anoncvs@https://www.360docs.net/doc/c410388281.html,:/home/cvspublic checkout jakarta-commons/httpclient

编译:

cd jakarta-commons/logging

ant dist

cp dis/*.jar ../httpclient/lib/

cd ../httpclient

ant dist

4、使用HttpClient编程的基本步聚

1.创建HttpClient 的一个实例.

2.创建某个方法(DeleteMethod,EntityEnclosingMethod,ExpectContinueMethod,

GetMethod,HeadMethod,MultipartPostMethod,OptionsMethod,PostMethod,

PutMethod,TraceMethod)的一个实例,一般可用要目标URL为参数。

3.让HttpClient 执行这个方法.

4.读取应答信息.

5.释放连接.

6.处理应答.

在执行方法的过程中,有两种异常,一种是HttpRecoverableException,表示偶然性错误发生,一般再试可能成功,另一种是IOException,严重错误。

这儿有这个教程中的一个例程,可以下载。

5、认证

HttpClient三种不同的认证方案: Basic, Digest and NTLM. 这些方案可用于服务器或代理对客户端的认证,简称服务器认证或代理认证。

1)服务器认证(Server Authentication)

HttpClient处理服务器认证几乎是透明的,仅需要开发人员提供登录信息(login credentials)。登录信息保存在HttpState类的实例中,可以通过setCredentials(String realm, Credentials cred)和getCredentials(String realm)来获取或设置。注意,设定对非特定站点访问所需要的登录信息,将realm参数置为null. HttpClient内建的自动认证,可以通过HttpMethod 类的setDoAuthentication(boolean doAuthentication)方法关闭,而且这次关闭只影响HttpMethod当前的实例。

抢先认证(Preemptive Authentication)可以通过下述方法打开.

client.getState().setAuthenticationPreemptive(true);

在这种模式时,HttpClient会主动将basic认证应答信息传给服务器,即使在某种情况下服务器可能返回认证失败的应答,这样做主要是为了减少连接的建立。为使每个新建的HttpState实例都实行抢先认证,可以如下设置系统属性。

setSystemProperty(Authenticator.PREEMPTIVE_PROPERTY, "true");

Httpclient实现的抢先认证遵循rfc2617.

2)代理认证(proxy authentication)

除了登录信息需单独存放以外,代理认证与服务器认证几乎一致。用setProxyCredentials(String realm, Credentials cred)和getProxyCredentials(String realm)设、取登录信息。

3)认证方案(authentication schemes)

Basic

是HTTP中规定最早的也是最兼容(?)的方案,遗憾的是也是最不安全的一个方案,因为它以明码传送用户名和密码。它要求一个UsernamePasswordCredentials实例,可以指定服务器端的访问空间或采用默认的登录信息。

Digest

是在HTTP1.1中增加的一个方案,虽然不如Basic得到的软件支持多,但还是有广泛的使用。Digest方案比Basic方案安全得多,因它根本就不通过网络传送实际的密码,传送的是利用这个密码对从服务器传来的一个随机数(nonce)的加密串。它要求一个UsernamePasswordCredentials实例,可以指定服务器端的访问空间或采用默认的登录信息。

NTLM

这是HttpClient支持的最复杂的认证协议。它M$设计的一个私有协议,没有公开的规范说明。一开始由于设计的缺陷,NTLM的安全性比Digest差,后来经过一个ServicePack 补丁后,安全性则比较Digest高。NTLM需要一个NTCredentials实例. 注意,由于NTLM 不使用访问空间(realms)的概念,HttpClient利用服务器的域名作访问空间的名字。还需要注意,提供给NTCredentials的用户名,不要用域名的前缀- 如: "adrian" 是正确的,而"DOMAIN\adrian" 则是错的.

NTLM认证的工作机制与basic和digest有很大的差别。这些差别一般由HttpClient处理,但理解这些差别有助避免在使用NTLM认证时出现错误。

1.从HttpClientAPI的角度来看,NTLM与其它认证方式一样的工作,差别是需要提供

'NTCredentials'实例而不是'UsernamePasswordCredentials'(其实,前者只是扩展了后

者)

2.对NTLM认证,访问空间是连接到的机器的域名,这对多域名主机会有一些麻烦.

只有HttpClient连接中指定的域名才是认证用的域名。建议将realm设为null以使用默认的设置。

3.NTLM只是认证了一个连接而不是一请求,所以每当一个新的连接建立就要进行一

次认证,且在认证的过程中保持连接是非常重要的。因此,NTLM不能同时用于代理认证和服务器认证,也不能用于http1.0连接或服务器不支持持久连接的情况。

6、重定向

由于技术限制,以及为保证2.0发布版API的稳定,HttpClient还不能自动处重定向,但对重定向到同一主机、同一端口且采用同一协议的情况HttpClient可以支持。不能自动的处理的情况,包括需要人工交互的情况,或超出httpclient的能力。

当服务器重定向指令指到不同的主机时,HttpClient只是简单地将重定向状态码作为应答状态。所有的300到399(包含两端)的返回码,都表示是重定向应答。常见的有:

1.301 永久移动. HttpStatus.SC_MOVED_PERMANENTL Y

2.302 临时移动. HttpStatus.SC_MOVED_TEMPORARILY

3.303 See Other. HttpStatus.SC_SEE_OTHER

4.307 临时重定向. HttpStatus.SC_TEMPORARY_REDIRECT

当收到简单的重定向时,程序应从HttpMethod对象中抽取新的URL并将其下载。另外,限制一下重定向次数是个好的主意,这可以避免递归循环。新的URL可以从头字段Location 中抽取,如下:

String redirectLocation;

Header locationHeader = method.getResponseHeader("location");

if (locationHeader != null) {

redirectLocation = locationHeader.get();

} else {

// The response is invalid and did not provide the new location for

// the resource. Report an error or possibly handle the response

// like a 404 Not Found error.

}

特殊重定向:

1.300 多重选择. HttpStatus.SC_MULTIPLE_CHOICES

2.304 没有改动. HttpStatus.SC_NO T_MODIFIED

3.305 使用代理. HttpStatus.SC_USE_PROXY

7、字符编码(character encoding)

一个HTTP协议的请求或应答的头部(在http协议中,数据包分为两部分,一部分是头部,由一些名值对构成,一部分是主体(body),是真正传办理的数据(如HTML页面等)),必须以US-ASCII编码,这是因为头部不传数据而只描述被要传输的数据的一些信息,一个例外是,它是数据但是通过头部进行传输的,所以它也要用US-ASCII编码。

HTTP数据包的主体部分,可以用任何一种方式进行编码,默认是ISO-8859-1,具体可以用头部字段Content-Type指定。可以利用addRequestHeader方法,设定编码方式;用getResponseCharSet取得编码方式。对HTML或XML等类型的文档,它们的本身的Content-Type也可以指定编码方式,主要区分两者的作用范围以得到正确实的解码。

URL的编码标准,由RFC1738指定为,只能是由可打印8位/字节的us-ascii字符组成,80-ff不是us-ascii字符,而00-1F是控制字符,这两个区域中用的字符都须加以编码(encoded)。

8、s

HttpClient能自动管理,包括允许服务器设置并在需要的时候自动将返回服务器,它也支持手工设置后发送到服务器端。不幸的是,对如何处理,有几个规范互相冲突:Netscape 草案, RFC2109, RFC2965,而且还有很大数量的软件商的实现不遵循任何规范. 为了处理这种状况,HttpClient提供了策略驱动的管理方式。HttpClient支持的规范有:

https://www.360docs.net/doc/c410388281.html,scape 草案,是最早的规范,基于rfc2109。尽管这个规范与rc2109有较大的差

别,这样做可以与一些服务器兼容。

2.rfc2109,是w3c发布的第一个官方规范。理论上讲,所有的服务器在处理(版本1)

时,都要遵循此规范,正因如此,HttpClient将其设为默认的规范。遗憾的是,这

个规范太严格了,以致很多服务器不正确的实施了该规范或仍在作用Netscape规范。

在这种情况下,应使用兼容规范。

3.兼容性规范,设计用来兼容尽可能多的服务器,即使它们并没有遵循标准规范。当

解析出现问题时,应考虑采用兼容性规范。

RFC2965规范暂时没有被HttpClient支持(在以后的版本为会加上),它定义了版本2,并说明了版本1的不足,RFC2965有意有久取代rfc2109.

在HttpClient中,有两种方法来指定规范的使用,

1.HttpClient client = new HttpClient();

client.getState().setPolicy(https://www.360docs.net/doc/c410388281.html,PA TIBILITY);

这种方法设置的规范只对当前的HttpState有效,参数可取值https://www.360docs.net/doc/c410388281.html,PATIBILITY,https://www.360docs.net/doc/c410388281.html,SCAPE_DRAFT或Policy.RFC2109。

2.System.setProperty("https://www.360docs.net/doc/c410388281.html,mons.httpclient.spec", "COMPATIBILITY");

此法指的规范,对以后每个新建立的HttpState对象都有效,参数可取值"COMPATIBILITY","NETSCAPE_DRAFT"或"RFC2109"。

常有不能解析的问题,但更换到兼容规范大都能解决。

9、使用HttpClient遇到问题怎么办?

1.用一个浏览器访问服务器,以确认服务器应答正常

2.如果在使代理,关掉代理试试

3.另找一个服务器来试试(如果运行着不同的服务器软件更好)

4.检查代码是否按教程中讲的思路编写

5.设置log级别为debug,找出问题出现的原因

6.打开wiretrace,来追踪客户端与服务器的通信,以确实问题出现在什么地方

7.用telnet或netcat手工将信息发送到服务器,适合于猜测已经找到了原因而进行试验

8.将netcat以监听方式运行,用作服务器以检查httpclient如何处理应答的。

9.利用最新的httpclient试试,bug可能在最新的版本中修复了

10.向邮件列表求帮助

11.向bugzilla报告bug.

笔记二:

10、SSL

借助Java Secure Socket Extension (JSSE),HttpClient全面支持Secure Sockets Layer (SSL)或IETF Transport Layer Security (TLS)协议上的HTTP。JSSE已经jre1.4及以后的版本中,以前的版本则需要手工安装设置,具体过程参见Sun网站或本学习笔记。

HttpClient中使用SSL非常简单,参考下面两个例子:

HttpClient httpclient = new HttpClient();

GetMethod httpget = new GetMethod("https://https://www.360docs.net/doc/c410388281.html,/");

httpclient.executeMethod(httpget);

System.out.println(httpget.getStatusLine().toString());

,如果通过需要授权的代理,则如下:

HttpClient httpclient = new HttpClient();

httpclient.getHostConfiguration().setProxy("myproxyhost", 8080);

httpclient.getState().setProxyCredentials("my-proxy-realm", " myproxyhost",

new UsernamePasswordCredentials("my-proxy-username", "my-proxy-password")); GetMethod httpget = new GetMethod("https://https://www.360docs.net/doc/c410388281.html,/");

httpclient.executeMethod(httpget);

System.out.println(httpget.getStatusLine().toString());

在HttpClient中定制SSL的步骤如下:

1.提供了一个实现了

https://www.360docs.net/doc/c410388281.html,mons.httpclient.protocol.SecureProtocolSocketFactory接口的socket factory。这个socket factory负责打一个到服务器的端口,使用标准的或第三方的SSL 函数库,并进行象连接握手等初始化操作。通常情况下,这个初始化操作在端口被创建时自动进行的。

2.实例化一个https://www.360docs.net/doc/c410388281.html,mons.httpclient.protocol.Protocol对象。创建这个实例时,

需要一个合法的协议类型(如https),一个定制的socket factory,和一个默认的端中号(如https的443端口).

Protocol myhttps = new Protocol("https", new MySSLSocketFactory(), 443);

然后,这个实例可被设置为协议的处理器。

HttpClient httpclient = new HttpClient();

httpclient.getHostConfiguration().setHost("https://www.360docs.net/doc/c410388281.html,", 443, myhttps);

GetMethod httpget = new GetMethod("/");

httpclient.executeMethod(httpget);

3.通过调用Protocol.registerProtocol方法,将此定制的实例,注册为某一特定协议的默

认的处理器。由此,可以很方便地定制自己的协议类型(如myhttps)。

Protocol.registerProtocol("myhttps",

new Protocol("https", new MySSLSocketFactory(), 9443));

...

HttpClient httpclient = new HttpClient();

GetMethod httpget = new GetMethod("myhttps://https://www.360docs.net/doc/c410388281.html,/");

httpclient.executeMethod(httpget);

如果想用自己定制的处理器取代https默认的处理器,只需要将其注册为"https"即可。

Protocol.registerProtocol("https",

new Protocol("https", new MySSLSocketFactory(), 443));

HttpClient httpclient = new HttpClient();

GetMethod httpget = new GetMethod("https://https://www.360docs.net/doc/c410388281.html,/");

httpclient.executeMethod(httpget);

已知的限制和问题

1.持续的SSL连接在Sun的低于1.4JVM上不能工作,这是由于JVM的bug造成。

2.通过代理访问服务器时,非抢先认证(Non-preemptive authentication)会失败,这

是由于HttpClient的设计缺陷造成的,以后的版本中会修改。

遇到问题的处理

很多问题,特别是在jvm低于1.4时,是由jsse的安装造成的。

下面的代码,可作为最终的检测手段。

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.Writer;

import https://www.360docs.net/doc/c410388281.html,.Socket; import https://www.360docs.net/doc/c410388281.html,.ssl.SSLSocketFactory; public class Test {

public static final String TARGET_HTTPS_SERVER = "https://www.360docs.net/doc/c410388281.html,"; public static final int TARGET_HTTPS_PORT = 443;

public static void main(String[] args) throws Exception {

Socket socket = SSLSocketFactory.getDefault().

createSocket(TARGET_HTTPS_SERVER, TARGET_HTTPS_PORT);

try {

Writer out = new OutputStreamWriter(

socket.getOutputStream(), "ISO-8859-1");

out.write("GET / HTTP/1.1\r\n");

out.write("Host: " + TARGET_HTTPS_SERVER + ":" +

TARGET_HTTPS_PORT + "\r\n");

out.write("Agent: SSL-TEST\r\n");

out.write("\r\n");

out.flush();

BufferedReader in = new BufferedReader(

new InputStreamReader(socket.getInputStream(), "ISO-8859-1"));

String line = null;

while ((line = in.readLine()) != null) {

System.out.println(line);

}

} finally {

socket.close();

}

}

}

11、httpclient的多线程处理

使用多线程的主要目的,是为了实现并行的下载。在httpclient运行的过程中,每个http 协议的方法,使用一个HttpConnection 实例。由于连接是一种有限的资源,每个连接在某一时刻只能供一个线程和方法使用,所以需要确保在需要时正确地分配连接。HttpClient采用了一种类似jdbc连接池的方法来管理连接,这个管理工作由MultiThreadedHttpConnectionManager完成。MultiThreadedHttpConnectionManager connectionManager =

new MultiThreadedHttpConnectionManager();

HttpClient client = new HttpClient(connectionManager);

此是,client可以在多个线程中被用来执行多个方法。每次调用HttpClient.executeMethod() 方法,都会去链接管理器申请一个连接实例,申请成功这个链接实例被签出(checkout),随之在链接使用完后必须归还管理器。管理器支持两个设置:

管理器重新利用链接时,采取早归还者先重用的方式(least recently used approach)。

由于是使用HttpClient的程序而不是HttpClient本身来读取应答包的主体,所以HttpClient无法决定什么时间连接不再使用了,这也就要求在读完应答包的主体后必须手工显式地调用releaseConnection()来释放申请的链接。MultiThreadedHttpConnectionManager connectionManager = new MultiThreadedHttpConnectionManager();

HttpClient client = new HttpClient(connectionManager);

...

// 在某个线程中。

GetMethod get = new GetMethod("https://www.360docs.net/doc/c410388281.html,/");

try {

client.executeMethod(get);

// print response to stdout

System.out.println(get.getResponseBodyAsStream());

} finally {

// be sure the connection is released back to the connection

// manager

get.releaseConnection();

}

对每一个HttpClient.executeMethod须有一个method.releaseConnection()与之匹配.

12、HTTP方法

HttpClient支持的HTTP方法有8种,下面分述之。

1、Options

HTTP方法Options用来向服务器发送请求,希望获得针对由请求URL(request url)标志

的资源在请求/应答的通信过程可以使用的功能选项。通过这个方法,客户端可以在采取具体行动之前,就可对某一资源决定采取什么动作和/或以及一些必要条件,或者了解服务器提供的功能。这个方法最典型的应用,就是用来获取服务器支持哪些HTTP方法。

HttpClient中有一个类叫OptionsMethod,来支持这个HTTP方法,利用这个类的getAllowedMethods方法,就可以很简单地实现上述的典型应用。

OptionsMethod options = new OptionsMethod("https://www.360docs.net/doc/c410388281.html,");

// 执行方法并做相应的异常处理

...

Enumeration allowedMethods = options.getAllowedMethods();

options.releaseConnection();

2、Get

HTTP方法GET用来取回请求URI(request-URI)标志的任何信息(以实体(entity)的形式),"get"这个单词本意就是”获取“的意思。如果请求URI指向的一个数据处理过程,那这个过程生成的数据,在应答中以实体的形式被返回,而不是将这个过程的代码的返回。

如果HTTP包中含有If-ModifiedSince, If-Unmodified-Since, If-Match, If-None-Match, 或If-Range等头字段,则GET也就变成了”条件GET“,即只有满足上述字段描述的条件的实体才被取回,这样可以减少一些非必需的网络传输,或者减少为获取某一资源的多次请求(如第一次检查,第二次下载)。(一般的浏览器,都有一个临时目录,用来缓存一些网页信息,当再次浏览某个页面的时候,只下载那些修改过的内容,以加快浏览速度,就是这个道理。至于检查,则常用比GET更好的方法HEAD来实现。)如果HTTP包中含有Range 头字段,那么请求URI指定的实体中,只有决定范围条件的那部分才被取回来。(用过多线程下载工具的朋友,可能比较容易理解这一点)

这个方法的典型应用,用来从web服务器下载文档。HttpClient定义了一个类叫GetMethod来支持这个方法,用GetMethod类中getResponseBody, getResponseBodyAsStream 或getResponseBodyAsString函数就可以取到应答包包体中的文档(如HTML页面)信息。这这三个函数中,getResponseBodyAsStream通常是最好的方法,主要是因为它可以避免在处理下载的文档之前缓存所有的下载的数据。

GetMethod get = new GetMethod("https://www.360docs.net/doc/c410388281.html,");

// 执行方法,并处理失败的请求.

...

InputStream in = get.getResponseBodyAsStream();

// 利用输入流来处理信息。

get.releaseConnection();

对GetMethod的最常见的不正确的使用,是没有将全部的应答主体的数据读出来。还有,必须注意要手工明确地将链接释放。

3、Head

HTTP的Head方法,与Get方法完全一致,唯一的差别是服务器不能在应答包中包含主体(message-body),而且一定不能包含主体。使用这个方法,可以使得客户无需将资源下

载回就可就以得到一些关于它的基本信息。这个方法常用来检查超链的可访问性以及资源最近有没有被修改。

HTTP的head方法最典型的应用,是获取资源的基本信息。HttpClient定义了HeadMethod 类支持这个方法,HeadMethod类与其它*Method类一样,用getResponseHeaders()取回头部信息,而没有自己的特殊方法。

HeadMethod head = new HeadMethod("https://www.360docs.net/doc/c410388281.html,");

// 执行方法,并处理失败的请求.

...

// 取回应答包的头字段信息.

Header[] headers = head.getResponseHeaders(); // 只取回最后修改日期字段的信息.

String lastModified = head.getResponseHeader("last-modified").get();

4、Post

Post在英文有“派驻”的意思,HTTP方法POST就是要求服务器接受请求包中的实体,并将其作为请求URI的下属资源。从本质上说,这意味着服务器要保存这个实体信息,而且通常由服务器端的程序进行处理。Post方法的设计意图,是要以一种统一的方式实现下列功能:

1.对已有的资源做评注

2.将信息发布到BBS、新闻组、邮件列表,或类似的文章组中

3.将一块数据,提交给数据处理进程

4.通过追加操作,来扩展一个数据库

这些都操作期待着在服务器端产生一定的“副作用”,如修改了数据库等。

HttpClient定义PostMethod类以支持该HTTP方法,在httpclient中,使用post方法有两个基本的步骤:为请求包准备数据,然后读取服务器来的应答包的信息。通过调用setRequestBody()函数,来为请求包提供数据,它可以接收三类参数:输入流、名值对数组或字符串。至于读取应答包需要调用getResponseBody* 那一系列的方法,与GET方法处理应答包的方法相同。

常见问题是,没有将全部应答读取(无论它对程序是否有用),或没有释放链接资源。HttpClient 学习整理

HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的实现,发现这个开源项目之后就有点眉目了,令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西,写得很好,寄放在这里。

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的https://www.360docs.net/doc/c410388281.html, 包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在很多的项目中,比如 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient,更多使用HttpClient 的应用可以参见

https://www.360docs.net/doc/c410388281.html,/jakarta-httpclient/HttpClientPowered。HttpClient 项目非常活跃,使用的人还是非常多的。目前 HttpClient 版本是在 2005.10.11 发布的 3.0 RC4 。

------------------------------------

应用HttpClient来对付各种顽固的WEB服务器

转自:https://www.360docs.net/doc/c410388281.html,/ambitiontan/archive/2006/01/06/572171.aspx

一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供的页面来完成某种功能,例如说我们想知道某个手机号码的归属地而我们自己又没有这样的数据,因此只好借助其他公司已有的网站来完成这个功能,这个时候我们需要向网页提交手机号码并从返回的页面中解析出我们想要的数据来。如果对方仅仅是一个很简单的页面,那我们的程序会很简单,本文也就没有必要大张旗鼓的在这里浪费口舌。但是考虑到一些服务授权的问题,很多公司提供的页面往往并不是可以通过一个简单的URL就可以访问的,而必须经过注册然后登录后方可使用提供服务的页面,这个时候就涉及到 COOKIE问题的处理。我们知道目前流行的动态网页技术例如ASP、JSP无不是通过COOKIE来处理会话信息的。为了使我们的程序能使用别人所提供的服务页面,就要求程序首先登录后再访问服务页面,这过程就需要自行处理cookie,想想当你用https://www.360docs.net/doc/c410388281.html,.HttpURLConnection 来完成这些功能时是多么恐怖的事情啊!况且这仅仅是我们所说的顽固的WEB服务器中的一个很常见的“顽固”!再有如通过HTTP来上传文件呢?不需要头疼,这些问题有了“它”就很容易解决了!

我们不可能列举所有可能的顽固,我们会针对几种最常见的问题进行处理。当然了,正如前面说到的,如果我们自己使用https://www.360docs.net/doc/c410388281.html,.HttpURLConnection来搞定这些问题是很恐怖的事情,因此在开始之前我们先要介绍一下一个开放源码

的项目,这个项目就是Apache开源组织中的httpclient,它隶属于Jakarta的commons项目,目前的版本是2.0RC2。commons下本来已经有一个net的子项目,但是又把httpclient单独提出来,可见http服务器的访问绝非易事。

Commons-httpclient项目就是专门设计来简化HTTP客户端与服务器进行各种通讯编程。通过它可以让原来很头疼的事情现在轻松的解决,例如你不再管是HTTP或者HTTPS的通讯方式,告诉它你想使用HTTPS方式,剩下的事情交给httpclient替你完成。本文会针对我们在编写HTTP客户端程序时经常碰到的几个问题进行分别介绍如何使用httpclient来解决它们,为了让读者更快的熟悉这个项目我们最开始先给出一个简单的例子来读取一个网页的内容,然后循序渐进解决掉前进中的所有问题。

1.读取网页(HTTP/HTTPS)内容

下面是我们给出的一个简单的例子用来访问某个页面

/*

* Created on 2003-12-14 by Liudong

*/

package http.demo;

import java.io.IOException;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.*;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.methods.*;

/**

*最简单的HTTP客户端,用来演示通过GET或者POST方式访问某个页面

*@author Liudong

*/

public class SimpleClient {

public static void main(String[] args) throws IOException

{

HttpClient client = new HttpClient();

//设置代理服务器地址和端口

//client.getHostConfiguration().setProxy("proxy_host_addr",prox y_port);

//使用GET方法,如果服务器需要通过HTTPS连接,那只需要将下面URL中的http换成https

HttpMethod method=new GetMethod("https://www.360docs.net/doc/c410388281.html,");

//使用POST方法

//HttpMethod method = new PostMethod("https://www.360docs.net/doc/c410388281.html,");

client.executeMethod(method);

//打印服务器返回的状态

System.out.println(method.getStatusLine());

//打印返回的信息

System.out.println(method.getResponseBodyAsString());

//释放连接

method.releaseConnection();

}

}

在这个例子中首先创建一个HTTP客户端(HttpClient)的实例,然后选择提交的方法是GET 或者POST,最后在HttpClient实例上执行提交的方法,最后从所选择的提交方法中读取服务器反馈回来的结果。这就是使用HttpClient的基本流程。其实用一行代码也就可以搞定整个请求的过程,非常的简单!

2.以GET或者POST方式向网页提交参数

其实前面一个最简单的示例中我们已经介绍了如何使用GET或者POST方式来请求一个页面,本小节与之不同的是多了提交时设定页面所需的参数,我们知道如果是GET的请求方式,那么所有参数都直接放到页面的URL后面用问号与页面地址隔开,每个参数用&隔开,例如:

https://www.360docs.net/doc/c410388281.html,/?name=liudong&mobile=123456,但是当使用POST方法时就会稍微有一点点麻烦。本小节的例子演示向如何查询手机号码所在的城市,代码如下:

/*

* Created on 2003-12-7 by Liudong

*/

package http.demo;

import java.io.IOException;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.*;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.methods.*;

/**

*提交参数演示

*该程序连接到一个用于查询手机号码所属地的页面

*以便查询号码段1330227所在的省份以及城市

*@author Liudong

*/

public class SimpleHttpClient {

public static void main(String[] args) throws IOException {

HttpClient client = new HttpClient();

client.getHostConfiguration().setHost( "https://www.360docs.net/doc/c410388281.html,", 80, "http" );

method = getPostMethod(); //使用POST方式提交数据

client.executeMethod(method); //打印服务器返回的状态

System.out.println(method.getStatusLine()); //打印结果页面

String response=new

String(method.getResponseBodyAsString().getBytes("8859_1"));

//打印返回的信息

System.out.println(response);

//释放连接

method.releaseConnection();

}

/**

*使用GET方式提交数据

*@return

*/

private static HttpMethodgetGetMethod(){

return new GetMethod("/simcard.php?simcard=1330227");

}

/**

*使用POST方式提交数据

*@return

*/

private static HttpMethod getPostMethod(){

PostMethod post = new PostMethod( "/simcard.php" );

NameValuePair simcard = new NameValuePair( "simcard", "1330227"); post.setRequestBody( new NameValuePair[] { simcard});

return post;

}

}

在上面的例子中页面https://www.360docs.net/doc/c410388281.html,/simcard.php需要一个参数是simcard,这个参数值为手机号码段,即手机号码的前七位,服务器会返回提交的手机号码对

应的省份、城市以及其他详细信息。GET的提交方法只需要在URL后加入参数信息,而POST

则需要通过NameValuePair类来设置参数名称和它所对应的值。

3.处理页面重定向

在JSP/Servlet 编程中response.sendRedirect方法就是使用HTTP协议中的重定向机制。它与JSP中的的区别在于后者是在服务器中实现页面的跳转,也就是说应用容器加载了所要跳转的页面的内容并返回给客户端;而前者是返回一个状态码,这些状态码的可能值见下表,然后客户端读取需要跳转到的页面的URL并重新加载新的页面。就是这样一个过程,所以我们编程的时候就要通过 HttpMethod.getStatusCode()方法判断返回值是否为下表中的某个值来判断是否需要跳转。如果已经确认需要进行页面跳转了,那么可以通过读取HTTP头中的location属性来获取新的地址。

下面的代码片段演示如何处理页面的重定向

client.executeMethod(post);

System.out.println(post.getStatusLine().toString());

post.releaseConnection();

//检查是否重定向

int statuscode = post.getStatusCode();

if((statuscode == HttpStatus.SC_MOVED_TEMPORARILY) || (statuscode == HttpStatus.SC_MOVED_PERMANENTLY) || (statuscode ==

HttpStatus.SC_SEE_OTHER) || (statuscode==

HttpStatus.SC_TEMPORARY_REDIRECT)) {

//读取新的URL地址

Headerheader=post.getResponseHeader("location");

if (header!=null){

Stringnewuri=header.getValue();

if((newuri==null)||(newuri.equals("")))

newuri="/";

GetMethod redirect=new GetMethod(newuri);

client.executeMethod(redirect);

System.out.println("Redirect:"+redirect.getStatusLine().toSt

ring());

redirect.releaseConnection();

}else

System.out.println("Invalid redirect");

}

我们可以自行编写两个JSP页面,其中一个页面用response.sendRedirect方法重定向到另外一个页面用来测试上面的例子。

4.模拟输入用户名和口令进行登录

本小节应该说是HTTP客户端编程中最常碰见的问题,很多网站的内容都只是对注册用户可见的,这种情况下就必须要求使用正确的用户名和口令登录成功后,方可浏览到想要的页面。因为HTTP协议是无状态的,也就是连接的有效期只限于当前请求,请求内容结束后连接就关闭了。在这种情况下为了保存用户的登录信息必须使用到Cookie机制。以JSP/Servlet为例,当浏览器请求一个JSP或者是Servlet的页面时,应用服务器会返回一个参数,名为jsessionid(因不同应用服务器而异),值是一个较长的唯一字符串的Cookie,这个字符串值也就是当前访问该站点的会话标识。浏览器在每访问该站点的其他页面时候都要带上jsessionid这样的Cookie信息,应用服务器根据读取这个会话标识来获取对应的会话信息。

对于需要用户登录的网站,一般在用户登录成功后会将用户资料保存在服务器的会话中,这样当访问到其他的页面时候,应用服务器根据浏览器送上的Cookie中读取当前请求对应的会话标识以获得对应的会话信息,然后就可以判断用户资料是否存在于会话信息中,如果存在则允许访问页面,否则跳转到登录页面中要求用户输入帐号和口令进行登录。这就是一般使用JSP开发网站在处理用户登录的比较通用的方法。

这样一来,对于HTTP的客户端来讲,如果要访问一个受保护的页面时就必须模拟浏览器所做的工作,首先就是请求登录页面,然后读取Cookie值;再次请求登录页面并加入登录页所需的每个参数;最后就是请求最终所需的页面。当然在除第一次请求外其他的请求都需要附带上Cookie信息以便服务器能判断当前请求是否已经通过验证。说了这么多,可是如果你使用httpclient的话,你甚至连一行代码都无需增加,你只需要先传递登录信息执行登录过程,然后直接访问想要的页面,跟访问一个普通的页面没有任何区别,因为类HttpClient已经帮你做了所有该做的事情了,太棒了!下面的例子实现了这样一个访问的过程。

/*

* Created on 2003-12-7 by Liudong

*/

package http.demo;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.*;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.cookie.*;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.methods.*;

/**

*用来演示登录表单的示例

*@author Liudong

*/

public class FormLoginDemo {

static final String LOGON_SITE = "localhost" ;

static final int LOGON_PORT = 8080;

public static void main(String[] args) throws Exception{

HttpClient client = new HttpClient();

client.getHostConfiguration().setHost(LOGON_SITE, LOGON_PORT);

//模拟登录页面login.jsp->main.jsp

PostMethod post = new PostMethod( "/main.jsp" );

NameValuePair name = new NameValuePair( "name" , "ld" );

NameValuePair pass = new NameValuePair( "password" , "ld" );

post.setRequestBody( new NameValuePair[]{name,pass});

int status = client.executeMethod(post);

System.out.println(post.getResponseBodyAsString());

post.releaseConnection();

//查看cookie信息

CookieSpec cookiespec = CookiePolicy.getDefaultSpec();

Cookie[] cookies = cookiespec.match(LOGON_SITE, LOGON_PORT, "/", false, client.getState().getCookies());

if(cookies.length == 0) {

System.out.println( "None" );

} else{

for( int i = 0; i < cookies.length; i++) {

System.out.println(cookies[i].toString());

}

}

//访问所需的页面main2.jsp

GetMethodget=new GetMethod("/main2.jsp");

client.executeMethod(get);

System.out.println(get.getResponseBodyAsString());

get.releaseConnection();

}

}

5.提交XML格式参数

提交XML格式的参数很简单,仅仅是一个提交时候的ContentType问题,下面的例子演示从文件文件中读取XML信息并提交给服务器的过程,该过程可以用来测试Web服务。

import java.io.File;

import java.io.FileInputStream;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.HttpClient;

import https://www.360docs.net/doc/c410388281.html,mons.httpclient.methods.EntityEnclosingMethod; import https://www.360docs.net/doc/c410388281.html,mons.httpclient.methods.PostMethod;

/**

*用来演示提交XML格式数据的例子

*/

public class PostXMLClient {

public static void main(String[] args) throws Exception {

File input = new File(“test.xml”);

PostMethod post = new

PostMethod(“http://localhost:8080/httpclient/xml.jsp”);

// 设置请求的内容直接从文件中读取

post.setRequestBody( new FileInputStream(input));

if(input.length() < Integer.MAX_VALUE)

post.setRequestContentLength(input.length());

else

post.setRequestContentLength(EntityEnclosingMethod.CONTENT_L ENGTH_CHUNKED);

// 指定请求内容的类型

post.setRequestHeader( "Content-type", "text/xml; charset=GBK"); HttpClient httpclient = new HttpClient();

int result = httpclient.executeMethod(post);

System.out.println( "Response status code: " + result);

System.out.println( "Response body: " );

System.out.println(post.getResponseBodyAsString());

post.releaseConnection();

}

}

6.通过HTTP上传文件

httpclient使用了单独的一个HttpMethod子类来处理文件的上传,这个类就是MultipartPostMethod,该类已经封装了文件上传的细节,我们要做的仅仅是告诉它我们要上传文件的全路径即可,下面的代码片段演示如何使用这个类。

//targetURL:服务器文件保存地址

MultipartPostMethod filePost = new MultipartPostMethod(targetURL);

相关主题
相关文档
最新文档