java乱码问题解决

java乱码问题解决
java乱码问题解决

Java WEB开发中的中文乱码问题解决

本文所有范例以UTF-8为例。大家可以根据自己的情况加以替换。

在开始本文之前,假设本文的读者已经熟悉或了解以下技术:

- Java语法

- Java WEB开发的基本概念

- Jsp

- Servlet

- 至少一种支持JSP/SERVLET的Web服务器(包括安装,运行)

浏览器/WEB服务器之间的参数传递原理分析

浏览器/WEB服务器之间的中文参数传递

1,表单(form)中文参数的传递方法。我们使用一个简单的范例说明表单提交时浏览器的对中文参数的处理。

1. SubmitAsia.html

2. view plaincopy to clipboardprint?

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21.

22.

使用任意浏览器打开该文件,在输入框内输入“你好” 中文2字,然后按submit按钮,我们注意到浏览器的地址栏:

file:///C:/SubmitAsia.html?userName=%E4%BD%A0%E5%A5%BD

刚才输入“你好”二字,被转换为%E4%BD%A0%E5%A5%BD 后被发往服务器。

这个%E4%BD%A0%E5%A5%BD 是什么呢?

我们先使用一个Java程序来测试一下。如下:

1. EnDecoderUtil.java

2. view plaincopy to clipboardprint?

4. import java.io.UnsupportedEncodingException;

5. import https://www.360docs.net/doc/2716196442.html,.URLDecoder;

6. import https://www.360docs.net/doc/2716196442.html,.URLEncoder;

7.

8. public class EnDecoderUtil {

9. public static void main(String []args) {

10. try {

11. String str = URLEncoder.encode("你好", "UTF-8");

12. System.out.println(str);

13. str = URLDecoder.decode(str, "UTF-8");

14. System.out.println(str);

15.

16. } catch (UnsupportedEncodingException e) {

17. e.printStackTrace();

18. }

19. }

20. }

21.

22. import java.io.IOException;

23. import java.io.UnsupportedEncodingException;

24. import https://www.360docs.net/doc/2716196442.html,.URLDecoder;

26.

27. public class EnDecoderUtil {

28. public static void main(String []args) {

29. try {

30. String str = URLEncoder.encode("你好", "UTF-8");

31. System.out.println(str);

32. str = URLDecoder.decode(str, "UTF-8");

33. System.out.println(str);

34.

35. } catch (UnsupportedEncodingException e) {

36. e.printStackTrace();

37. }

38. }

39. }

编译执行:

c:\>javac EnDecoderUtil.java

c:\>java EnDecoderUtil

%E4%BD%A0%E5%A5%BD

你好

我们发现,浏览器发送给服务器的“你好”中文参数跟使用https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode()方法编码后的值完全一样。

原来,浏览器在向服务器传递参数时,对于非数字,非英文的字符(比如中日韩文)时,会先将其加以变换(编码),再发送给服务器,服务器接收到这种格式的字符时,会将其反向编码,还原成原来的字符。

浏览器/Java WEB服务器之间的中文参数传递过程模拟

为了帮助大家能更好地理解,我们使用下面的例子,该例通过联结的形式向Google服务器发送一个查询命令参数。

比如,我们通过Google查询“你好啊”,通过以下2种方法向Google服务器发送参数:

1. SubmitAsia2Google.html

2. view plaincopy to clipboardprint?

3.

4.

5.

6.

7.

8. 方法1:你好啊

9. 方法2:

href="https://www.360docs.net/doc/2716196442.html,/search?q=%E4%BD%A0%E5%A5%BD%E5%95%8A">你好啊

10.

11.

12.

13.

14.

15.

16.

17. 方法1:你好啊

18. 方法2:

href="https://www.360docs.net/doc/2716196442.html,/search?q=%E4%BD%A0%E5%A5%BD%E5%95%8A">你好啊

19.

20.

使用任意浏览器打开该文件。

方法1:你好啊

方法2:你好啊

使用方法1时,Google的查询页面通常会显示乱码,方法2时显示完全正常。

通过这个例子,我们知道,为了让服务器能够正常接收中文参数,对HTML页面的中文参数一定要经过编码处理。

表单里的中文字符在提交时,浏览器已经替我们做了编码处理,但联结()里的中文需要我们自己处理。

JSP页面联结的中文参数编码方法

JSP页面里的联结很多情况下是动态生成的,比如根据数据库里的数据的不同动态生成包含中文关键字的联结等等。

方法1:JSP里直接使用https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode()。例:

href="some.jsp?key=<%=https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode("可能包含中文的参数

","UTF-8")%>">联结

方法2:Javabean使用https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode()

在Javabean里使用https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode()处理之后,JSP里加以引用。

1. view plaincopy to clipboardprint?

2.

3. scope="request" />

4. ...

5. <%

6. String chars = myBean.getSomeProp();

7. out.println("联结");

8. %>

9. ...

10.

11. scope="request" />

12. ...

13. <%

14. String chars = myBean.getSomeProp();

15. out.println("联结");

16. %>

17. ...

方法3:使用自定义标签。

在自定义标签里使用https://www.360docs.net/doc/2716196442.html,.URLEncoder.encode()方法处理。

关于自定义标签的具体方法,这里不做介绍。

JSP与SERVLET的连动

JSP经过上面的处理之后,最后输出的HTML页面联结已经可以正常向服务器传递中文参数了。

下面我们阐述一下Servlet里怎么接收/解析中文参数。

对于你好之类的联结,我们可以用下面的servlet来解析传递过来的中文参数。

1. GetAsiaCharServlet.java

2. view plaincopy to clipboardprint?

3. import java.io.IOException;

4. import https://www.360docs.net/doc/2716196442.html,.URLEncoder;

5.

6. import javax.servlet.ServletException;

7. import javax.servlet.http.HttpServlet;

8. import javax.servlet.http.HttpServletRequest;

9. import javax.servlet.http.HttpServletResponse;

10.

11. public class GetAsiaCharServlet extends HttpServlet {

12.

13.

14. @Override

15. //redir?key=xxxx

16. protected void doGet(HttpServletRequestreq, HttpServletResponse res) throws ServletException, IOException {

17. String key = req.getParameter("key");

18.

19. key = new String(key.getBytes("ISO-8859-1", "utf-8"));

20.

21. System.out.println(keyword);

22. //...

23.

24. //重定向处理

25.

//res.sendRedirect("https://www.360docs.net/doc/2716196442.html,/search?q="+URLEncoder.encode(key, "utf-8"));

26. }

27. }

28.

29. import java.io.IOException;

30. import https://www.360docs.net/doc/2716196442.html,.URLEncoder;

31.

32. import javax.servlet.ServletException;

33. import javax.servlet.http.HttpServlet;

34. import javax.servlet.http.HttpServletRequest;

35. import javax.servlet.http.HttpServletResponse;

36.

37. public class GetAsiaCharServlet extends HttpServlet {

38.

39.

40. @Override

41. //redir?key=xxxx

42. protected void doGet(HttpServletRequestreq, HttpServletResponse res) throws ServletException, IOException {

43. String key = req.getParameter("key");

44.

45. key = new String(key.getBytes("ISO-8859-1", "utf-8"));

46.

47. System.out.println(keyword);

48. //...

49.

50. //重定向处理

51.

//res.sendRedirect("https://www.360docs.net/doc/2716196442.html,/search?q="+URLEncoder.encode(key, "utf-8"));

52. }

53. }

我们注意到使用req.getParameter("key")得到参数后,还使用了new

String(key.getBytes("ISO-8859-1", "utf-8"))把ISO-8859-1字符集形式转换成UTF-8形式。

为什么呢?因为iso-8859-1是Java中网络传输使用的标准字符集,

req.getParameter("key")得到的还是ISO-8859-1字符集,所以要转换一下才不会是乱码。最后,顺便提一下,采用servlet重定向时,也需要对包含中文文字的参数做特殊处理。例如,SERVLET从HTML页面的联结接受参数,然后重新定向到Google搜索。则可以在上面的GetAsiaCharServlet里加上如下处理:

res.sendRedirect("https://www.360docs.net/doc/2716196442.html,/search?q="+URLEncoder.encode(key, "utf-8"));

也就是说,需要把参数取出来,转换,再重新使用URLEncoder.encode编码,这样就不会出现乱码现象。

中文乱码解决大全

SSH开发过程中的中文问题汇总 作者:Rainisic来源:博客园发布时间:2012-01-11 14:26 阅读:50 次原文链接[收藏] 在使用SSH开发的过程中,我们经常会因为各种各样的中文乱码问题而苦恼。之前开发的过程中遇到过一些,但是都没有记录下来,这次,我就遇到的中文问题进行一个汇总,希望能够对大家有所帮助。 1. 平台环境参数 操作系统:Windows 7 旗舰版64位 JDK版本:JDK 1.6 / JDK 1.7 (此处由于JDK 7 发布不久,所以对两个版本进行测试) 开发环境:Eclipse Java EE Indigo 网站容器:Tomcat 7.0 开发框架: Struts 2.3.1.1-GA Spring 3.1.0-release Hibernate 4.0.0-Final / Hibernate 3.6.9-Final (此处由于Hibernate 4 final 刚刚发布不久,所以对两个版本进行测试) 2. 中文问题汇总 (1)HTML中未指定文件编码 问题描述:在HTML中未指定文件编码,在部分浏览器中将会出现中文乱码。 解决方案:在HTML的head标签中指定文档编码,代码如下(请根据DOCTYPE选择): // HTML 4.01 Transitional

// HTML 5 (2)表单提交使用GET方法 问题描述:在HTML form 中提交表单的时候使用method="get"导致中文乱码。 解决方案:form表单的method设置为post,代码如下:

(3)JSP文件中未指定文档编码类型 问题描述:在JSP文件中未指定JSP文档编码,在浏览器中会出现中文乱码。 解决方案:在JSP文件首部增加指定文档编码的代码,代码如下: <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> (4)文件编码不正确 问题描述:由于Java文件、JSP文件等文件编码不正确,导致中文乱码。 解决方案:设置文件的默认编码为UTF-8(如果需要使用其他编码,请确保上述两个编码格式与文件编码相同) 设置方法: 当前文件编码修改:该文件右键→Properties→Resource,右侧Text file encoding→Other →UTF-8 默认文件编码修改: 0. Windows→Preferences 打开Eclipse配置选项窗口。 1. General→Content Type,右侧Text 下面所需要的文件类型Default encoding设置为UTF-8

Java中解决POST和GET请求的中文乱码问题

解决Java中POST和GET请求的中文乱码问题 当我们通过表单向服务器提交数据时,数据的流向是:浏览器→服务器,服务器→浏览器,如果浏览器端和服务器端所采用的编码方式不一致,就会出现乱码问题。 输入时 POST请求 服务器端获取正常编码格式的字符串 1,首先确保表单所在的页面按照指定的字符集打开 2,在服务器端按照这个编码格式解码即可 request.setCharacterEncoding("utf-8"); GET请求 1,使用meta确保表单所在页面按照指定字符集打开 2,在服务器端使用如下方式获取参数 String userName = request.getParameter("username"); userName = new String(userName.getBytes("iso-8859-1"),"UTF-8");

输出时 POST请求和GET请求一样,都需要在输出对象调用输出方法之前调用setContentType(String content)方法 response.setContentType("text/html;charset=utf-8"); 作用 1,通知容器,在调用out.println方法输出时,使用指定的字符集 2,生成消息头中content-type的值,通知浏览器,服务端返回的数据类型和字符集 注意 在JSP中,<%@page pageEncoding=”UTF-8”%> 该指令只是设置页面本身的编码,这是因为jsp文件与Servlet不同,jsp文件需要由容器来编译,所以需要为其指定编码。取值时,需要设置指定编码。 <%@page contentType=”text/html;charset=UTF-8”%> 这句话相当于:response.setContentType("text/html;charset=utf-8");

JSP中文乱码的产生原因及解决方案

JSP中文乱码的产生原因及解决方案 在JSP的开发过程中,经常出现中文乱码的问题,可能一直困扰着大家,现在把JSP 开发中遇到的中文乱码的问题及解决办法写出来供大家参考。首先需要了解一下Java中文问题的由来: Java的内核和class文件是基于unicode的,这使Java程序具有良好的跨平台性,但也带来了一些中文乱码问题的麻烦。原因主要有两方面,Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。首先Java(包括JSP)源文件中很可能包含有中文,而Java和JSP源文件的保存方式是基于字节流的,如果Java和JSP编译成class文件过程中,使用的编码方式与源文件的编码不一致,就会出现乱码。基于这种乱码,建议在Java文件中尽量不要写中文(注释部分不参与编译,写中文没关系),如果必须写的话,尽量手动带参数-ecoding GBK或-ecoding gb2312或-ecoding UTF-8编译;对于JSP,在文件头加上<%@ page contentType="text/html;charset=GBK"%>或 <%@ page contentType="text/html;charset=gb2312"%>基本上就能解决这类乱码问题。 下面是一些常见中文乱码问题的解决方法(下面例子中ecoding采用的是gb2312,也可设为ecoding GBK或ecoding UTF-8): 一、 JSP页面乱码 这种乱码问题比较简单,一般是页面编码不一致导致的乱码,一般新手容易出现这样的问题,具体分以下两种情况: 未指定使用字符集编码 下面的显示页面(display.jsp)就出现乱码: JSP的中文处理 <%out.print("JSP的中文处理");%>

JavaMail邮件附件中文乱码问题

JavaMail附件中文名称乱码 问题: 用Javamail发邮件到邮件服务器,从邮箱中查看发现附件的中文名称变成了密码原因:不明 解决:在设置邮件附件的时候调用javax.mail.internet.MimeUtility来编码, 例如 MimeMessagemsg = new MimeMessage(session); msg.setFrom(new InternetAddress(from)); InternetAddress[] address = { new InternetAddress(to) }; msg.setRecipients(Message.RecipientType.TO, address); msg.setSubject(subject); // create and fill the first message part MimeBodyPart mbp1 = new MimeBodyPart(); mbp1.setText(msgText1); // create the second message part MimeBodyPart mbp2 = new MimeBodyPart(); // attach the file to the message mbp2.attachFile(filePath); mbp2.setFileName(MimeUtility.encodeWord(fileName)); // create the Multipart and add its parts to it Multipart mp = new MimeMultipart(); mp.addBodyPart(mbp1); mp.addBodyPart(mbp2); // add the Multipart to the message msg.setContent(mp); // set the Date: header msg.setSentDate(new Date()); /* * If you want to control the Content-Transfer-Encoding of the * attached file, do the following. Normally you should never need * to do this. * * msg.saveChanges(); mbp2.setHeader("Content-Transfer-Encoding",

cmd窗口显示中文乱码及无法输入中文解决方法

cmd窗口显示中文乱码及无法输入中文解决方法 (2009-05-09 19:13:12) 分类:软件应用 标签: it 中文显示为乱码 临时解决方案: 在 CMD 中运行 chcp 936。 永久解决方案: 打开不正常的 CMD 或命令提示符窗口后,单击窗口左上角的图标,选择弹出的菜单中的“默认值”,打开如下图的对话框。单击第一个“选项”选项卡,将默认的代码页改为 936 后重启 CMD。 附:

如果改了以后无法生效,窗口的“默认值”和“属性”没变,进入注册表,在 HKEY_CURRENT_USER 下找到 console 项下的 Console 以及其下可能有 的 %SystemRoot%_system32_cmd.exe(这个 %SystemRoot%_system32_cmd.exe 下有的 codepage 话就改,如果没有就不管它),codepage值改为 936(十进制)或 3a8(十六进制)。 936(十进制)/3a8(十六进制) 是简体中文的,如是其它语言,要改为对应的代码。然后再执行第二段中所述的操作。 还可能和 CMD 的默认值的“字体”设置有关。 在 CMD 的“默认值”和“属性”的“字体”选项卡中中确认设定的字体是可以显示中文字符的字体,并且确定字体文件没有被破坏。字体最好设置为默认的点阵字体。 还是不行,干脆把%SystemRoot%_system32_cmd.exe内容备份下,然后清空它。或是把以下内容保存为REG文件导入试试。 Windows Registry Editor Version 5.00 [HKEY_CURRENT_USER\Console\%SystemRoot%_system32_cmd.exe] "QuickEdit"=dword:00000800 "CodePage"=dword:000003a8 "WindowSize"=dword:001e005a "FontSize"=dword:000c0008 "FontFamily"=dword:00000030 "FontWeight"=dword:00000190 "FaceName"="Terminal" ============================================================= 无法输入中文 确认以下事项: 1.CMD 里中文字符可以正常显示(上文). 2.注册表中 HKEY_CURRENT_USER\Console 及 HKEY_CURRENT_USER\Console\%SystemRoot%_system32_cmd.exe] 下LoadConIme 的值为 1. 3.conime.exe 这个文件存在,没有受到破坏,并且正常运行.

解决jsp中文显示问题

解决: jsp页面中文显示问题 <%@ page pageEncoding=”gb2312″ %>,决定jsp页面编写时的编码。 <%@ page content_type=”text/html;charset=UTF-8″ %>,决定jsp页面显示在客户端浏览器的编码。 在解决这个问题的同时,我还发现了一篇至今为止我所见过的解决java中文问题最彻底的文章: 上篇:https://www.360docs.net/doc/2716196442.html,/pcedu/empolder/gj/java/0404/ 366404.html 下篇:https://www.360docs.net/doc/2716196442.html,/pcedu/empolder/gj/java/0405/ 368760.html 深入Java中文问题及最优解决方法 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1、中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的

语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK 的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。

win7系统常见的乱码问题解决方法

win7系统常见的乱码问题解决方法 win7系统乱码的问题,经常会碰到一些软件是简体中文的,可是在win7系统中却出来乱码的问题?400pc小编教你破解是哪些原因造成win7系统乱码。 近期,居住香港的姐姐也安装了Windows 7,不过,令她烦恼的是使用一些简体中文的软件出现了乱码。而这些软件都无法找到繁体版本,比如:迅雷,即使勉强安装好也无法轻松使用。难道香港用户就无法使用这些简体软件了吗?其实,Windows 7自身已经提供了完善的解决方案了。 一、Windows 7乱码问题来龙去脉 旅居香港的姐姐安装的是我提供的简体中文版本的Windows 7旗舰版,按理是可以顺利兼容简体软件的,然而问题就出在姐姐对默认的安装设置进行了修改。因为姐姐经常使用繁体软件,她将系统的“区域和语言”的“格式”、“位置”、“默认输入语言”、“非Unicode程序的语言”都设置成了更加顺手的香港繁体。 我们知道Unicode也可称为统一码,为每种语言的每个字符设置了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本转换处理的要求,然而,还是有不少程序并不支持该编码,这时就有必要设置非Unicode程序使用的语言编码了。像迅雷这样的软件就支持简体中文编码,而不支持Unicode,当设置了香港繁体的非Unicode 就会出现乱码,同理,将非Unicode设置为简体后,很多不支持Unicode的繁体软件也会出现乱码。这个乱码问题难道是两难的吗?其实,我们使用Windows 7的语言包补丁安装功能就可以顺利解决。 二、巧妙解决Windows 7乱码 1.安装合适的语言包 首先,要能安装多种语言包的Windows 7只能是旗舰版或者企业版,接着我们就来解决这个问题吧。我们点击“开始-Windows Update”打开自动更新窗口。 在窗口中点击“34个可选更新”链接,在可以下载安装的语言包列表中选择“繁体中文语言包”,确定即可。 回到刚才的窗口点击“安装更新”按钮开始下载安装。 安装完语言包补丁需要重启。重启的过程需要配置补丁。

java中文乱码字符集

java中文解决大全 Abstract:本文深入分析了Java程序设计中Java编译器对java源文件和JVM对class类文件的编码/解码过程,通过此过程的解析透视出了Java编程中中文问题产生的根本原因,最后给出了建议的最优化的解决Java中文问题的方法。 1.中文问题的来源 计算机最初的操作系统支持的编码是单字节的字符编码,于是,在计算机中一切处理程序最初都是以单字节编码的英文为准进行处理。随着计算机的发展,为了适应世界其它民族的语言(当然包括我们的汉字),人们提出了UNICODE编码,它采用双字节编码,兼容英文字符和其它民族的双字节字符编码,所以,目前,大多数国际性的软件内部均采用UNICODE编码,在软件运行时,它获得本地支持系统(多数时间是操作系统)默认支持的编码格式,然后再将软件内部的UNICODE转化为本地系统默认支持的格式显示出来。Java的JDK和JVM即是如此,我这里说的JDK是指国际版的JDK,我们大多数程序员使用的是国际化的JDK版本,以下所有的JDK均指国际化的JDK版本。我们的汉字是双字节编码语言,为了能让计算机处理中文,我们自己制定的gb2312、GBK、GBK2K等标准以适应计算机处理的需求。所以,大部分的操作系统为了适应我们处理中文的需求,均定制有中文操作系统,它们采用的是GBK,GB2312编码格式以正确显示我们的汉字。如:中文Win2K默认采用的是GBK编码显示,在中文WIN2k中保存文件时默认采用的保存文件的编码格式也是GBK的,即,所有在中文WIN2K中保存的文件它的内部编码默认均采用GBK编码,注意:GBK是在GB2312基础上扩充来的。 由于Java语言内部采用UNICODE编码,所以在JAVA程序运行时,就存在着一个从UNICODE编码和对应的操作系统及浏览器支持的编码格式转换输入、输出的问题,这个转换过程有着一系列的步骤,如果其中任何一步出错,则显示出来的汉字就会出是乱码,这就是我们常见的JAVA中文问题。 同时,Java是一个跨平台的编程语言,也即我们编写的程序不仅能在中文windows上运行,也能在中文Linux等系统上运行,同时也要求能在英文等系统上运行(我们经常看到有人把在中文win2k上编写的JAVA程序,移植到英文Linux上运行)。这种移植操作也会带来中文问题。 还有,有人使用英文的操作系统和英文的IE等浏览器,来运行带中文字符的程序和浏览中文网页,它们本身就不支持中文,也会带来中文问题。 几乎所有的浏览器默认在传递参数时都是以UTF-8编码格式来传递,而不是按中文编码传递,所以,传递中文参数时也会有问题,从而带来乱码现象。

Android读取中文文件乱码解决方法

最近在做个MP3播放器,出现中文乱码问题,在网上找了很多解决办法,我整理了出现乱码的点和解决方案,拿出来和大家共享一下 1.读取中文文件乱码解决方法 package com.apj.conv; import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import android.app.Activity; import android.os.Bundle; import android.os.Environment; import android.widget.TextView; public class ConverActivity extends Activity { private TextV iew textview ; @Override public void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(https://www.360docs.net/doc/2716196442.html,yout.main); textview = (TextView) findView ById(R.id.lrctext); System.out.println("==============convertCodeAndGetText begin============== ") ; ///获得SDCard中文件的路径 String path = Environment.getExternalStorageDirectory().getAbsolutePath()+ File.separator ; String tochinese = convertCodeAndGetText(path+"a.txt"); System.out.println(tochinese); System.out.println("==============cconvertCodeAndGetText end=============="); textview.setText(tochinese); }

Java中文乱码问题产生原因分析

Java中文乱码问题产生原因分析 在计算机中,只有二进制的数据,不管数据是在内存中,还是在外部存储设备上。对于我们所看到的字符,也是以二进制数据的形式存在的。不同字符对应二进制数的规则,就是字符的编码。字符编码的集合称为字符集。 17.1.1 常用字符集 在早期的计算机系统中,使用的字符非常少,这些字符包括26个英文字母、数字符号和一些常用符号(包括控制符号),对这些字符进行编码,用1个字节就足够了(1个字节可以表示28=256种字符)。然而实际上,表示这些字符,只使用了1个字节的7位,这就是ASCII编码。

1.ASCII ASCII(American Standard Code for Information Interchange,美国信息互换标准代码),是基于常用的英文字符的一套电脑编码系统。每一个ASCII码与一个8位(bit)二进制数对应。其最高位是0,相应的十进制数是0~127。例如,数字字符“0”的编码用十进制数表示就是48。另有128个扩展的ASCII码,最高位都是1,由一些图形和画线符号组成。ASCII是现今最通用的单字节编码系统。 ASCII用一个字节来表示字符,最多能够表示256种字符。随着计算机的普及,许多国家都将本地的语言符号引入到计算机中,扩展了计算机中字符的范围,于是就出现了各种不同的字符集。 2.ISO8859-1 因为ASCII码中缺少£、ü和许多书写其他语言所需的字符,为此,可以通过指定128以后的字符来扩展ASCII码。国际标准组织(ISO)定义了几个不同的字符集,它们是在ASCII码基础上增加了其他语言和地区需要的字符。其中最常用的是ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符,其中0~127的字符与ASCII码相同。ISO 8859另外定义了14个适用于不同文字的字符集(8859-2到8859-15)。这些字符集共享0~127的ASCII码,只是每个字符集都包含了128~255的其他字符。 3.GB2312和GBK GB2312是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集-基本集》,标准号为GB2312-80,是一个由中华人民共和国国家标准总局发布的关于简化汉字的编码,通行于中国大陆和新加坡,简称国标码。 因为中文字符数量较多,所以采用两个字节来表示一个字符,分别称为高位和低位。为了和ASCII码有所区别,中文字符的每一个字节的最高位都用1来表示。GB2312字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,也是最基本的中文字符集。它包含了大部分常用的一、二级汉字和9区的符号,其编码范围是高位0xa1-0xfe,低位也是0xa1-0xfe,汉字从0xb0a1开始,结束于0xf 7fe。 为了对更多的字符和符号进行编码,由前电子部科技质量司和国家技术监督局标准化司于1995年12月颁布了GBK(K是“扩展”的汉语拼音第一个字母)编码规范,在新的编码系统里,除了完全兼容GB2312外,还对繁体中文、一些不常用的汉字和许多符号进行了编码。它也是现阶段Windows和其他一些中文操作系统的默认字符集,但并不是所有的国际化软件都支持该字符集。不过要注意的是GBK不是国家标准,它只是规范。GBK字符集包含了20 902个汉字,其编码范围是0x8140-0xfefe。 每个国家(或区域)都规定了计算机信息交换用的字符编码集,这就造成了交流上的困难。想像一下,你发送一封中文邮件给一位远在西班牙的朋友,当邮件通过网络发送出去的时候,你所书写的中文字符会按照本地的字符集GBK转换为二进制编码数据,然后发送出去。当你的朋友接收到邮件(二进制数据)后,查看信件时,会按照他所用系统的字符集,将二进制编码数据解码为字符,然而由于两种字符集之间编码的规则不同,导致转换出现乱码。这是因为,在不同的字符集之间,同样的数字可能对应了不同的符号,也可能在另一种字符集中,该数字没有对应符号。 为了解决上述问题,统一全世界的字符编码,由Unicode协会1制定并发布了Unicode编码。 4.Unicode Unicode(统一的字符编码标准集)使用0~65535的双字节无符号数对每一个字符进行编码。它不仅包含来自英语和其他西欧国家字母表中的常见字母和符号,也包含来自古斯拉夫语、希腊语、希伯来语、阿拉伯语和梵语的字母表。另外还包含汉语和日语的象形汉字和韩国的Hangul音节表。 目前已经定义了40000多个不同的Unicode字符,剩余25000个空缺留给将来扩展使用。其中大约20 1Unicode协会是由IBM、微软、Adobe、SUN、加州大学伯克利分校等公司和组织所组成的非营利性组织。

关于Linux下中文乱码的完整解决方案

关于Linux下中文显示为乱码的完整解决方案Linux,作为一款免费的操作系统,相对于高额费用的Windows系列操作系统,有着更强的优势,所以,许多人也都开始学习Linux操作系统的知识。但是,由于Windows 系列操作系统还是当今社会的主流,所以,人们少不了在Windows和Linux系统之间进行文件的传输。 但是一个新问题出现了,那就是中文乱码问题,这个问题困扰着无数的Linux用户,尤其是Linux的初学者,对于这个问题相当的头疼。 主要问题如下: 1、ssh中,中文显示为乱码:在Wind ows 系统下,用ssh远程连接Linux系统,对于在Linux下显示正常的中文,在ssh中却显示为完全无法识别的乱码字符。 2、中文传输乱码:把Wind ows中的中文文件传输到Linux操作系统中,原本在Wind ows下显示正常的文件,到了Linux系统下,成了无法识别的乱码。 分析其原因,是因为Linux和Wind ows系统下,所用户的字符集不同,Linux系统使用的是Unicod e字符集,而Wind ows使用的是GB字符集。所以,在网上出现了两种解决方案: 方法一:使用Putty代替secure shell client(ssh):在Putty终端设置中,修改wind ow-〉Translation中的Received data assumed to be in which character set值为Linux 中的字符集UTF-8,再连接Linux,

发现这时,Linux中的中文可以正常显示了。 但是一个新问题出现了,把Wind ows中的文件上传了Linux 中,原本在Wind ows下显示正常的中文文件,现在却成了乱码。 所以,这个方法无法彻底解决乱码问题。 方法二:修改Linux默认字符集,把Linux的默认字符集修改为和Wind ows中的字符集一致的GB18030或GB2312,重启Linux系统后,再用ssh终端连接,这时,修改字符集后的中文文件都已经能正常显示,而且,从Wind ows中新上传的中文文件也能正常显示了。这个方法不错。 但是,Linux系统在安装时,产生的中文字符(中文文件夹名、中文文件名、中文文件)在新的字符集下,却又全都显示成了乱码。 有什么方法可以彻底解决乱码问题,使在Linux系统下,所有的中文字符都可以正常显示呢? 本人综合了网上的各种解决方案,经过多次实验,终于找到了一个比较完整的解决方案,步骤如下: 第一步:用英文安装Linux系统:在安装Linux系统时,采用默认的英文安装,而不要使用中文。 第二步:修改字符集:在Linux系统安装成功以后,修改系统的默认字符集,操作如下: 在Fedora Linux系统中,编辑/etc/sysconfig/i18n文件,修改LANG 值为zh_CN.GB2312或zh_CN.GB18030,保存退出。 在OpenSuSE Linux系统中,编辑/etc/sysconfig/language文件,

网页中文乱码完美解决方案

网页中文乱码 既然后面charset设置为gb2312,那么你打开这个网页,然后另存,保存的时候记得把编码改成gb2312,不然的话charset就会误导浏览器,这样就会乱码了。 2.php编网页出现乱码,我把编码改成utf-8 前台显示正常了,但是有东西输入到数据库再提取出来还是不正常 3.apache+php+mysql 为何会出现乱码 我们在做PHP项目的时候,经常会遇到中文乱码的问题,有时候编码问题还导致MYSQL的报错。中文乱码总共有三个原因 1:APACHE服务器设置导致乱码 2:PHP,或者HTML页面编码导致中文乱码 3:MYSQL数据库的表以及字段编码导致中文乱码 我们分别从这三个部分来探究PHP程序设计中的编码问题 在这之前我们要了解一些基本理论: 1、文件编码 每个文件在保存的时候都可以选择以什么编码保存,例如用WINDOWS的记事本创建一个文件可以选择ANSI 以及UTF8等等编码。我们选择了什么编码该文件就以这种编码方式保存在硬盘上。读取该文件数据的时候也会指定一种编码来打开,如果指定的编码与文件保存的时候的编码不一样的话就会出现乱码 2、HTML的编码 在网页头部一般有这样一个 区域 这个的意思是让客户端知道,接下来输出的是html代码(text/html),并且以下输出的内容都将是utf-8编码的。如果我们用记事本创建一个HTML文件该文件包含 但是在保存的时候却以ANSI编码格式保存,那么我们用浏览器打开这个文件时,浏览器看见META 行的UTF8编码设置后就将文件以UTF8格式输出,而文件本来是ANSI编码,这样便出现了中文乱码。 一:APACHE服务器编码 在APACHE配置文件中有一行是编码的设置默认的是AddDefaultCharset ISO-8859-1,大部分人认为应该将这句改为AddDefaultCharset UTF-8 。而蜗牛认为这是误人子弟。这项配置是告诉APACHE服务器选用什么样的编码来输出WEB页面(这样做会忽略,HTML页面中的页面编码的设置EG:),如果我们建立一个GB2312的页面就会出现中文乱码。所以最好的方法是将AddDefaultCharset ISO-8859-1这一项注释掉#AddDefaultCharset 二:PHP编码问题 php最终生成的是文本文件,而他要从数据库中取出文本数据,还要把文本数据写到数据库中。由于MYSQL并不知道PHP发送给他的是什么编码的数据,所以需要客户端PHP告诉他存取的是什么编码的数据。然后MYSQL会自动将PHP传送来的数据转换成目标编码格式的

java读写文件避免中文乱码

1、JAVA读取文件,避免中文乱码。 /** * 读取文件内容 * * @param filePathAndName * String 如c:\\1.txt 绝对路径 * @return boolean */ public static String readFile(String filePathAndName) { String fileContent = ""; try { File f = new File(filePathAndName); if(f.isFile()&&f.exists()){ InputStreamReader read = new InputStreamReader(new FileInputStream(f),"UTF-8"); BufferedReader reader=new BufferedReader(read); String line; while ((line = reader.readLine()) != null) { fileContent += line; } read.close(); } } catch (Exception e) { System.out.println("读取文件内容操作出错"); e.printStackTrace(); } return fileContent; } 2、JAVA写入文件,避免中文乱码。 public static void writeFile(String filePathAndName, String fileContent) { try { File f = new File(filePathAndName); if (!f.exists()) { f.createNewFile(); } OutputStreamWriter write = new OutputStreamWriter(new FileOutputStream(f),"UTF-8"); BufferedWriter writer=new BufferedWriter(write); //PrintWriter writer = new PrintWriter(new BufferedWriter(new FileWriter(filePathAndName))); //PrintWriter writer = new PrintWriter(new FileWriter(filePathAndName)); writer.write(fileContent);

java乱码问题解决

Java WEB开发中的中文乱码问题解决 本文所有范例以UTF-8为例。大家可以根据自己的情况加以替换。 在开始本文之前,假设本文的读者已经熟悉或了解以下技术: - Java语法 - Java WEB开发的基本概念 - Jsp - Servlet - 至少一种支持JSP/SERVLET的Web服务器(包括安装,运行) 浏览器/WEB服务器之间的参数传递原理分析 浏览器/WEB服务器之间的中文参数传递 1,表单(form)中文参数的传递方法。我们使用一个简单的范例说明表单提交时浏览器的对中文参数的处理。 1. SubmitAsia.html 2. view plaincopy to clipboardprint? 3. 4. 5. 6. 7. 8.

9.

10.

11. 12. 13. 14. 15. 16. 17. 18.
19. 20.
21. 22. 使用任意浏览器打开该文件,在输入框内输入“你好” 中文2字,然后按submit按钮,我们注意到浏览器的地址栏: file:///C:/SubmitAsia.html?userName=%E4%BD%A0%E5%A5%BD 刚才输入“你好”二字,被转换为%E4%BD%A0%E5%A5%BD 后被发往服务器。 这个%E4%BD%A0%E5%A5%BD 是什么呢? 我们先使用一个Java程序来测试一下。如下: 1. EnDecoderUtil.java 2. view plaincopy to clipboardprint?

Flash中出现中文乱码的解决办法

Flash中出现中文乱码的解决办法 在编辑flash文件中加载了非Unicode 编码的外部txt文本文件时,有些中文就不能正常显示。 解决办法: 用鼠标右键单击舞台上的元件,从弹出的快捷菜单中选择“动作”选项,打开动作脚本编辑面板,键入下面脚本https://www.360docs.net/doc/2716196442.html,eCodepage = true;脚本解释:显示中文字符的语句,使外部文本文件中的中文字符能正常显示。否则只能显示英文字符,中文字符为乱码。例子:on (release) {loadVariablesNum("chem.txt", 0);https://www.360docs.net/doc/2716196442.html,eCodepage = true;} 说明: 对于作为外部文件包含或加载的文本(使用#include 命令,loadVariables() 或getURL 动作,或LoadVars 或XML 对象),保存这些文本文件时必须使用Unicode 对其进行编码,这样Flash Player 才能将其识别为Unicode。若要使用Unicode 对外部文件进行编码,请在支持Unicode 的应用程序(例如,Windows 2000 上的“记事本”)中保存这些文件。 如果包含或加载了非Unicode 编码的外部文本文件,则应将https://www.360docs.net/doc/2716196442.html,eCodepage 设置为true。在加载数据的SWF 文件的第一帧中,在最前面添加以下代码(第一行代码): https://www.360docs.net/doc/2716196442.html,eCodepage = true; 如果有这一行代码,Flash Player 将使用运行Flash Player 的操作系统

的传统代码页来解释外部文本。对于英文Windows 操作系统,该代码页通常为CP1252;对于日文操作系统,该代码页通常为Shift-JIS。如果将https://www.360docs.net/doc/2716196442.html,eCodepage 设置为true,Flash Player 6 和更高版本处理文本的方式与Flash Player 5 相同。(Flash Player 5 在处理文本时,将所有文本都视为按运行播放器的操作系统的传统代码页编码的文本。) 如果将https://www.360docs.net/doc/2716196442.html,eCodepage 设置为true,应注意您的外部文本文件中使用的字符必须包含在运行播放器的操作系统的传统代码页中,这样才能显示该文本。例如,如果您加载了一个包含中文字符的外部文本文件,这些字符在使用CP1252 代码页的系统上将无法显示,因为该代码页不包含中文字符。 若要确保所有平台上的用户都能查看您的SWF 文件中使用的外部文本文件,应使用Unicode 对所有外部文本文件进行编码,并将https://www.360docs.net/doc/2716196442.html,eCodepage 设置保留为其默认设置false。这样,Flash Player 6 和更高版本将按Unicode 解释文本。

有关JSP和数据库乱码问题的处理方式

JSP乱码终极解决方案(2)2008-09-27 01:53 A.M 2,具体说来,需要哪些信息才能确定项目中的乱码的根源. a,开发者所用的操作系统 b,j2ee容器的名称,版本 c,数据库的名称,版本(精确版本)以及jdbc驱动的版本 d,出现乱码的source code(比如是system out 出来的,还是jsp页面中的,如果是jsp中的,那么头 部声明的情况也很重要) 3,如何初步分析乱码出现的原因. 有了上述的信息,基本上就可以发帖求助了,相信放到javaworld等论坛上,很快就会有高手给你提出 有效的解决方案的. 当然不能总靠发帖求助,也要试试自行解决问题.如何下手呢? a,分析一下你的"乱码"到底是什么编码.这个其实不难,比如 System.out.println(testString); 这一段出现了乱码,那么不妨用穷举法猜测一下它的实际编码格式. System.out.println(new String(testString.getBytes("ISO-8859-1〃),"gb2312〃)); System.out.println(new String(testString.getBytes("UTF8〃),"gb2312〃)); System.out.println(new String(testString.getBytes("GB2312〃),"gb2312〃)); System.out.println(new String(testString.getBytes("GBK"),"gb2312〃)); System.out.println(new String(testString.getBytes("BIG5〃),"gb2312〃)); 等等,上述代码的意思是用制定的编码格式去读取testString这个"乱码",并转换成gb2312(此处仅

相关文档
最新文档