JNI 中文处理问题小结

2016-01-29 12:17 13 1 收藏

JNI 中文处理问题小结,JNI 中文处理问题小结

【 tulaoshi.com - C语言心得技巧】

JNI中文处理问题小结

作者:大卫的思维空间

　　由于工作关系，需要利用JNI在C++与Java程序之间进行方法调用和数据传递，但以前总是在英文环境下工作，对中文（其他语言编码同理）问题反倒没有太关注，最近抽了点时间研究了一下，将自己的体会整理如下，供大家讨论或参考。
在进一步讨论之前，有几点基础知识需要说明：在Java内部，所有的字符串编码采用的是Unicode即UCS-2。Unicode是用两个字节表示每个字符的字符编码方案。Unicode有一个特性：它包括了世界上所有的字符字形。所以，各个地区的语言都可以建立与Unicode的映射关系，而Java正是利用了这一点以达到异种语言之间的转换；UTF-8是另一种不同于UCS-2/UCS-4的编码方案，其中UTF代表UCS Transformation Format，它采用变长的方式进行编码，编码长度可以是1~3（据说理论上最长可以到6，不懂）。
由于UCS-2/UCS-4编码定长的原因，编码产生的字符串会包含一些特殊的字符，如（即0x0，所有0~256的字符Unicode编码的第一个字节），这在有些情况下（如传输或解析时）会给我们带来一些麻烦，而且对于一般的英文字母浪费了太多的空间，此外，据说UTF-8还有Unicode所没有的纠错能力（不懂！），因此，Unicode往往只是被用作一种中间码，用于逻辑表示。关于Unicode/UTF-8的更多信息，见参考1；

　　Java中文乱码问题在很多情况下都可能发生：不同应用间，不同平台间等等，但以上问题已有大量优秀的文章讨论过，这里不作深入探讨，详见参考2、3、4、5。下面简要总结一下：当我们使用默认编码方式保存源文件时，文件内容实际上是按照我们的系统设定进行编码保存的，这个设定值即file.encoding可以通过下面的程序获得：

public class Encoding {    public static void main(String[] args) {        System.out.println(System.getProperty("file.encoding"));    }}

javac在不指定encoding参数时，如果区域设定不正确，则可能造成编/解码错误，这个问题在编译一个从别的环境传过来的文件时可能发生；2、虽然在Java内部（即运行期间，Runtime）字符串是以Unicode形式存在的，但在class文件中信息是以UTF-8形式存储的（Unicode仅被用作逻辑表示中间码）；
对于Web应用，以Tomcat为例，JSP/Servlet引擎提供的JSP转换工具（jspc）搜索JSP文件中用<%@ page contentType ="text/html; charset=<Jsp-charset"%指定的charset。如果在JSP文件中未指定<Jsp-charset，则取系统默认的file.encoding（这个值在中文平台上是GBK），可通过控制面板的Regional Options进行修改；jspc用相当于“javac –encoding <Jsp-charset”的命令解释JSP文件中出现的所有字符，包括中文字符和ASCII字符，然后把这些字符转换成Unicode字符，再转化成UTF-8格式，存为JAVA文件。
我曾经偶然将jsp文件存成UTF-8，而在文件内部使用的charset却是GB2312，结果运行时总是无法正常显示中文，后来转存为默认编码方式才正常。只要文件存储格式与JSP开头的charset设置一致，就都可以正常显示（不过将文件保存成UTF-16的情况下我还没有试验成功）；
在XML文件中，encoding表示的是文件本身的编码方式，如果这个参数设定与文件本身实际的编码方式不一致的话，则可能解码失败，所以应该总是将encoding设置成与文件编码方式一致的值；而JSP/HTML的charset则表示按照何种字符集来解码从文件中读取出来的字符串（在理解中文问题时应该把字符串理解成一个二进制或16进制的串，按照不同的charset可能映射成不同的字符）。
我曾经在网上就encoding的具体含义跟别人讨论过：如果encoding指的是文件本身的编码方式，那么读取该文件的应用程序在不知道encoding设置的情况下如何正确解读该文件呢？
根据讨论及个人理解，处理程序（如jspc）总是按ISO8859-1来读取输入文件，然后检查文件开始的几个字节（即Byte Order Mark，BOM，具体如何判断，可以参考Tomcat源码$SOURCE_DIRjasperjasper2srcshareorgapachejasperxmlparserXMLEncodingDetector.java的getEncodingName方法，在JSP Specification的Page Character Encoding一节也有详细论述）以探测文件是以何种格式保存的，当解析到encoding选项时，若encoding设置与文件实际保存格式不一致，会尝试进行转换，但这种转换可能在文件实际以ISO8859-1/UTF-8等单字节编码而encoding被设置成Unicode、UTF-16等双字节编码时发生错误。

下面重点讨论JNI中在C++程序与Java程序间进行数据传递时需要注意的问题。

　　在JNI中jstring采用的是UCS-2编码，与Java中String的编码方式一致。但是在C++中，字符串是用char（8位）或者wchar_t（16位，Unicode编码与jchar

来源:http://www.tulaoshi.com/n/20160129/1485408.html

上一篇： JAVA/JSP学习系列之一(JDK安装)
下一篇： PSV《闪之轨迹2》深渊之魔女与黑兔技能演示视频

看过《JNI 中文处理问题小结》的人还看了以下文章更多>>

JNI 中文处理问题小结 01-29
JAVA开发中的中文处理问题 02-19
Android多线程及异步处理问题详细探讨 02-19
解决Oracle中Exp/Imp大量数据处理问题 02-19
JSP中文乱码问题解决方法小结 02-19
分享：处理Excel方法小结 01-29
优盘装系统问题小结 02-19
Java中文档对象模型DOM经验小结 02-19
sql server2005 jdbc解决自动增长列统一处理问题纪实 02-19
JNI完全手册 01-29

Excel打印的技巧与问题小结

标签：电脑入门

在使用Excel的过程中，少不了要把Excel文件打印出来，下面把一些收集到的Excel打印的技巧与问题，发布到Excel吧中，与大家分享！ 1、没有打印机一样可以打印预览在没有安装打印机的电脑上按下Excel的打印预览按钮后，Excel会却提示没有安装打印机，且无法打印预览。其实，只要单击开始→设置→打印机，然后双击添加打印机项目，再随...

基于jni调用时,jvm报错问题的深入分析

标签：编程语言网络编程

执行如下的jni调用：代码如下： package jni; public class JNITransObject { public native TestJNI[] ObjectMethod(String text); static { System.loadLibrary("JNITransObject"); } public static void main(String args[]) { JNITransObject jniTransObject = new JNITransObject()...

孕期B超检查问题小结

孕期B超检查问题小结孕妈妈在孕期主要就是通过B超检查来了解胎儿的发育情况，过早做B超是看不到胎囊的。孕妈妈在做B超时都会遇到哪些问题呢？ www.Tulaoshi.com 一、B超需知 Q1:如果胎儿畸形医院没有检查出来，需要负法律怎责任吗？ Q2:妊娠多久我可以看到宝宝的样子？ Q...

mysql中文问题的解决

标签：编程语言网络编程

/* * To change this template, choose Tools | Templates * and open the template in the editor. */ package com.util; import java.io.UnsupportedEncodingException; import java.sql.*; /** * * @author swing */ public class DbUtility { private Connection conn = null; private ResultSe...

解决Ajax中文乱码问题

标签： Web开发

网上有很多解决这个问题的方法，试了一下都不好用，自己就对于这些方法测试了一下，然后逐个排除无用的设置，最后得到了最简单的方案。 js代码：得到XmlHttpRequest的类 Code 1function HttpRequest() 2{ 3 //取得Request对象 4 this.Request=function(){ 5 try 6 { 7 if(window.XMLHttpRequest) request=new XMLHttpRequest(); 8 if(!reque...

查看更多精彩>>