如何解决将ISO8859字符串转换为UTF8吗? ÄÖÜ=>Ã为什么?
| 此代码有什么问题?我做了一个ISO8859字符串。因此,大部分ÄÖÜ都是krypooutput。没关系。但是如何将它们转换回普通字符(UTF8之类)? String s = new String(\"Üü?öäABC\".getBytes(),\"ISO-8859-15\");
System.out.println(s);
//ÃÃŒ?öÀABC => ok(?)
System.out.println(new String(s.getBytes(),\"ISO-8859-15\"));
//ÃÂÃÅ?öÃâ¬ABC => ok(?)
System.out.println(new String(s.getBytes(),\"UTF-8\"));
//ÃÃŒ?öÀABC => huh?
解决方法
诸如“ 1”这样的结构几乎总是一个错误。
您在这里所做的是获取一个
String
对象,以平台默认编码获取相应的byte[]
,并将其重新解释为ISO-8859-15,以将其转换回String
。
如果平台默认编码恰好是ISO-8859-15(或对于该特定的String
足够接近以至于没有任何区别,例如ISO-8859-1),则它是无操作的(即没有实际效果) 。
在所有其他情况下,它很可能会破坏ѭ2。
如果尝试“修复” 2位数据,那可能为时已晚:如果必须使用特定的编码来读取数据,则应在将二进制数据转换为2位数据时使用它。例如,如果您从InputStream
读取,则需要将正确的编码传递给InputStreamReader
的构造函数。
尝试解决“事实之后”的问题是
很难做到
通常甚至是不可能的(因为用错误的编码解码byte[]
可能是破坏性的操作)。
, 我希望这能解决您的问题。
String readable = \"äöüÄÖÜßáéíóúÁÉÍÓÚàèìòùÀÈÌÒÙñÑ\";
try {
String unreadable = new String(readable.getBytes(\"UTF-8\"),\"ISO-8859-15\");
// unreadable -> äöüÃÃÃÃáéÃóúÃÃÃÃÃà èìòùÃÃÃÃÃñÃ
} catch (UnsupportedEncodingException e) {
// handle error
}
和:
String unreadable = \"äöüÃÃÃÃáéÃóúÃÃÃÃÃà èìòùÃÃÃÃÃñÃ\";
try {
String readable = new String(unreadable.getBytes(\"ISO-8859-15\"),\"UTF-8\");
// readable -> äöüÄÖÜßáéíóúÁÉÍÓÚàèìòùÀÈÌÒÙñÑ
} catch (UnsupportedEncodingException e) {
// ...
}
, String s = new String(\"Üü?öäABC\".getBytes(),\"ISO-8859-15\"); //bug
这些代码所做的只是损坏的数据。它将UTF-16数据转码为系统编码(无论是哪种格式),并获取这些字节,并假装它们是有效的ISO-8859-15,然后将其转码为UTF-16。
然后如何将输入的字符串如\“ÃÃŒ?öÀABC \”转换为正常? (如果我知道该字符串来自ISO8859文件)。
执行此操作的正确方法如下:
byte[] iso859_15 = { (byte) 0xc3,(byte) 0xc3,(byte) 0xbc,0x3f,(byte) 0xb6,(byte) 0xa4,0x41,0x42,0x43 };
String utf16 = new String(iso859_15,Charset.forName(\"ISO-8859-15\"));
Java中的字符串始终为UTF-16。所有其他编码必须使用“ 16”类型表示。
现在,如果使用System.out
输出结果字符串,则可能无法正确显示,但这是另一个代码转换问题。例如,Windows控制台的默认编码与系统编码不匹配。 System.out
使用的编码必须与接收数据的设备的编码匹配。您还应注意确保使用与编辑器相同的编码来读取源文件。
要了解字符数据的处理在不同语言之间如何变化,请阅读本章。
, 这是使用String输出的简单方法(我创建了一个方法来执行此操作):
public static String (String input){
String output = \"\";
try {
/* From ISO-8859-1 to UTF-8 */
output = new String(input.getBytes(\"ISO-8859-1\"),\"UTF-8\");
/* From UTF-8 to ISO-8859-1 */
output = new String(input.getBytes(\"UTF-8\"),\"ISO-8859-1\");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return output;
}
// Example
input = \"Música\";
output = \"Música\";
有用!! :)
, Java字符串在内部始终存储为UTF16数组(并在编译后存储为类文件中的UTF8),因此您不能简单地将字符串解释为字节数组。如果要使用某种编码从字符串创建字节数组,则必须首先转换为以下编码:
byte[] b = \"Üü?öäABC\".getBytes(\"ISO-8859-15\");
System.out.println(new String(b,\"ISO-8859-15\")); // will be ok
System.out.println(new String(b,\"UTF-8\")); // will look garbled
, 我想提供扩展的字符集,以验证从ISO-8859-1转换为utf-8的字符串。
@Test
public void testEnc() throws UnsupportedEncodingException {
String isoString = \"äö\";
String utfString = new String(isoString.getBytes(\"ISO-8859-1\"),\"utf-8\");
boolean validConvertion = containsSpecialCharacter(utfString);
assertTrue(validConvertion);
}
public boolean containsSpecialCharacter(String str) {
String[] readable = new String[] { \"Ã\",\"Ã\",\"Ñ\",\"Ò\",\"Ó\",\"Ô\",\"Õ\",\"Ö\",\"×\",\"Ø\",\"Ù\",\"Ú\",\"Û\",\"Ü\",\"Þ\",\"ß\",\"à\",\"á\",\"â\",\"ã\",\"ä\",\"å\",\"æ\",\"ç\",\"è\",\"é\",\"ê\",\"ë\",\"ì\",\"í\",\"î\",\"ï\",\"ð\",\"ñ\",\"ò\",\"ó\",\"ô\",\"õ\",\"ö\",\"÷\",\"ø\",\"ù\",\"ú\",\"û\",\"ü\",\"ý\",\"þ\",\"ÿ\" };
for (String st : readable) {
if (str.contains(st)) {
return true;
}
}
return false;
}
, 该解决方案为我工作,希望对您有所帮助
String s1 = \"l\'épargne\";
String s2 = new String(s1.getBytes(\"iso-8859-1\"),\"utf8\");
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。