java判断文件编码格式怎么判断编码格式

如题所述

推荐答案 2017-08-11

UTF-8编码的文本文档，有的带有BOM (Byte Order Mark, 字节序标志)，即0xEF, 0xBB, 0xBF，有的没有。Windows下的txt文本编辑器在保存UTF-8格式的文本文档时会自动添加BOM到文件头。在判断这类文档时，可以根据文档的前3个字节来进行判断。然而BOM不是必需的，而且也不是推荐的。对不希望UTF-8文档带有BOM的程序会带来兼容性问题，例如Java编译器在编译带有BOM的UTF-8源文件时就会出错。而且BOM去掉了UTF-8一个期望的特性，即是在文本全部是ASCII字符时UTF-8是和ASCII一致的，即UTF-8向下兼容ASCII。
在具体判断时，如果文档不带有BOM，就无法根据BOM做出判断，而且IsTextUnicode API也无法对UTF-8编码的Unicode字符串做出判断。那在编程判断时就要根据UTF-8字符编码的规律进行判断了。
UTF-8是一种多字节编码的字符集，表示一个Unicode字符时，它可以是1个至多个字节，在表示上有规律：
1字节：0xxxxxxx
2字节：110xxxxx 10xxxxxx
3字节：1110xxxx 10xxxxxx 10xxxxxx
4字节：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
这样就可以根据上面的特征对字符串进行遍历来判断一个字符串是不是UTF-8编码了。
举例代码：
java.io.File f=new java.io.File("待判定的文本文件名");
try{
java.io.InputStream ios=new java.io.FileInputStream(f);
byte[] b=new byte[3];
ios.read(b);
ios.close();
if(b[0]==-17&&b[1]==-69&&b[2]==-65)
System.out.println(f.getName()+"编码为UTF-8");
else System.out.println(f.getName()+"可能是GBK");
}catch(Exception e){
e.printStackTrace();
}

温馨提示：答案为网友推荐，仅供参考

当前网址：https://verywind.cn/ee/vfjrfj7v7jvy7jvf2ej.html

你可能感兴趣的内容

大家正在搜

java如何判断文件的编码格式 java源文件编码格式是什么 java文件编码格式 java转换文件编码格式 java获取文件编码格式 java设置文件编码格式 java创建文件指定编码格式 java怎么改编码格式判断文件编码格式方法

非常风气网www.verywind.cn

java判断文件编码格式怎么判断编码格式

相关了解……

你可能感兴趣的内容

非常风气网www.verywind.cn

java判断文件编码格式 怎么判断编码格式

相关了解……

你可能感兴趣的内容

java判断文件编码格式怎么判断编码格式