UTF-8
UTF-8(8 位 Unicode 转换格式)
Web 上占主导地位的字符编码,能够使用每个字符一到四个字节来表示 Unicode 标准中的所有字符,同时保持与 ASCII 的向后兼容性。
技术细节
UTF-8 是一种可变宽度编码:ASCII 字符(U+0000 至 U+007F)使用一个字节,与其 ASCII 值相同,使任何 ASCII 文本都是有效的 UTF-8。两个字节覆盖拉丁、希腊、西里尔和阿拉伯文字(U+0080-U+07FF),三个字节覆盖大多数 CJK 字符(U+0800-U+FFFF),四个字节处理表情符号和稀有文字(U+10000-U+10FFFF)。超过 98% 的网页使用 UTF-8。BOM(字节序标记,EF BB BF)是可选的,除 Windows 环境外通常不建议使用。
示例
```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
const data = e.target.result;
console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```