0

0

c++中如何处理Unicode字符和字符串? (char8_t, char16_t, char32_t)

裘德小鎮的故事

裘德小鎮的故事

发布时间:2026-01-12 16:05:02

|

365人浏览过

|

来源于php中文网

原创

char8_t/char16_t/char32_t是C++20引入的独立字符类型,非typedef;宽度分别为≥8/16/32位,与unsigned char等不兼容;仅表存储单元,无编码语义;u8""、u""、U""字面量分别对应其类型。

c++中如何处理unicode字符和字符串? (char8_t, char16_t, char32_t)

char8_t / char16_t / char32_t 是什么,不是什么

char8_tchar16_tchar32_t 是 C++20 引入的**独立字符类型**,不是 typedef 或别名。它们各自有确定的宽度:char8_t 至少 8 位(通常就是 8 位),char16_t 至少 16 位(常见为 16),char32_t 至少 32 位(常见为 32)。它们和 unsigned charuint16_tuint32_t **不兼容**——不能隐式转换,也不能混用在模板或重载中。

关键点:它们只表示“存储单元”,不自带编码语义。比如 char16_t 字符串可以是 UTF-16,也可以是 GBK 的高位字节(虽然没人这么干);C++ 标准不管内容,只管类型安全。

  • u8"hello" → 类型是 const char8_t[6],内容是 UTF-8 编码字节
  • u"café" → 类型是 const char16_t[5],内容是 UTF-16 编码(é 可能占 1 或 2 个 char16_t
  • U"?‍?" → 类型是 const char32_t[2]?错,是 [1] —— 因为 char32_t 足够存一个 Unicode 码点,U"?‍?" 是单个标量值(U+1F4BB + U+200D + U+1F4BC),但组合后仍是单个码点?不,实际是 Emoji ZWJ 序列,共 3 个码点 → U"?‍?" 长度为 3,不是 1

std::string_view 和 std::basic_string 怎么选

别直接用 std::string 存 Unicode 文本——它底层是 char,和 UTF-8 兼容但语义模糊;也别盲目用 std::u16string,它只是 std::basic_string,不提供任何 UTF-16 解码逻辑。

推荐组合:

立即学习C++免费学习笔记(深入)”;

  • UTF-8 文本(文件、网络、API)→ std::stringstd::string_viewchar 类型,但内容为 UTF-8 字节)
  • 需要逐码点处理(如大小写转换、分词)→ 先用 ICU、utf8cpp 或手写解码器转成 std::vector,再操作
  • Windows API 交互 → std::wstringwchar_t,非标准 Unicode,Win32 下是 UTF-16);C++20 后可考虑 std::u16string + std::from_chars 配合平台转换函数
  • std::u8string 是 C++20 新增,等价于 std::basic_string;但注意:它不等于“UTF-8 安全字符串”,仍需手动验证有效性

常见错误:把 char16_t 当“Unicode 字符”来遍历

UTF-16 是变长编码:U+0000–U+FFFF 占 1 个 char16_t,而 U+10000–U+10FFFF(如 ? U+1F30D)需用代理对(surrogate pair):高位代理(0xD800–0xDBFF)+ 低位代理(0xDC00–0xDFFF),共 2 个 char16_t 表示 1 个码点。

PaperAiBye
PaperAiBye

支持近30多种语言降ai降重,并且支持多种语言免费测句子的ai率,支持英文aigc报告等

下载

所以以下代码是错的:

for (size_t i = 0; i < s.size(); ++i) {
    char16_t c = s[i]; // 可能只拿到代理对的一半
    process_code_point(c); // 错!c 不一定是完整码点
}

正确做法是用 UTF-16 解码循环:

for (size_t i = 0; i < s.size(); ) {
    char32_t cp;
    if (i + 1 < s.size() && 
        s[i] >= 0xD800 && s[i] <= 0xDBFF &&
        s[i+1] >= 0xDC00 && s[i+1] <= 0xDFFF) {
        cp = 0x10000 + ((s[i] - 0xD800) << 10) + (s[i+1] - 0xDC00);
        i += 2;
    } else {
        cp = s[i];
        i += 1;
    }
    process_code_point(cp);
}

跨平台 I/O 和 locale 几乎没用

C++ 标准库的 std::wcoutstd::codecvt(已弃用)、std::locale 在 Unicode 处理上基本不可靠:Windows 上 wcout 默认窄输出,Linux/macOS 对宽字符支持参差不齐,std::codecvt_utf8_utf16 在 C++20 被移除。

务实方案:

  • 输入:读文件用二进制模式(std::ios::binary),按 BOM 判断 UTF-8/UTF-16/UTF-32,再用轻量库(如 utf8cpp)解码
  • 输出:统一转为 UTF-8 std::string,写入文件或 stdout(现代终端基本都支持 UTF-8)
  • 避免 std::wifstream 直接读 UTF-16 文件——它依赖 locale,行为不确定
  • Windows 控制台需调用 SetConsoleOutputCP(CP_UTF8) 并确保终端字体支持,否则 std::cout 仍可能乱码

真正难的不是类型声明,而是边界:BOM 怎么跳、代理对怎么拆、组合字符(如 é + ◌́)怎么归一、零宽连接符怎么处理——这些 C++ 标准库一个都不管。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

520

2023.09.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

254

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

206

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1463

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

617

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

548

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

543

2024.04.29

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

9

2026.01.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7万人学习

Excel 教程
Excel 教程

共162课时 | 11.5万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号