![如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名匹配错误](https://img.php.cn/upload/article/001/246/273/176734938580824.jpg)
peg.js 中 `varname = [a-z0-9]+` 会意外匹配 `[` 和 `]` 等非法字符,根本原因是 `[a-z]` 并非等价于 `[a-za-z]`,而是包含 ascii 码 91–96(即 `[ \ ] ^ _ `)之间的所有符号,需改用 `[a-za-z]` 或更安全的 `[a-z0-9_]i` 并启用忽略大小写标志。
在 PEG.js 语法中,字符类 [A-z] 是一个常见但危险的误区。它看似表示“从大写 A 到小写 z 的所有字母”,实则依据 ASCII 编码表展开:'Z' 的编码是 90,'a' 是 97,因此 [A-z] 实际匹配的是 ASCII 码 65–122 范围内的所有字符——不仅包含 A–Z(65–90)、a–z(97–122),还额外包含了 [(91)、\(92)、](93)、^(94)、_(95)、`(96)这 6 个非字母符号。
这正是你遇到问题的根源:当输入 test["foobar"] 时,PEG.js 的 Varname 规则尝试贪婪匹配最长前缀,[A-z0-9]+ 会一路吞掉 test[(因为 [ 属于该范围),导致后续解析失败,并抛出 Variable 'test[' does not exist. 的错误。
✅ 正确写法(推荐):
Varname "variable name"
= [A-Za-z][A-Za-z0-9_]* { return text(); }或更简洁、支持忽略大小写的写法(PEG.js 支持 i 标志):
Varname "variable name"
= [A-Z0-9_]+i {
const name = text();
if (!/[A-Z]/i.test(name)) {
error(`Variable name must contain at least one letter. (reading '${name}')`);
}
return name;
}⚠️ 注意事项:
- 不要使用 [A-z]、[a-Z] 等跨 ASCII “断层”的范围——它们不可靠且易引入隐蔽 bug;
- 变量名通常还需支持下划线 _(如 user_name),建议显式加入:[A-Za-z_][A-Za-z0-9_]*;
- 若需 Unicode 字母支持(如中文变量名),PEG.js 原生不支持 \p{L},需借助插件或预处理,生产环境建议坚持 ASCII 命名规范;
- 在 Getvar 规则末尾务必添加 _ 消耗尾部空白,避免因空格导致路径解析中断:
Getvar = name:Varname _ path:('[' _ exp:(String / Integer) _ ']' { return exp; })* { let rt = glob[name]; if (rt === undefined && name !== 'undefined' && name !== 'null') { error(`Variable '${name}' does not exist.`); } for (const p of path) rt = rt[p]; return rt; }
? 总结:字符类是 PEG.js(及多数正则引擎)中最易被低估的陷阱之一。始终用明确、无歧义的范围(如 [A-Za-z])替代看似简写的 [A-z];结合 i 标志可提升可读性与健壮性;并通过单元测试覆盖边界用例(如 a[, test_1], x123[)来验证解析行为是否符合预期。










