![如何修复 PEG.js 中因字符范围 [A-z] 导致的变量名误匹配问题](https://img.php.cn/upload/article/001/246/273/176734783280697.jpg)
peg.js 中 `varname = [a-z0-9]+` 会错误匹配方括号等非法字符,根本原因是 `[a-z]` 并非等价于 `[a-za-z]`,而是包含了 ascii 中 `'z'`(u+005a)到 `'a'`(u+0061)之间的所有字符(如 `[ \ ] ^ _ `),导致 `test[` 被截断为合法变量名,后续解析失败。
在您提供的 PEG.js 语法中,Varname 规则定义为:
Varname "variable name"
= [A-z0-9]+ {
if(!/[A-z]+/.test(text()))
error(`Variable name must contain at least one letter. (reading '${text()}')`);
return text();
}表面看是“匹配字母或数字”,但实际 [A-z] 是一个危险的字符范围:它等价于 [A-Z[\]^_a-z](即从 ASCII 65'A'到 122'z'的全部字符),其中包含[、]、`、^、_、` 等符号。因此当输入 test["foobar"] 时,[A-z0-9]+ 首先贪婪匹配 test[ —— 因为 [ 属于该范围 —— 导致 Getvar 规则将 name 解析为 "test[",而 glob["test["] 显然不存在,从而抛出 Variable 'test[' does not exist. 错误。
✅ 正确写法:显式限定字母范围
应将 [A-z] 替换为标准、安全的 [A-Za-z] 或更推荐的忽略大小写的 Unicode 字母写法:
Varname "variable name"
= [A-Za-z][A-Za-z0-9]* {
return text();
}或使用 PEG.js 支持的 i 标志(不区分大小写)提升可读性与健壮性:
Varname "variable name"
= [A-Z][A-Z0-9]*i {
return text();
}? 注意:[A-Z]i 表示“首字符必须是英文字母(大小写均可)”,后续字符允许字母或数字(同样不区分大小写)。这既满足“至少含一个字母”的语义,又避免了 [A-z] 的陷阱。
同时,请确保 Getvar 规则末尾消耗空白,防止路径解析前残留空格干扰(您原规则已含 _,这点是正确的):
Getvar
= name:Varname _ path:('[' _ exp:(String / Integer) _ ']' { return exp; })* {
let rt = glob[name];
if (rt === undefined && name !== 'undefined' && name !== 'null') {
error(`Variable '${name}' does not exist.`);
}
for (let p of path) {
rt = rt[p];
}
return rt;
}? 额外建议:增强变量名校验(可选)
若需支持更现代的标识符(如 Unicode 字母、下划线开头等),可结合 JavaScript 的 /\p{ID_Start}/u 思路(需运行时校验),但 PEG.js 原生不支持 Unicode 属性转义;此时推荐在动作代码中补充验证:
Varname "variable name"
= chars:[A-Za-z0-9_]+ {
const s = text();
if (!/^[A-Za-z_][A-Za-z0-9_]*$/.test(s)) {
error(`Invalid variable name: '${s}'`);
}
return s;
}✅ 总结
- ❌ 错误根源:[A-z] 是 ASCII 范围陷阱,绝不可用于“英文字母”意图;
- ✅ 正确做法:用 [A-Za-z] 或 [A-Z]i 明确指定字母范围;
- ✅ 必做检查:确保变量名首字符为字母(或 _),避免纯数字如 123 被误认为合法标识符;
- ?️ 防御性设计:在语义动作中做二次校验,比纯语法层更可靠。
修正后,test["foobar"] 将被准确拆分为 name = "test" + path = ["foobar"],顺利访问嵌套属性,不再触发意外截断。










