
在go中对sql字符串按关键字(如select、from、where、and等)进行缩进与换行美化,不能依赖简单字符串分割或正则替换;应基于语法解析器实现语义级格式化,避免误判注释、字符串字面量或嵌套结构。
对SQL语句进行格式化(即“美化”或“pretty-printing”)看似是简单的文本处理问题,实则涉及完整的词法与语法分析。例如,将:
select col1, col2, col3 from foo where col1 > 1000 and col2 < 2000
转换为:
SELECT col1, col2, col3
FROM foo
WHERE col1 > 1000
AND col2 < 2000若仅用 strings.Split() 或正则匹配 (?i)\b(select|from|where|and|or|begin|end)\b 并插入换行/缩进,会面临多重陷阱:
- ✅ 关键字大小写不敏感,但需统一转为大写(如 SELECT);
- ❌ 无法区分 SQL 关键字与普通标识符(如列名 select_id 中的 select);
- ❌ 无法跳过字符串字面量(如 'SELECT * FROM users')或注释(-- SELECT ignored);
- ❌ 无法处理嵌套结构(如 BEGIN ... BEGIN ... SELECT ... END ... END),导致缩进层级错误;
- ❌ 无法识别括号配对、子查询边界,进而影响 AND/OR 的对齐逻辑。
因此,正解是使用成熟的 SQL 解析器,而非文本启发式处理。
立即学习“go语言免费学习笔记(深入)”;
推荐方案:使用 vitess/go/vt/sqlparser(已迁移至 github.com/vitessio/vitess/go/vt/sqlparser)
该库是 Vitess 项目的核心 SQL 解析器,支持完整 ANSI SQL(含 MySQL 方言),可准确构建 AST(抽象语法树)。虽然其默认不提供格式化输出,但可通过遍历 AST 实现可控美化:
package main
import (
"fmt"
"strings"
"github.com/vitessio/vitess/go/vt/sqlparser"
)
func formatSQL(sql string) string {
stmt, err := sqlparser.Parse(sql)
if err != nil {
return "parse error: " + err.Error()
}
var b strings.Builder
indent := 0
formatNode(stmt, &b, indent)
return b.String()
}
func formatNode(node sqlparser.SQLNode, b *strings.Builder, indent int) {
switch n := node.(type) {
case *sqlparser.Select:
b.WriteString(strings.Repeat(" ", indent))
b.WriteString("SELECT ")
// 此处需递归处理 SelectExprs、From、Where 等字段...
// (实际实现需完整遍历 AST 各节点类型)
default:
// 简化示意:回退到原始 SQL(生产环境需补全所有节点类型)
b.WriteString(sqlparser.String(node))
}
}
func main() {
sql := "select col1, col2 from foo where col1 > 1000 and col2 < 2000"
fmt.Println(formatSQL(sql))
}⚠️ 注意:上述代码仅为结构示意。vitess/sqlparser 不内置格式化器,需自行实现 formatNode 的完整分支(覆盖 *sqlparser.Where, *sqlparser.AndExpr, *sqlparser.ParenBoolExpr, *sqlparser.Begin, *sqlparser.End 等数十种节点),并维护缩进栈(如 BEGIN → indent+1,END → indent-1)。
更轻量替代方案(适用于简单场景)
若仅需基础关键字换行+大写,且能接受一定误报率(如无嵌套、无字符串/注释干扰),可采用安全预处理 + 关键字映射:
func simpleFormat(sql string) string {
// 先转义字符串字面量和注释(简化版,生产环境需用 lexer)
cleaned := sqlparser.RemoveComments(sqlparser.NewStringTokenizer(sql))
// 定义关键字及其换行缩进规则
keywords := []struct {
pattern string
prefix string // 换行后前置空格(如 "\n " 表示缩进2空格)
upper bool
}{
{"select", "\n", true},
{"from", "\n ", true},
{"where", "\n ", true},
{"and", "\n ", true},
{"or", "\n ", true},
{"begin", "\n", true},
{"end", "\n", true},
}
result := cleaned
for _, kw := range keywords {
re := regexp.MustCompile(`(?i)\b` + regexp.QuoteMeta(kw.pattern) + `\b`)
repl := func(s string) string {
m := strings.TrimSpace(s)
if kw.upper {
m = strings.ToUpper(m)
}
return kw.prefix + m
}
result = re.ReplaceAllStringFunc(result, repl)
}
return strings.TrimSpace(result)
}⚠️ 此方法仅作原型验证或日志调试使用,不可用于用户输入或复杂 SQL。
总结
- 不要手写正则/分割逻辑处理 SQL 格式化:语法边界模糊,极易出错;
- 首选基于 AST 的解析器:vitess/go/vt/sqlparser 是 Go 生态最成熟选择,虽需扩展格式化逻辑,但健壮性与可维护性远超文本处理;
- 若项目已有 SQL 解析需求(如权限校验、重写、审计),格式化可作为 AST 遍历的副产品自然实现;
- 对嵌套控制流(BEGIN/END)、子查询、CTE 等高级特性,唯有语法树能保证缩进语义正确。
真正的 SQL 格式化,本质是编译器前端问题——交给解析器,而非字符串。










