JATS是NLM主导制定、NISO认可的学术期刊结构化XML标准,核心在于语义标记而非排版;它解决PDF/Word内容不可机读问题,支持元数据管理、正文结构化、参考文献精准解析及多语种、科研数据等扩展需求;我国形成GB/T 40959、CY/T 263和CAS JATS三类本土化标准,兼容国际规范并适配中文场景;其Schema约束确保XML可被PubMed、CNKI、AI工具等复用,实现“一次结构化,处处可复用”。

JATS(Journal Article Tag Suite)是一种专为学术期刊文章设计的结构化XML标记标准,由美国国家医学图书馆(NLM)主导制定,现为NISO(美国国家信息标准组织)正式认可的标准。它的核心不是描述排版样式,而是精准表达文章的语义结构——比如“这是作者姓名”“这是图1的标题”“这是参考文献列表中的第3条”,让机器能准确识别、提取和复用内容。
JATS XML解决什么实际问题
传统PDF或Word文档内容“锁死”在格式里,无法被系统自动理解。JATS XML把一篇论文拆解成可编程的语义单元:
- 元数据部分:DOI、作者单位、基金项目、收稿日期等,便于入库、检索与统计
- 正文结构部分:章节、段落、公式、表格、插图及其编号与引用关系,支持动态重组与多端适配
- 参考文献部分:每条文献的作者、刊名、卷期页码、PMID/DOI等字段独立标注,可直接对接引文分析工具
- 扩展能力:支持子文章(如补充材料)、多语种对照、数据声明、ORCID绑定等现代出版需求
国内应用与本土化发展
我国已形成与国际JATS兼容又面向中文场景的双轨体系:
- GB/T 40959–2021《期刊文章标签集》:国家标准,定义259个元素与124个属性,强化生僻字编码、中文标点处理、审稿流程标签(如“初审意见”“终审结论”)
- CY/T 263–2022《期刊全文 XML 描述标签集》:行业标准,聚焦出版全流程,支持创作、评审、录用、发布各阶段的数据贯通
- CAS JATS 1.0:中科院自主标准,在《化学进展》等期刊落地,突出科研数据关联与公式语义标注
JATS不是静态模板,而是可演化的技术基础
它本身不强制规定XML文件如何生成,但提供清晰的语法约束(通过DTD或XSD Schema)。出版系统、预印本平台(如bioRxiv)、文献数据库(如PMC、CNKI结构化库)、AI处理框架(如Docling)都依赖JATS作为输入源。一个符合JATS的XML文件,既能被PubMed自动索引,也能被大模型精准抽取实验方法,还能一键生成HTML、EPUB、LaTeX多种输出。
真正价值在于:一次结构化,处处可复用。










