0

0

TEI是什么 文学和语言学领域的XML标准

幻夢星雲

幻夢星雲

发布时间:2026-01-12 07:39:07

|

637人浏览过

|

来源于php中文网

原创

TEI是基于XML的人文文本编码标准,旨在精准描述文本结构、内容、版本特征与学术注释;通过预定义标签实现古籍等复杂文本的长期保存、机器可读与跨项目复用。

tei是什么 文学和语言学领域的xml标准

TEI(Text Encoding Initiative,文本编码倡议)是文学和语言学领域广泛采用的、基于XML的结构化文本编码标准。它不是一种编程语言,也不是通用格式转换工具,而是一套由学者与技术专家共同制定的、有共识的标记规范——核心目标是**精准描述文本的结构、内容、版本特征与学术注释**,让古籍、手稿、语料库、笔记等复杂人文文本能被长期保存、机器可读、跨项目复用。

TEI解决什么实际问题

传统纯文本或Word文档无法表达“这段文字来自竹简残片”“这个字是异体写法,对应现代规范字‘道’”“这条批注出自清代某学者,时间不晚于1820年”这类信息。TEI通过预定义且可扩展的标签(如),把这类学术判断和文本状态变成可检索、可验证、可自动处理的数据。

一个TEI文件的基本骨架

每个合法TEI文件都包含两大部分:

  • teiHeader:头部元数据区,记录作者、编码者、语言、来源文献、版本修订史、关键词、授权信息等——相当于给文本建一份“数字身份证”
  • text:主体内容区,用嵌套标签组织章节、段落、引文、对话、插图说明、校勘记等,支持多层结构(比如一篇诗文含正文+多家注+音读+训诂)

它怎么用,不是怎么学

多数人文研究者不需要从头写XML代码。实际工作流通常是:

Ideogram
Ideogram

Ideogram是一个全新的文本转图像AI绘画生成平台,擅长于生成带有文本的图像,如LOGO上的字母、数字等。

下载
  • 用Oxygen XML Editor等带TEI模板的编辑器点选插入结构(如“添加一个诗行组”)
  • 借助doc2tei工具把Word讲义批量转成基础TEI框架
  • 用Trafilatura从网页抓取内容并直接输出带验证的TEI-XML
  • 在GitHub的CodeSharing项目里参考300+真实样例,复制调整已有结构

验证不是可选项,而是必要环节

写完TEI文件后必须验证是否符合TEI模式(schema)。否则可能:

  • 其他团队无法用XSLT正常转成PDF或网页
  • Python里的tei_reader库读取时报错中断
  • 数字图书馆系统拒绝入库

推荐用Trafilatura的validate_tei()函数或命令行trafilatura --validate快速检查——它会明确告诉你哪一行、哪个标签出错,比如“缺少@reason属性”或“不能直接放在下”。

基本上就这些。不复杂但容易忽略的是:TEI的价值不在标签多,而在每个标签背后都有明确的学术意图和社区共识。用对了,笔记就是可计算的研究资产;用偏了,只是换了个格式存文档。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

746

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

634

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1260

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

705

2023.08.11

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

80

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号