LIC2022-知识对话任务基线系统

P粉084495128

发布时间：2025-07-16 15:14:38

197人浏览过

来源于php中文网

原创

该教程介绍使用基于PaddlePaddle 2.2的Knover框架，在LIC2022多技能对话比赛数据集上训练和测试的流程。包括配置环境（获取代码、设Python路径等）、准备数据（预处理）、下载预训练及微调模型，还有模型训练、预测的命令及GPU配置，以及评估需提交预测结果到官网等内容，可助参赛者快速跑通流程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

lic2022-知识对话任务基线系统 - php中文网

LIC2022: 知识对话baseline

本教程介绍使用基于paddlepaddle2.2的大规模对话预训练框架Knover，及其提供的预训练模型，在"LIC2022多技能对话"比赛数据集上训练和测试。

赛题介绍直播回顾：

aid=468596313&bvid=BV1Z54111794&cid=587646868&page=1">

0. 配置环境

获取github代码：

git clone -b dygraph https://github.com/PaddlePaddle/Knover

设置Python环境

export PYTHONPATH=/home/aistudio/work/Knover:$PYTHONPATH

基线模型需要的配置路径为：

projects/lic2022

创建数据和模型存在的目录，本教程中默认训练和预测使用的数据和模型均存放以下目录：

mkdir -p projects/lic2022/model_zoo
mkdir -p projects/lic2022/preprocess_data

1. 准备数据

模型训练和预测之前，都需要准备好所需的数据。首先，将比赛官网获取的数据放到当前环境中，具体目录可自行选择。数据获取可通过2022语言与智能技术竞赛：知识对话获取。

# 运行数据预处理脚本，将原始数据处理为Knover训练、预测所需格式python ./tools/data_preprocess.py

2. 下载模型

本基线提供"大规模数据预训练模型"和"对话比赛数据微调模型"两个模型。

大规模数据预训练模型：采用包含20M对话session/60M对话utterance的大规模中文对话数据训练得到
对话比赛数据微调模型：上述预训练模型，继续在LIC2022知识对话比赛的对话数据上进行微调得到，包括Query生成与对话生成两个

模型下载方式如下：

客客出品专业威客系统KPPW

客客出品专业威客系统KPPW（简称KPPW）是武汉客客团队自主研发的开源系统项目，主要应用于威客模式的在线服务交易平台搭建。KPPW客客出品的专业威客系统，是keke produced professional witkey的缩写。产品业务核心功能是基于任务悬赏交易和用户服务商品交易为主构建一个C2C的电子商务交易平台，其主要交易对象是以用户为主的技能、经验、时间和智慧型商品。经过多年发展,KPP

下载

# 大规模数据预训练模型wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2022/12L.pretrain.pdparams"# 对话比赛数据微调模型# Query生成wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2022/query_finetune.pdparams"# 对话生成wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2022/dial_finetune.pdparams"

将上述模型保存在./projects/lic2022/model_zoo/目录下(也可以放在其它目录下)，并在模型训练和测试的时候，保证模型路径与config目录下配置文件中，对应模型配置路径一致(必须).

3. 模型训练

模型训练命令如下：

# 模型训练，一定要确保GPU环境和模型参数配置正确，具体见下文示例# Query生成 训练./scripts/local/job.sh ./projects/lic2022/conf/query_train.conf# 对话生成 训练./scripts/local/job.sh ./projects/lic2022/conf/dial_train.conf

训练之前，检查启动脚本与配置文件，确保配置正确：

配置GPU，位置：./scripts/local/job.sh

# 单GPU卡训练，以使用0号GPU卡为例export CUDA_VISIBLE_DEVICES=0# 多GPU卡训练，以使用0,1号GPU卡为例export CUDA_VISIBLE_DEVICES=0,1

4. 模型预测

模型预测命令如下：

# 模型预测，一定要确保GPU环境和模型参数配置正确，具体见下文示例# Query生成预测./scripts/local/job.sh ./projects/lic2022/conf/query_infer.conf#对话生成预测./scripts/local/job.sh ./projects/lic2022/conf/dial_infer.conf

预测之前，检查启动脚本与配置文件，确保配置正确：

配置GPU，位置：./scripts/local/job.sh

# 单GPU卡训练，以使用0号GPU卡为例export CUDA_VISIBLE_DEVICES=0# 多GPU卡训练，以使用0,1号GPU卡为例export CUDA_VISIBLE_DEVICES=0,1

5. 模型评估

模型评估需要将预测结果提交到官网进行评测：

Query生成预测结果与对话生成预测结果拼接为一个文本，提交到官网评估，可参考数据集中的submit_file.txt

6. 其它

本教程提供了"大规模数据预训练模型"和"对话比赛数据微调模型"两个模型，可作为一个基础baseline，帮助参赛者快速跑通整个参赛流程。参赛者可以针对赛题进行其他改进，例如修改数据预处理方法，修改网络结构，修改训练方式，修改预测结果的后处理等。

In [ ]

Python人工智能项目实战：人脸识别与情感分析

利用Python和OpenAI构建代码求解AI：逐步教程

Python项目实战：手把手教你构建乐队名称生成器

如何使用 Gemini 优化 Python 在云端运行的效率

Depseek怎么生成年度关键词云_Depseek关键词提取与云图生成方法【教程】

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

708

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

736

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11