0

0

使用 AI 创建最快、最精确的发票数据提取器以进行结构输出

王林

王林

发布时间:2024-08-07 11:40:52

|

823人浏览过

|

来源于dev.to

转载

使用 ai 创建最快、最精确的发票数据提取器以进行结构输出

使用 llamaextract 和 pydantic 模型提取商店收据

在本文中,我们将探索如何使用 llamaextract 与 pydantic 模型中的模式相结合,以便从商店收据中提取结构化数据。这种方法有助于系统地组织收据信息,使其更易于分析和管理。

设置

首先,确保您安装了 llama-extract 客户端库。使用以下命令:

pip install llama-extract pydantic
注意: 如果您看到有关更新 pip 的通知,您可以使用提供的命令进行更新。

首先,登录llama index cloud并免费获取一个api-key

为您的 llamaextract api 密钥设置环境变量:

import os

os.environ["llama_cloud_api_key"] = "your llama index cloud api here"

加载数据

对于此示例,假设我们有一个 pdf 格式的商店收据数据集。将这些文件放在名为receipts的目录中。

data_dir = "data/receipts"
fnames = os.listdir(data_dir)
fnames = [fname for fname in fnames if fname.endswith(".pdf")]
fpaths = [os.path.join(data_dir, fname) for fname in fnames]
fpaths

输出应列出收据的文件路径:

['data/receipts/receipt.pdf']

定义 pydantic 模型

我们将使用 pydantic 定义我们的数据模型,这将告诉 api 我们期望或想要从 pdf 中提取哪些字段/数据。对于商店收据,我们可能有兴趣提取商店名称、日期、总金额和购买的商品列表。

from pydantic import basemodel
from typing import list

class item(basemodel):
    name: str
    quantity: int
    price: float

class receipt(basemodel):
    store_name: str
    date: str
    total_amount: float
    items: list[item]

创建架构

现在,我们可以使用 pydantic 模型在 llamaextract 中定义提取模式。

from llama_extract import llamaextract

extractor = llamaextract(verbose=true)
schema_response = await extractor.acreate_schema("receipt schema", data_schema=receipt)
schema_response.data_schema

输出架构应类似于以下内容:

Moshi Chat
Moshi Chat

法国AI实验室Kyutai推出的端到端实时多模态AI语音模型,具备听、说、看的能力,不仅可以实时收听,还能进行自然对话。

下载
{
    'type': 'object',
    '$defs': {
        'item': {
            'type': 'object',
            'title': 'item',
            'required': ['name', 'quantity', 'price'],
            'properties': {
                'name': {'type': 'string', 'title': 'name'},
                'quantity': {'type': 'integer', 'title': 'quantity'},
                'price': {'type': 'number', 'title': 'price'}
            }
        }
    },
    'title': 'receipt',
    'required': ['store_name', 'date', 'total_amount', 'items'],
    'properties': {
        'store_name': {'type': 'string', 'title': 'store name'},
        'date': {'type': 'string', 'title': 'date'},
        'total_amount': {'type': 'number', 'title': 'total amount'},
        'items': {
            'type': 'array',
            'title': 'items',
            'items': {'$ref': '#/$defs/item'}
        }
    }
}

运行提取

定义模式后,我们现在可以从收据文件中提取结构化数据。通过指定收据作为响应模型,我们确保提取的数据经过验证和结构化。

responses = await extractor.aextract(
    schema_response.id, fpaths, response_model=receipt
)

如果需要,您可以访问原始 json 输出:

data = responses[0].data
print(data)

json 输出示例:

{
    'store_name': 'ABC Electronics',
    'date': '2024-08-05',
    'total_amount': 123.45,
    'items': [
        {'name': 'Laptop', 'quantity': 1, 'price': 999.99},
        {'name': 'Mouse', 'quantity': 1, 'price': 25.00},
        {'name': 'Keyboard', 'quantity': 1, 'price': 50.00}
    ]
}

结论

在本文中,我们演示了如何将 llamaextract 与 pydantic 模型结合使用来定义数据模式并从商店收据中提取结构化数据。这种方法可确保提取的信息组织良好且经过验证,从而更易于处理和分析。

这也可用于许多案例、发票、收据、报告等。

快乐编码!!

你有一个项目?想让我帮你发邮件给我??:wilbertmisingo@gmail.com

有疑问或想成为第一个了解我的帖子的人:-
在 linkedin 上关注 ✅ 我?
在 twitter/x 上关注 ✅ 我?

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

403

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

528

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

306

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

74

2025.09.10

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

333

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

397

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

740

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

337

2025.07.23

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号