使用.NET和AI进行图像识别：Ollama集成教程-人工智能-PHP中文网

在人工智能（AI）领域，图像识别技术日新月异，为各行各业带来了革命性的变革。作为一名.NET开发者，您是否想过如何利用现有的工具和库，构建一个能够识别图像内容的应用程序？本文将为您详细介绍如何使用.NET和Microsoft.Extensions.AI库，并结合Ollama模型，构建一个强大的图像识别应用。我们将深入探讨依赖注入、大型语言模型（LLM）的本地运行，以及如何使用.NET代码与之交互，从而实现高效且可定制的图像识别解决方案。本文的目标读者是具备一定.NET开发经验，并且对人工智能和图像识别领域有浓厚兴趣的开发者。无论您是想为现有项目添加图像识别功能，还是希望探索AI在.NET平台上的应用，本文都将为您提供有价值的指导和实践经验。通过学习本文，您将能够掌握使用.NET构建AI应用的技能，并为未来的创新项目打下坚实的基础。本文将反复提及 .NET, AI, 图像识别, Microsoft.Extensions.AI库, Ollama, 依赖注入, 大型语言模型, 本地运行等关键词，以提升SEO效果。

关键要点

利用.NET和Microsoft.Extensions.AI库构建图像识别应用程序。

集成Ollama模型，实现本地化的大型语言模型运行。

理解并应用依赖注入，提高代码的可维护性和可测试性。

掌握使用.NET代码与大型语言模型交互的方法。

探索图像识别在各种实际应用场景中的潜力。

了解如何优化模型性能和识别结果。

.NET AI图像识别技术详解

构建基础.NET控制台应用

首先，我们需要创建一个基础的.net控制台应用程序，作为我们图像识别项目的起点。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

使用.NET和AI进行图像识别：Ollama集成教程

这个应用将使用Microsoft.Extensions.Hosting库，以便我们可以配置服务和使用依赖注入容器。依赖注入容器允许我们在应用程序的不同部分之间轻松地共享和管理对象，这对于构建可维护和可测试的代码至关重要。

依赖注入的重要性

依赖注入是一种设计模式，它允许我们从组件中分离其依赖项。这有助于提高代码的灵活性、可测试性和可维护性。通过使用依赖注入，我们可以轻松地替换组件的依赖项，而无需修改组件本身的代码。

Microsoft.Extensions.Hosting库

Microsoft.Extensions.Hosting库提供了一种简单而强大的方法来构建和管理.NET应用程序。它提供了一个主机构建器，允许我们配置应用程序的服务、日志记录和配置。

以下是构建基础.NET控制台应用程序的步骤：

创建一个新的.NET控制台应用程序项目。
安装Microsoft.Extensions.Hosting NuGet包。
在Program.cs文件中，使用主机构建器配置应用程序的服务。

using Microsoft.Extensions.Hosting;

var builder = Host.CreateApplicationBuilder();
var app = builder.Build();

app.Run();

登录后复制

这段代码创建了一个新的主机构建器，并使用它来构建应用程序。然后，它调用app.Run()方法来启动应用程序。

引入Microsoft.Extensions.AI库

接下来，我们需要引入Microsoft.Extensions.AI库，该库提供了一系列用于构建AI应用程序的工具和组件。

使用.NET和AI进行图像识别：Ollama集成教程

请注意，Microsoft.Extensions.AI库目前仍处于预览阶段，因此您需要包含预发布版本才能使用它。此外，还需要安装 Microsoft.Extensions.AI.Ollama库，以便可以和Ollama模型进行交互。

安装Microsoft.Extensions.AI NuGet包

可以通过NuGet包管理器安装该库。在Visual Studio中，右键单击项目，选择“管理NuGet包”，然后搜索“Microsoft.Extensions.AI”并安装。

安装Microsoft.Extensions.AI.Ollama NuGet包

可以使用命令 Install-Package Microsoft.Extensions.AI.Ollama -Version 9.0.0-preview.2.25114.11进行安装

安装完成后，您就可以在应用程序中使用Microsoft.Extensions.AI库了。

集成Ollama大型语言模型

Ollama是一个轻量级的框架，允许我们在本地机器上运行大型语言模型（LLM）。

使用.NET和AI进行图像识别：Ollama集成教程

这对于开发和测试AI应用程序非常有用，因为它无需依赖云服务或远程API。Ollama支持多种LLM，包括Llama 3.3, DeepSeek-R1, Phi-4, Mistral, Gemma 2等。

Ollama的优势

本地运行： 无需依赖云服务，降低延迟和数据隐私风险。
轻量级： 易于安装和配置，资源占用低。
多模型支持： 支持多种LLM，满足不同的应用需求。

Ollama模型选择

Ollama模型库提供了多种模型，包括文本生成、图像识别等。为了进行图像识别，我们需要选择支持视觉（Vision）的模型。在Ollama的模型页面上，您可以找到各种可用的视觉模型。其中，LLaVA是一个流行的选择，它结合了视觉编码器和语言模型，可以理解图像内容并生成描述。

在.NET应用中配置Ollama客户端

在.NET应用中配置Ollama客户端需要以下步骤：

使用依赖注入容器注册Ollama客户端。
指定Ollama服务的URI和模型名称。

builder.Services.AddChatClient(new OllamaChatClient(new Uri("http://localhost:11434"), "llava:7b"));

登录后复制

这段代码将Ollama客户端注册到依赖注入容器中，并指定Ollama服务运行在http://localhost:11434，使用的模型是llava:7b。

利用 Microsoft.Extensions.AI库和 Ollama 实现图像识别

通过集成Microsoft.Extensions.AI库和Ollama，我们现在可以开始编写代码，实现图像识别功能。

使用.NET和AI进行图像识别：Ollama集成教程

首先，我们需要创建一个ChatClient实例，然后创建一个包含图像数据和提示的ChatMesssage对象。

以下是实现图像识别的代码示例：

JoinMC智能客服

JoinMC智能客服，帮您熬夜加班，7X24小时全天候智能回复用户消息，自动维护媒体主页，全平台渠道集成管理，电商物流平台一键绑定，让您出海轻松无忧！

193

查看详情

var chatClient = app.Services.GetRequiredService<ChatClient>();
var message = new ChatMessage(ChatRole.User, "What's in this image?");
message.Contents.Add(new DataContent(File.ReadAllBytes("images/traffic_cam_1.png"), "image/png"));

var response = await chatClient.GetResponseAsync(message);
Console.WriteLine(response.Message.Text);

登录后复制

这段代码首先从依赖注入容器中获取ChatClient实例。然后，它创建一个新的ChatMessage对象，并将提示设置为“What's in this image?”。接下来，它将图像数据添加到ChatMessage对象的内容中，并将媒体类型指定为“image/png”。最后，它调用chatClient.GetResponseAsync(message)方法将消息发送到Ollama模型，并将响应打印到控制台。

利用结构化的prompt获得结构化的LLM反馈

为了获得更有用的结果，我们可以使用结构化的提示来指导LLM的响应。

使用.NET和AI进行图像识别：Ollama集成教程

例如，我们可以要求LLM以JSON格式返回图像中检测到的对象列表。要获得结构化的LLM反馈，您需要定义一个响应的数据结构，并且在Prompt提示LLM按照响应的数据结构生成反馈信息。

为了获得图像的结构化信息，我们可以定义数据结构 TrafficCamResult

public record TrafficCamResult
{
    public string CameraName { get; set; }
    [JsonConverter(typeof(JsonStringEnumConverter))]
    public TrafficStatus Status { get; set; }
    public int NumberOfCars { get; set; }
    public int NumberOfTrucks { get; set; }
    public int NumberOfPedestrians { get; set; }
}
public enum TrafficStatus
{
    Empty,
    Normal,
    Heavy,
    Blocked
}

登录后复制

定义 prompt，并提示LLM按照 TrafficCamResult 的结构返回，在.NET中可以将响应映射为 TrafficCamResult 对象

Extract information from this image from camera {name}.
The image from the camera may be blurry, so take that into account when extracting information.
Pay extra attention to columns of cars and try to accurately count the number of cars.
And pay extra-special attention to pedestrians, as we want to make sure that we spot them.

登录后复制

使用模型对所有图像进行分析

Directory.GetFiles("images", "*.png").ToList().ForEach(filePath =>
{
    var name = Path.GetFileNameWithoutExtension(filePath);
    var message2 = new ChatMessage(ChatRole.User, @"Extract information from this image from camera {name}.
The image from the camera may be blurry, so take that into account when extracting information.
Pay extra attention to columns of cars and try to accurately count the number of cars.
And pay extra-special attention to pedestrians, as we want to make sure that we spot them.");

    message2.Contents.Add(new DataContent(File.ReadAllBytes(filePath), "image/png"));

    TrafficCamResult trafficCamResult = await chatClient.GetResponseAsync<TrafficCamResult>(message2);
    Console.WriteLine(trafficCamResult.Result with { CameraName = name });
});

登录后复制