PolyBase 提供统一T-SQL接口实现跨源查询,支持Hadoop、Azure存储等外部数据源,通过创建外部表将远程数据虚拟化,C#可借助ADO.NET像查本地表一样查询外部数据,无需额外配置。

PolyBase 是 SQL Server 和 Azure Synapse Analytics 中的一项技术,它允许你直接通过 T-SQL 查询跨多种数据源的外部数据,比如 Hadoop、Azure Blob Storage、Azure Data Lake Storage 以及 Cosmos DB 等。它把外部数据源“虚拟化”成类似数据库表的形式,这样你就可以像查询本地表一样使用 SELECT 语句访问远程数据,而无需将数据导入到本地数据库。
PolyBase 的核心特点
统一查询接口:使用标准 T-SQL 查询异构数据源。
数据虚拟化:不移动数据,只在需要时读取外部数据。
可扩展性:适合大数据场景,支持分布式查询处理。
支持的数据源包括:
- Hadoop(Hortonworks, Cloudera)
- Azure Blob Storage
- Azure Data Lake Gen1/Gen2
- SQL Server 远程实例(通过 PolyBase Gateway)
- Cosmos DB(有限支持)
如何配置 PolyBase 查询外部数据
以 SQL Server 查询 Azure Blob Storage 中的 CSV 文件为例:
- 启用 PolyBase:在 SQL Server 实例上启用 PolyBase 功能。
- 创建数据库主密钥:用于保护凭据。
- 创建数据库范围凭据:存储访问 Azure 存储的密钥。
- 创建外部数据源:指定 Azure Blob 容器地址。
- 创建外部文件格式:定义 CSV 或 Parquet 格式。
- 创建外部表:映射远程文件结构。
示例 T-SQL:
CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'your_password';CREATE DATABASE SCOPED CREDENTIAL AzureStorageCredential
WITH IDENTITY = 'storageaccountname', Secret = 'storageaccountkey';CREATE EXTERNAL DATA SOURCE AzureBlobStorage WITH ( TYPE = BLOB_STORAGE, LOCATION = 'https://www.php.cn/link/52238db3e51471b5f923a3481975f65d', CREDENTIAL = AzureStorageCredential );
CREATE EXTERNAL FILE FORMAT CsvFormat WITH ( FORMAT_TYPE = DELIMITEDTEXT, FORMAT_OPTIONS (FIELD_TERMINATOR = ',', STRING_DELIMITER = '"') );
CREATE EXTERNAL TABLE [dbo].[ExternalSalesData] ( [Id] INT, [ProductName] NVARCHAR(100), [Price] DECIMAL(10,2) ) WITH ( LOCATION = '/salesdata.csv', DATA_SOURCE = AzureBlobStorage, FILE_FORMAT = CsvFormat );
之后你可以直接查询:
SELECT * FROM ExternalSalesData WHERE Price > 100;
在 C# 中查询外部数据(通过 PolyBase)
PolyBase 本身运行在 SQL Server 内部,C# 不直接调用 PolyBase API,而是通过普通的 ADO.NET 调用已配置好的外部表或视图。
也就是说,你在 C# 中的操作和查询普通 SQL 表完全一样。
C# 示例:查询 PolyBase 外部表
使用 SqlConnection 和 SqlCommand 查询已暴露的外部表:
using System; using System.Data.SqlClient;class Program { static void Main() { string connectionString = "Server=your_server;Database=your_db;User Id=your_user;Password=your_password;";
using (var connection = new SqlConnection(connectionString)) { connection.Open(); string query = "SELECT Id, ProductName, Price FROM ExternalSalesData WHERE Price > 100"; using (var command = new SqlCommand(query, connection)) { using (var reader = command.ExecuteReader()) { while (reader.Read()) { Console.WriteLine($"Product: {reader["ProductName"]}, Price: {reader["Price"]}"); } } } } }}
关键点说明
PolyBase 在数据库层完成数据集成:所有外部数据源的连接、格式解析、安全认证都在 SQL Server 内部完成。
C# 只需关注业务逻辑:你写的代码就像在查本地表,底层由 PolyBase 透明地拉取外部数据。
性能提示:尽量让过滤条件下推到外部源(如 WHERE 子句),避免全量拉取。
基本上就这些。只要 SQL Server 配好了 PolyBase 并创建了外部表,C# 就能像查普通表一样使用 ADO.NET 查询,无需额外库或特殊语法。










