0

0

Polar 计算百分位数

WBOY

WBOY

发布时间:2024-02-22 12:30:22

|

976人浏览过

|

来源于stackoverflow

转载

polar 计算百分位数

问题内容

我有一个极坐标数据框,其中有一列包含日期,其他列包含价格,我想计算 252 x 3 观测值窗口中每个列的百分位数。

为此,我正在这样做:

prices = prices.sort(by=["date"])
rank_cols = list(set(prices.columns).difference("date"))

percentiles = (
    prices.sort(by=["date"])
    .set_sorted("date")
    .group_by_dynamic(
        index_column=["date"], every="1i", start_by="window", period="756i"
    )
    .agg(
        [
            (pl.col(col).rank() * 100.0 / pl.col(col).count()).alias(
                f"{col}_percentile"
            )
            for col in rank_cols
        ]
    )
)


但是抛出的异常是:

traceback (most recent call last):
  file "", line 6, in 
  file "/usr/local/lib/python3.10/site-packages/polars/dataframe/group_by.py", line 1047, in agg
    self.df.lazy()
  file "/usr/local/lib/python3.10/site-packages/polars/lazyframe/frame.py", line 1706, in collect
    return wrap_df(ldf.collect())
polars.exceptions.invalidoperationerror: argument in operation 'group_by_dynamic' is not explicitly sorted

- if your data is already sorted, set the sorted flag with: '.set_sorted()'.
- if your data is not sorted, sort the 'expr/series/column' first.

在代码中,我已经按照建议执行了操作,但异常仍然存在。

编辑:

根据@hericks的建议进行一些更改。

import polars as pl
import pandas as pd
from datetime import datetime, timedelta

# generate 10 dates starting from today
start_date = datetime.now().date()
date_list = [start_date + timedelta(days=i) for i in range(10)]

# generate random prices for each date and column
data = {
    'date': date_list,
    'asset_1': [float(f"{i+1}.{i+2}") for i in range(10)],
    'asset_2': [float(f"{i+2}.{i+3}") for i in range(10)],
    'asset_3': [float(f"{i+3}.{i+4}") for i in range(10)],
}


prices = pl.dataframe(data)

prices = prices.cast({"date": pl.date})


rank_cols = list(set(prices.columns).difference("date"))

percentiles = (
    prices.sort(by=["date"])
    .set_sorted("date")
    .group_by_dynamic(
        index_column="date", every="1i", start_by="window", period="4i"
    )
    .agg(
        [
            (pl.col(col).rank() * 100.0 / pl.col(col).count()).alias(
                f"{col}_percentile"
            )
            for col in rank_cols
        ]
    )
)

现在我明白了

pyo3_runtime.panicexception: attempt to divide by zero

编辑2:

问题是日期的使用,我用整数更改了日期,然后就解决了问题。 (还添加了先取第一个寄存器)

import polars as pl


int_list = [i+1 for i in range(6)]

# Generate random prices for each date and column
data = {
    'int_index': int_list,
    'asset_1': [1.1, 3.4, 2.6, 4.8, 7.4, 3.2],
    'asset_2': [4, 7, 8, 3, 4, 5],
    'asset_3': [1, 3, 10, 20, 2, 4],
}


# Convert the Pandas DataFrame to a Polars DataFrame
prices = pl.DataFrame(data)


rank_cols = list(set(prices.columns).difference("int_index"))

percentiles = (
    prices.sort(by="int_index")
    .set_sorted("int_index")
    .group_by_dynamic(
        index_column="int_index", every="1i", start_by="window", period="4i"
    )
    .agg(
        [
            (pl.col(col).rank().first() * 100.0 / pl.col(col).count()).alias(
                f"{col}_percentile"
            )
            for col in rank_cols
        ]
    )
)

编辑3:

I-Shop购物系统
I-Shop购物系统

部分功能简介:商品收藏夹功能热门商品最新商品分级价格功能自选风格打印结算页面内部短信箱商品评论增加上一商品,下一商品功能增强商家提示功能友情链接用户在线统计用户来访统计用户来访信息用户积分功能广告设置用户组分类邮件系统后台实现更新用户数据系统图片设置模板管理CSS风格管理申诉内容过滤功能用户注册过滤特征字符IP库管理及来访限制及管理压缩,恢复,备份数据库功能上传文件管理商品类别管理商品添加/修改/

下载

给出的想法是,索引 i 取索引 i、i+1、i+2、i+3 上的值,并计算寄存器 i 相对于这四个值的百分位等级。

例如,对于 asset_1 中的第一个索引 (1),示例(以及接下来的三个寄存器)为:

1.1、3.4、2.6、4.8,因此第一个寄存器的百分位数为 25

对于 asset_1,第二个索引 (2) 示例(以及接下来的三个寄存器)是:

3.4、2.6、4.8 和 7.4,因此百分位数为 50。


正确答案


我仍然有点猜测您期望的答案是什么,但您可能可以从这个答案开始

因此,考虑到您的示例数据:

import polars as pl

# generate random prices for each date and column
prices = pl.dataframe({
    'int_index': range(6),
    'asset_1': [1.1, 3.4, 2.6, 4.8, 7.4, 3.2],
    'asset_2': [4, 7, 8, 3, 4, 5],
    'asset_3': [1, 3, 10, 20, 2, 4],
})

┌───────────┬─────────┬─────────┬─────────┐
│ int_index ┆ asset_1 ┆ asset_2 ┆ asset_3 │
│ ---       ┆ ---     ┆ ---     ┆ ---     │
│ i64       ┆ f64     ┆ i64     ┆ i64     │
╞═══════════╪═════════╪═════════╪═════════╡
│ 0         ┆ 1.1     ┆ 4       ┆ 1       │
│ 1         ┆ 3.4     ┆ 7       ┆ 3       │
│ 2         ┆ 2.6     ┆ 8       ┆ 10      │
│ 3         ┆ 4.8     ┆ 3       ┆ 20      │
│ 4         ┆ 7.4     ┆ 4       ┆ 2       │
│ 5         ┆ 3.2     ┆ 5       ┆ 4       │
└───────────┴─────────┴─────────┴─────────┘

使用 rolling() 创建窗口,然后(与您在问题中所做的相同) - rank().first() 除以 count()name.suffix() 为列分配新名称:

cols = pl.all().exclude('int_index')

percentiles = (
    prices.sort(by="int_index")
    .rolling(index_column="int_index", period="4i", offset="0i", closed="left")
    .agg((cols.rank().first() * 100 / cols.count()).name.suffix('_percentile'))
)

┌───────────┬────────────────────┬────────────────────┬────────────────────┐
│ int_index ┆ asset_1_percentile ┆ asset_2_percentile ┆ asset_3_percentile │
│ ---       ┆ ---                ┆ ---                ┆ ---                │
│ i64       ┆ f64                ┆ f64                ┆ f64                │
╞═══════════╪════════════════════╪════════════════════╪════════════════════╡
│ 0         ┆ 25.0               ┆ 50.0               ┆ 25.0               │
│ 1         ┆ 50.0               ┆ 75.0               ┆ 50.0               │
│ 2         ┆ 25.0               ┆ 100.0              ┆ 75.0               │
│ 3         ┆ 66.666667          ┆ 33.333333          ┆ 100.0              │
│ 4         ┆ 100.0              ┆ 50.0               ┆ 50.0               │
│ 5         ┆ 100.0              ┆ 100.0              ┆ 100.0              │
└───────────┴────────────────────┴────────────────────┴────────────────────┘

您还可以检查每个窗口内的内容:

(
    prices.sort(by="int_index")
    .rolling(index_column="int_index", period="4i", offset="0i", closed="left")
    .agg(cols)
)
┌───────────┬───────────────────┬─────────────┬───────────────┐
│ int_index ┆ asset_1           ┆ asset_2     ┆ asset_3       │
│ ---       ┆ ---               ┆ ---         ┆ ---           │
│ i64       ┆ list[f64]         ┆ list[i64]   ┆ list[i64]     │
╞═══════════╪═══════════════════╪═════════════╪═══════════════╡
│ 0         ┆ [1.1, 3.4, … 4.8] ┆ [4, 7, … 3] ┆ [1, 3, … 20]  │
│ 1         ┆ [3.4, 2.6, … 7.4] ┆ [7, 8, … 4] ┆ [3, 10, … 2]  │
│ 2         ┆ [2.6, 4.8, … 3.2] ┆ [8, 3, … 5] ┆ [10, 20, … 4] │
│ 3         ┆ [4.8, 7.4, 3.2]   ┆ [3, 4, 5]   ┆ [20, 2, 4]    │
│ 4         ┆ [7.4, 3.2]        ┆ [4, 5]      ┆ [2, 4]        │
│ 5         ┆ [3.2]             ┆ [5]         ┆ [4]           │
└───────────┴───────────────────┴─────────────┴───────────────┘

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

193

2023.11.20

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

41

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

3

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

3

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号