Python是区块链数据分析主流工具,需掌握数据获取(Etherscan/The Graph/Dune)、清洗(web3.py+pandas解码与聚合)、指标计算(DAU/手续费/热力图)及可视化(Plotly/NetworkX)全链路。

Python 是区块链数据分析的主流工具,尤其适合处理链上原始数据、构建指标、生成可视化图表。关键在于掌握从数据获取、清洗、聚合到可视化的完整链路,而不是只学某个库的用法。
链上数据怎么高效取出来
直接连节点(如 Ethereum 的 RPC)效率低、不稳定,推荐用成熟 API 服务:
- Etherscan API:适合以太坊主网和部分 EVM 链,免费额度够小规模分析,返回 JSON 结构清晰,适合初学者练手
- The Graph:用 GraphQL 查询已索引的链上子图(如 Uniswap、Aave),支持复杂关系查询,比如“某地址过去 7 天所有 Swap 交易及对应代币价格”
- Dune Analytics 查询导出:已有大量社区写好的 SQL 查询,可一键导出 CSV 或通过 Dune API 接入 Python,省去重复建模时间
注意:批量请求务必加 sleep 或用异步(aiohttp),避免被限流;敏感 API key 别硬编码,用环境变量管理。
原始交易数据怎么清洗成可用字段
链上数据天然“扁平”,一笔交易里没有直接的“交易类型”“对手协议”“是否套利”等标签,需要规则+上下文补全:
立即学习“Python免费学习笔记(深入)”;
- 用 transaction.input 字段识别合约调用方法(解码前 10 字符为函数签名哈希,查 4byte.directory 可反查函数名)
- 结合 to 地址 和公开合约列表(如 Etherscan Verified Contracts)判断是否为知名协议交互
- 对 ERC-20 转账,解析 logs(event logs)比只看 transaction 更准——transfer event 包含 from/to/value,且不可伪造
建议用 web3.py + pandas 搭配:web3 获取原始数据,pandas 做向量化处理(如批量 decode input、merge with token metadata 表)。
常用链上指标怎么算得又快又准
别手动 for 循环遍历每条交易——用分组聚合和窗口函数提速:
- 日活地址(DAU):按 date(date_trunc('day', block_timestamp)) 分组,count(distinct address),注意区分 from 和 to,通常取 from 更反映主动行为
- 交易费用分布:用 pandas.cut() 分区间统计 gas_price × gas_used,再画直方图,避开异常值(如单笔 >1 ETH 的手续费)
- 大额转账热力图:按 hour + token_symbol 分组 sum(value_usd),用 seaborn.heatmap 展示 24h×7d 模式,容易发现稳定币跨链高峰时段
计算前先用 query() 过滤无关链、合约或测试网数据,能明显减少内存占用。
链上数据可视化怎么讲好故事
可视化不是炫技,而是帮读者快速抓住链上行为特征:
- 时间序列用 plotly.express.line,开启 zoom + hover,鼠标悬停显示 block_number、tx_count 等细节
- 地址关系网络用 networkx + pyvis:节点大小 = 出金总额,边粗细 = 转账次数,点击节点跳转 Etherscan,适合追踪资金流向
- 多指标对比用 subplots + shared x-axis:比如把 TVL、交易数、Gas 费用画在同一时间轴下,叠加垂直线标注重要事件(如协议升级、空投发放)
颜色尽量用链生态公认色系(如 ETH 黄 #627EEA,USDC 蓝 #2775CA),避免自定义色盲不友好配色。
链上数据分析的核心不是技术多酷,而是问题定义是否清晰、数据口径是否一致、结论能否回溯到原始交易。跑通一个完整流程(比如从抓取某 DeFi 协议 30 天 swap 日志,到算出用户留存率并可视化),比学十个新库更有价值。










