
1. 问题背景与数据结构
在数据处理过程中,我们经常会将统计结果聚合到一个字典中,例如统计各个城市的总伤亡人数。有时,这个字典可能会被意外或有意地封装在一个numpy数组中。例如,在处理csv文件后,我们可能得到一个城市伤亡人数的字典,如下所示:
import csv
import numpy as np
city_dict = {'New Delhi': 2095, 'Samastipur': 4, 'Bombay': 210, 'Imphal': 603, 'Aizawl': 2, 'Amapur': 2, 'Raisikah': 1, 'Champhai': 1, 'Jamshedpur': 32, 'Chennai': 366, 'Chiaplant': 1, 'Tindol': 7, 'Calcutta': 57, 'Tirupattur': 6, 'Gauhati': 112, 'Jorhat': 3, 'Massad': 1, 'Chandigarh': 333, 'Jodhpur': 2, 'Amritsar': 768, 'Tipaimukh': 6, 'Guwahati': 822, 'Harchowal': 1, 'Mothan Wala': 2, 'Qadian': 7, 'Baloda Bazar': 10}
# 将字典放入NumPy数组
np_city = np.array(city_dict)
print("原始NumPy数组内容:")
print(np_city)
print("NumPy数组类型:", type(np_city))
print("NumPy数组元素类型:", np_city.dtype)运行上述代码,你会发现np_city实际上是一个包含单个字典对象的NumPy数组,其dtype为object。这意味着NumPy并没有将字典的键值对进行向量化处理,而是将整个字典作为一个元素存储。
原始NumPy数组内容:
{'New Delhi': 2095, 'Samastipur': 4, 'Bombay': 210, 'Imphal': 603, 'Aizawl': 2, 'Amapur': 2, 'Raisikah': 1, 'Champhai': 1, 'Jamshedpur': 32, 'Chennai': 366, 'Chiaplant': 1, 'Tindol': 7, 'Calcutta': 57, 'Tirupattur': 6, 'Gauhati': 112, 'Jorhat': 3, 'Massad': 1, 'Chandigarh': 333, 'Jodhpur': 2, 'Amritsar': 768, 'Tipaimukh': 6, 'Guwahati': 822, 'Harchowal': 1, 'Mothan Wala': 2, 'Qadian': 7, 'Baloda Bazar': 10}
NumPy数组类型:
NumPy数组元素类型: object 我们的目标是根据字典的值(例如,总伤亡人数)对这个字典进行降序排序,以便快速找出伤亡最多的城市。
2. 从NumPy数组中提取字典
由于np_city是一个只包含一个元素的NumPy数组(这个元素就是我们的字典),我们需要使用item()方法来提取这个字典对象。
# 提取NumPy数组中的字典
extracted_dict = np_city.item()
print("\n提取出的字典类型:", type(extracted_dict))
print("提取出的字典内容:", extracted_dict)item()方法会返回数组中的唯一元素。如果数组包含多个元素,调用item()会引发ValueError。
立即学习“Python免费学习笔记(深入)”;
3. 对字典进行按值降序排序
一旦我们获得了原始字典,就可以使用Python内置的sorted()函数结合lambda表达式对其进行排序。
sorted()函数可以接受一个可迭代对象(如字典的items()视图)和一个key参数,key参数是一个函数,用于从每个元素中提取一个比较键。
- extracted_dict.items(): 这会返回一个包含字典所有键值对的视图对象,形式为(key, value)元组的列表。
- key=lambda item: item[1]: 这里的lambda函数定义了一个匿名函数,它接受一个item(即一个(key, value)元组),并返回item[1](即元组的第二个元素,也就是字典的值)。sorted()函数将根据这个返回值进行排序。
- reverse=True: 这个参数指示sorted()函数进行降序排序。
# 对字典的items进行排序
sorted_items = sorted(extracted_dict.items(), key=lambda item: item[1], reverse=True)
print("\n排序后的键值对列表:")
print(sorted_items)sorted_items现在是一个按值降序排列的(key, value)元组列表。
4. 重构为有序字典
Python 3.7+ 版本保证了字典会保留插入顺序。因此,我们可以使用字典推导式(Dictionary Comprehension)将排序后的元组列表转换回一个有序字典。
# 使用字典推导式重构为有序字典
sorted_city_dict = {key: value for key, value in sorted_items}
print("\n最终按伤亡人数降序排列的城市字典:")
print(sorted_city_dict)最终输出的sorted_city_dict将是一个按照城市伤亡人数从高到低排列的字典。
最终按伤亡人数降序排列的城市字典:
{'New Delhi': 2095, 'Guwahati': 822, 'Amritsar': 768, 'Imphal': 603, 'Chennai': 366, 'Chandigarh': 333, 'Bombay': 210, 'Gauhati': 112, 'Calcutta': 57, 'Jamshedpur': 32, 'Baloda Bazar': 10, 'Tindol': 7, 'Qadian': 7, 'Tirupattur': 6, 'Tipaimukh': 6, 'Samastipur': 4, 'Jorhat': 3, 'Aizawl': 2, 'Amapur': 2, 'Jodhpur': 2, 'Mothan Wala': 2, 'Raisikah': 1, 'Champhai': 1, 'Chiaplant': 1, 'Massad': 1, 'Harchowal': 1}5. 完整代码示例
下面是结合了数据读取、处理和排序的完整代码示例(假设terrorismData.csv文件存在且格式正确):
import csv
import numpy as np
def get_top_cities_by_casualties(csv_file_path, country='India', top_n=5):
"""
从CSV文件中读取数据,计算指定国家各城市的总伤亡人数,
并返回按伤亡人数降序排列的前N个城市。
Args:
csv_file_path (str): CSV文件路径。
country (str): 要筛选的国家名称。
top_n (int): 要返回的前N个城市。
Returns:
dict: 按伤亡人数降序排列的前N个城市字典。
"""
city_casualties = {}
try:
with open(csv_file_path, 'r', encoding='utf-8') as file_obj:
data_reader = csv.DictReader(file_obj, skipinitialspace=True)
for row in data_reader:
if row['Country'] == country:
# 处理空值并转换为整数
killed = int(float(row['Killed'])) if row['Killed'] else 0
wounded = int(float(row['Wounded'])) if row['Wounded'] else 0
total_casualty = killed + wounded
city = row['City']
if city and city != 'Unknown':
city_casualties[city] = city_casualties.get(city, 0) + total_casualty
except FileNotFoundError:
print(f"错误: 文件 '{csv_file_path}' 未找到。")
return {}
except Exception as e:
print(f"处理文件时发生错误: {e}")
return {}
# 将字典放入NumPy数组(虽然在此场景下并非最佳实践,但为了演示而保留)
np_city_casualties = np.array(city_casualties)
# 提取字典
extracted_dict = np_city_casualties.item()
# 对字典进行按值降序排序
sorted_items = sorted(extracted_dict.items(), key=lambda item: item[1], reverse=True)
# 重构为有序字典并获取前N个
top_cities = {key: value for key, value in sorted_items[:top_n]}
return top_cities
# 示例调用
csv_path = 'terrorismData.csv' # 替换为你的CSV文件路径
top_5_cities = get_top_cities_by_casualties(csv_path, top_n=5)
print(f"\n印度伤亡人数最多的前5个城市:")
print(top_5_cities)6. 注意事项与总结
- NumPy数组封装字典的场景:将整个字典封装在NumPy数组中(如np.array(some_dict))通常不是NumPy的最佳使用方式,因为它创建了一个dtype=object的数组,并没有利用NumPy的数值计算优势。如果需要处理结构化数据,pandas DataFrame或NumPy的结构化数组通常是更好的选择。
- item()方法的限制:item()方法只能用于包含单个元素的NumPy数组。如果数组中有多个元素,你需要使用索引(例如np_array[0])来访问特定元素。
- Python字典的有序性:从Python 3.7+ 开始,字典会保留插入顺序。这意味着通过字典推导式从排序后的键值对列表重构的字典将保持排序后的顺序。
- lambda函数:lambda函数提供了一种简洁的方式来定义小型匿名函数,非常适合作为sorted()等函数的key参数。
- 效率:对于中等大小的字典,这种排序方法是高效且易于理解的。
通过本教程,我们学习了如何处理NumPy数组中包含字典的特殊情况,并成功地对其进行了按值降序排序,从而能够轻松地从数据中提取出最有价值的信息。










