15. 删除重复项
# 删除Excel中的重复行
def remove_duplicates(df):
return df.drop_duplicates()
data = read_excel('example.xlsx')
cleaned_data = remove_duplicates(data)
cleaned_data.to_excel('cleaned_output.xlsx', index=False)
print("已删除重复项,结果保存成功!")
解释
该脚本从Excel数据中删除重复的行。对于维护数据的完整性和准确性来说,这是一个非常重要的步骤,常用于清理数据集。
6. 统计数据
# 统计某列的平均值
def calculate_average(df, column_name):
return df[column_name].mean()
data = read_excel('example.xlsx')
average_score = calculate_average(data, '成绩')
print(f"成绩的平均值是: {average_score}")
解释
这个脚本计算Excel文件中“成绩”列的平均值。进行数据分析时,获取基本统计信息是必要的,无论是开发者还是普通用户都需要了解整体趋势。