数据清洗师
欢迎来到 现实世界 (Real World)。
在数字森林里,你通过魔法转换元素。在软件行业中,我们做同样的事情,但我们称之为 数据清洗 (Data Cleaning)。
问题:人类的输入总是混乱的。用户会不小心输入多余的空格,忘记大写,或者全程使用大写字母尖叫。 目标:清洗这些数据,使其看起来专业且统一。
魔法 vs 现实
在这个实验室里,你不再是在施法。你是在编写一条 转换流水线 (Transformation Pipeline)。
你将接收原始的、脏乱的数据,你的脚本必须输出干净、结构化的数据。
工具箱
Python 的腰带上挂着两个处理文本的强力工具:
name = " aLIce " # 1. .strip() - 去除开头和结尾的空白符 clean_spaces = name.strip() # "aLIce" # 2. .title() - 首字母大写,其余小写 proper_case = clean_spaces.title() # "Alice" # 你甚至可以把它们串联起来! perfect = name.strip().title() # "Alice"
你的任务
你从一个网页表单收到了一组新用户的名字。简直是一场灾难。
raw_users = [" aLIce ", "BOB", " cindy", "dave "]
1
初始化
创建一个名为 clean_users 的空列表。
2
遍历
编写一个 for 循环来遍历 raw_users 中的每一个 name。
3
清洗
在循环内部,清洗这个 name(去除空格,修复大小写)。
4
存储
将清洗后的名字 append 到你的 clean_users 列表中。
5
验证
打印 clean_users 列表,检查你的成果。
参考答案点击展开点击收起
点击展开点击收起
参考答案:
这种模式(初始化 -> 循环 ->哪怕/处理 -> 追加)几乎是所有数据处理脚本的基础。
raw_users = [" aLIce ", "BOB", " cindy", "dave "]
clean_users = []
for name in raw_users:
# 串联方法以提高效率!
cleaned = name.strip().title()
clean_users.append(cleaned)
print("原始数据:", raw_users)
print("清洗后: ", clean_users)Loading...
终端输出
Terminal
Ready to run...