?
填补缺失值:用合理的数值填补数据中的空白。
?
数据标准化:把数据调整到相同的尺度,以便模型更容易处理。
?
第三步:挑选矿石特征
——
特征工程
在清洗之后,艾莉开始仔细观察矿石,寻找决定矿石价值的特征。她注意到:
?
矿石的颜色:宝石通常颜色鲜艳。
?
矿石的硬度:坚硬的矿石往往含有贵重元素。
?
矿石的光泽:闪光的矿石更可能是宝石。
她用一本古老的魔法书记录下这些特征,并决定只关注最有价值的特征,而忽略无关的细节。
比喻:
这就像机器学习中的特征工程。我们从数据中提取出最重要的信息,去除冗余或无用的特征,以帮助模型更高效地学习。
?
第四步:选择魔法炼金阵
——
模型选择
艾莉需要用魔法炼金阵来炼制宝石。魔法学院里有许多种炼金阵,每一种都有不同的特点:
?
基础炼金阵:简单但可靠,适合处理常见矿石。
?
复杂炼金阵:功能强大,适合处理奇特的矿石,但需要更多的魔力。
?
自动炼金阵:它可以根据矿石的特性自动调整炼制方法。
比喻:
这就像在机器学习中选择合适的模型。根据数据的特点和任务的需求,可以选择简单的线性回归、决策树、支持向量机,或者复杂的神经网络。