极大似然估计和交叉熵 一、前言 对于一个多分类问题 (假设为 \(K\) 类), 有数据集 \(D = \{ \ (x_i,y_i \ ) \mid i \}\). 我们希望建立模型去建模概率分布 \(p_{\theta}(y \mid x)\), 模型参数为 \(\theta\). 我们使用损失函数评价模型的好坏, 可以采用两种方式来导出. 二、极大似然估计 由于是多分类问题, 在样本空间上的 \(p(y 2022-08-05 机器学习 #交叉熵 #极大似然估计 #损失函数
PythonStudy6 一、数据处理 继之前的任务, 这里通过用图表的形式判断并将各个属性的离群点舍去. 发现 PERM 属性出现下图分布 123456del_index = []for col in range(len(data_test[2])): if data_test[2][col] > 2.5: del_index.append(col)data_test = np.del 2022-08-03 机器学习 #Python #pyplot
PythonStudy5 一、前言 在处理数据的时候需要考虑对数据属性的取舍. 除此之外, 还要对不同属性中有些偏离程度大的数据进行处理, 例如舍去那些偏离程度大的数据. 此时, 如果能够将数据通过图像的形式表现出来, 就能很好地完成上述工作. 另一方面就是, 每次需要代码时, 都是借用别人写好的代码. 自己没有理解到精髓, 想要对内容进行扩展自然也就成了问题. 二、画图 12import matplot 2022-08-01 机器学习 #Python #pyplot
PythonStudy4 一、前言 无论怎么选择数据特征都难以得到一个高的分类率. 最后在看方差和标准差的时候, 发现数据不同特征的这两个值不在一个数量级上. 这都是自己没有做归一化导致的结果, 所以这里尝试归一化之后再来进行训练. 二、归一化 1. 概念 在机器学习领域中, 不同评价指标 (即特征向量中的不同特征就是所述的不同评价指标) 往往具有不同的量纲和量纲单位, 这样的情况会影响到数据分析的结果 2022-07-24 机器学习 #Python
PythonStudy3 一、前言 排除掉数据集大小不够的原因, 那么就只剩下选择数据属性的问题. 排除掉专业知识的影响, 我更希望找到那种区别大, 离散程度小的数据属性. 所以我的想法就是找平均值有差距, 但是方差或者标准差小的数据属性. 二、流程展示 1. 读取数据 将不同类别的数据以行为单位放在不同的的列表中 (列表中实际上是一个二维数组), 并对每行数据进行裁剪. 因为存在有些数据需要结合其他数据集 2022-07-22 机器学习 #Python
PythonStudy2 一、前言 接之前的分析, 先不考虑数据集中数据的选择问题. 先把数据集的数据量扩大, 暂时不考虑不同地区采集的数据的区别. 希望能够找到一些固有的联系吧. 二、流程展示 1. 获取所有文件 创建一个文件列表用于存储需要访问的文件的文件名. 需要注意的是只对以 ".xlsx" 的表格文件名进行存储. 先找到文件夹下所有文件和目录, 然后通过循环来判断是目录还是普通文件, 如果是目录 2022-07-20 机器学习 #KNN #Python
PythonStudy1 一、前言 本文利用 Python 的第三方库来对一个没有经过任何处理的 excel 表格进行处理 并对处理后的数据采用 KNN 算法来实现分类. 二、流程展示 1. 获取数据 由于数据文件敏感就不此展示. 简要描述一下所需要做的工作就是截取一部分列作为新的数据源, 在 excel 文件最后一列表示的是不同的分类. 这里我采用了第三方库 Pandas 通过暴力列举在表格中需要的列, 2022-07-18 机器学习 #KNN #Python