我们可以把
mnist
数据集的概念用一个
童话故事的方式讲解,用形象生动的比喻来解释其中的核心内容。
?
《数字王国与图像魔法书》:一个关于
mnist
的童话
从前,在一个叫做数据大陆的神奇世界里,有一座繁华而神秘的国家——数字王国。这个王国里住着
10
位可爱的数字小精灵,他们分别叫做:零、壹、贰、叁、肆、伍、陆、柒、捌、玖。
这些数字精灵每天的任务,就是到人类世界去旅行。他们最喜欢的地方,就是那些上学的小朋友们的练习本,因为那上面满是手写的数字。这些孩子写下来的数字,就是数字精灵在人类世界的“化身”。
不过,问题来了——
有些孩子写得工整,有些却歪歪扭扭;有的写得像蚯蚓打结,有的像画了个圈圈叉叉。结果,数字精灵常常被搞得头昏眼花,他们自己也搞不清谁是谁了。
于是,数字王国向一个古老的魔法组织——机器学习师联盟发出了求助信。
?
一、本子与魔法书:图像数据的秘密
在机器学习师联盟里,有一位伟大的魔法师,名叫莱卡恩(yann
lecun)。他和他的助手们花了好几年时间,终于收集了一本神奇的魔法书,叫做:
《mnist图像魔法书》
这本书里,一共收录了
七万幅手写数字的画像,每一幅都是从孩子们的练习本上小心翼翼地摘抄下来的。
这本书有两个章节:
?t第一章:训练篇(60,000页)
?t第二章:测试篇(10,000页)
每一页上都画着一张数字小精灵在人类世界的模样——比如“壹”有时候高高瘦瘦,有时候圆头圆脑,“肆”有时候像个小帐篷,“捌”有时候像雪人……他们的样子千变万化。
这些画像都是灰色的,就像铅笔画的那样,不是黑就是白,而是各种深浅的灰度值,每一张画都被切成
28x28
的小格子,一共
784