Python机器学习（二十七）Sklearn数据集基本信息

江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

Python机器学习（二十七）Sklearn数据集基本信息

5月21日拭朱砂投稿

　　前面章节中，我们加载了SciKitLearn自带的数据集digits，可以通过以下语句查看数据集中包含哪些主要内容：digits。keys（）
　　输出dictkeys（〔data，target，targetnames，images，DESCR〕）data样本数据target目标值targetnames目标名称images图像格式（二维）的样本数据DESCR描述信息
　　查看数据集的描述：print（digits。DESCR）
　　输出。。digitsdataset：OpticalrecognitionofhandwrittendigitsdatasetDataSetCharacteristics：：NumberofInstances：5620：NumberofAttributes：64：AttributeInformation：8x8imageofintegerpixelsintherange0。。16。：MissingAttributeValues：None：Creator：E。Alpaydin（alpaydinboun。edu。tr）：Date：J1998ThisisacopyofthetestsetoftheUCIMLhandwrittendigitsdatasetshttps：archive。ics。uci。edumldatasetsOpticalRecognitionofHandwrittenDigitsThedatasetcontainsimagesofhandwrittendigits：10classeswhereeachclassreferstoadigit。PreprocessingprogramsmadeavailablebyNISTwereusedtoextractnormalizedbitmapsofhandwrittendigitsfromapreprintedform。Fromatotalof43people，30contributedtothetrainingsetanddifferent13tothetestset。32x32bitmapsarepidedintononoverlappingblocksof4x4andthenumberofonpixelsarecountedineachblock。Thisgeneratesaninputmatrixof8x8whereeachelementisanintegerintherange0。。16。Thisreducesdimensionalityandgivesinvariancetosmalldistortions。ForinfoonNISTpreprocessingroutines，seeM。D。Garris，J。L。Blue，G。T。Candela，D。L。Dimmick，J。Geist，P。J。Grother，S。A。Janet，andC。L。Wilson，NISTFormBasedHandprintRecognitionSystem，NISTIR5469，1994。。。topic：：ReferencesC。Kaynak（1995）MethodsofCombiningMultipleClassifiersandTheirApplicationstoHandwrittenDigitRecognition，MScThesis，InstituteofGraduateStudiesinScienceandEngineering，BogaziciUniversity。E。Alpaydin，C。Kaynak（1998）CascadingClassifiers，Kybernetika。KenTangandPonnuthuraiN。SuganthanandXiYaoandA。KaiQin。LineardimensionalityreductionusingrelevanceweightedLDA。SchoolofElectricalandElectronicEngineeringNanyangTechnologicalUniversity。2005。ClaudioGentile。ANewApproximateMaximalMarginClassificationAlgorithm。NIPS。2000。
　　这是一个手写数字的数据集。
　　类似地，你也可以查看其它内容：。。digitsdataset：OpticalrecognitionofhandwrittendigitsdatasetDataSetCharacteristics：：NumberofInstances：5620：NumberofAttributes：64：AttributeInformation：8x8imageofintegerpixelsintherange0。。16。：MissingAttributeValues：None：Creator：E。Alpaydin（alpaydinboun。edu。tr）：Date：J1998ThisisacopyofthetestsetoftheUCIMLhandwrittendigitsdatasetshttps：archive。ics。uci。edumldatasetsOpticalRecognitionofHandwrittenDigitsThedatasetcontainsimagesofhandwrittendigits：10classeswhereeachclassreferstoadigit。PreprocessingprogramsmadeavailablebyNISTwereusedtoextractnormalizedbitmapsofhandwrittendigitsfromapreprintedform。Fromatotalof43people，30contributedtothetrainingsetanddifferent13tothetestset。32x32bitmapsarepidedintononoverlappingblocksof4x4andthenumberofonpixelsarecountedineachblock。Thisgeneratesaninputmatrixof8x8whereeachelementisanintegerintherange0。。16。Thisreducesdimensionalityandgivesinvariancetosmalldistortions。ForinfoonNISTpreprocessingroutines，seeM。D。Garris，J。L。Blue，G。T。Candela，D。L。Dimmick，J。Geist，P。J。Grother，S。A。Janet，andC。L。Wilson，NISTFormBasedHandprintRecognitionSystem，NISTIR5469，1994。。。topic：：ReferencesC。Kaynak（1995）MethodsofCombiningMultipleClassifiersandTheirApplicationstoHandwrittenDigitRecognition，MScThesis，InstituteofGraduateStudiesinScienceandEngineering，BogaziciUniversity。E。Alpaydin，C。Kaynak（1998）CascadingClassifiers，Kybernetika。KenTangandPonnuthuraiN。SuganthanandXiYaoandA。KaiQin。LineardimensionalityreductionusingrelevanceweightedLDA。SchoolofElectricalandElectronicEngineeringNanyangTechnologicalUniversity。2005。ClaudioGentile。ANewApproximateMaximalMarginClassificationAlgorithm。NIPS。2000。
　　注意：如果使用readcsv（）导入数据集，数据集已经分割好，导入的数据集中可能没有描述字段，但是你可以使用head（）或tail（）来检查数据。在这种情况下，最好仔细查看数据描述文件夹！
　　接下来，我们进一步了解数据集中的数据。
　　可以看到，数据集中的数据都是numpy数组的格式，可以查看这些数组的数据类型，形状，长度等信息。importnumpyasnp打印data数组的形状print（digits。data。shape）输出：（1797，64）打印data数组的类型print（digits。data。dtype）输出：float64打印target数组的形状print（digits。target。shape）输出：（1797，）打印target数组的类型print（digits。target。dtype）输出：int32打印target数组中包含的唯一值数量print（len（np。unique（digits。target）））输出：10打印targetnames数组的形状print（digits。targetnames。shape）输出：（10，）打印targetnames数组的类型print（digits。targetnames。dtype）输出：int32打印images数组的形状print（digits。images。shape）输出：（1797，8，8）打印images数组的类型print（digits。images。dtype）输出：float64
　　可以看出，digits。data中，有1797个样本，每个样本有64个特征值（实际上是像素灰度值）。
　　digits。target中，包含了上面样本数据对应的目标值（样本标签），同样有1797个目标值，但10个唯一值，即09。换句话说，所有1797个目标值都由0到9之间的数字组成，这意味着模型要识别的是从0到9的数字。
　　digits。targetnames包含了样本标签的名称：09。
　　最后，可以看到digits。images数组包含3个维度：有1797个实例，大小为88像素。digits。images数据与digits。data内容应该相同，只是格式不同。可以通过以下方式验证两者内容是否相同：print（np。all（digits。images。reshape（（1797，64））digits。data））输出：true
　　把digits。images改变形状为（1797，64），与digits。data比较，两者相等。numpy方法all（）可以检测所有数组元素的值是否为True。

投诉评论转载

Python机器学习（二十七）Sklearn数据集基本信息前面章节中，我们加载了SciKitLearn自带的数据集digits，可以通过以下语句查看数据集中包含哪些主要内容：digits。keys（）输出dictkeys（〔da……1080ti还能再战吗？你怎么看？GTX1080ti是NVIDIA在2017年发布的一款旗舰级显卡，虽说现在已经有3年了，但是性能还是在第一梯队的，当然了也早就已经停产了，这显卡再战个三五年还是没问题的，毕竟一……3000块安卓手机推荐华为nova9pro这款手机外观是蓝色和紫色渐变的风格，光线暗的时候呈蓝色，在光线下旋转呈现淡淡的紫色，妥妥的高颜值外观。重量也只有186克，厚度7。97mm，说它轻薄手……开了特斯拉modelx，再开奥迪etron，老司机这差距我一如今不少的国家都在大力推进新能源汽车，作为传统车企行业大佬的BBA，也是抓紧布局自己的电动汽车，其中奥迪就推出了首款豪华纯电C级轿跑SUV奥迪etron，这辆车无论从设计还是动……拒绝996，中国程序员的呼声传到了国外面具戴太久就会长到脸上，再想摘下来，除非伤筋动骨扒皮。996，从来如此，便对么？996，一次文化概念的输出在中文互联网世界，因为一些众所周知却无法言说的问题，中国程序员与……iOS15正式版推送，更像安卓的苹果系统，你升级了吗？和之前苹果预告的一样，今天凌晨1点，苹果就推送了4大系统的更新。包括iOS，iPadOS，watchOS和TVOS。大众用户最关心的还是iOS15的正式版，这款系统的主要新功能……河南职业技术学院分类培养精准施教近年来，河南职业技术学院根据学生兴趣爱好、能力特长、就业取向等不同特点，大胆探索实践，创造性地构建了基于大数据的分类培养、精准施教人才培养模式，收到了喜人的改革成效。构建……田言梦语新款iPhoneSE价格破发！最低只要2940元谁能想到，新款iPhoneSE发布仅不到一个月时间就破发了，如今3000元不到就能买到64GB版本的新款iPhoneSE，在A15仿生芯片的加持下，这款手机将成为3000元价位……大家有搭载麒麟960970810，骁龙67573083584骁龙处了旗舰芯片其他的就是糊弄人，买骁龙67的芯片的新手机，都不如买个二手旗舰芯片的手机都直接吊打他835配置的米六现在玩普通游戏还畅顺不卡，性能还够用。不玩游戏，……win11正式版，提前来了！却又被网友骂惨了6月24号，Windows11刚发布的时候，微软的官网显示的信息是计划于2022年初推出升级。如果按照这个说法，至少还有半年的时间，Windows11正式版才会跟大家见面……海信造芯两年打造一颗芯，剑指千亿营收21世纪经济报道记者雷晨北京报道芯片是海信大显示战略的核心底层技术。1月11日，海信集团副总裁、海信视像（600060。SH）总裁于芝涛在中国首颗自研8KAI画质芯……插混十年前画下的饼，终于兑现了日常通勤用电，自驾烧油！十一年以前，随着这样一句宣传语，史上第一种插电式混合动力汽车（PHEV），双模混动的比亚迪F3DM上市。采用混动系统，同时安装了较一般混动汽……

<<<<<<－>>>>>>

GalaxyBuds2亚马逊偷跑售价149。99欧元主动降噪 TCL的雷鸟FF1，你不知道的手机卖点中国科技传来两大好消息震撼世界！航天科技与智慧城轨齐头并进荣耀play4tpro荣耀x10华为nova6，哪一个更值得这样理解MySQL索引，阿里面试官也给你点赞运用联盟区块链保护网络著作权全球小飞机销量冠军汽车公司跨界造飞机，连续四年拿第一听力损失达到什么程度时就需要干预了？消费者投诉满帮无端封号，客服不作为 iPhone14Pro配置曝光比低配机型强太多，苹果再秀精准或许是首个与蚊子干仗的手机厂商！魅族官方正式公开驱蚊专利元宇宙引发的新一轮科技革命即将结束全球经济危机人體的彩虹读后感锦集抖音神曲那么多，字节跳动是如何玩转亿级曲库的？当年刚谈对象若即若离那种我对她说这样拖下去对大家校园暴力事件后家长怎么解决农村创业点子推荐附个农村创业赚钱的好点日本旅游小贴士四年级世界森林日作文保护森林300字原来我们的生存空间这么不明媚夜市摄像头怎么安装夜视摄像头安装方法图文孕妈咪的十月瑜珈生活知识团聚的味道巨星杀手锏！新世纪五大逼宫球星仅1人留队，其余均走人

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利