Pandas数据探索分析，分享两个神器

在使用 pandas进行数据分析时，进行一定的数据探索性分析（EDA）是必不可少的一个步骤，例如常见统计指标计算、缺失值、重复值统计等。

使用 df.describe等函数进行探索当然是常见操作，但若要进行更完整、详细的分析缺则略显不足。

本文就将分享两个用于数据探索的 pandas插件。

pandas_profiling

首先要介绍的是pandas_profiling，它扩展了pandas DataFrame的功能，这也是在之前多篇文章中提到的插件。

只需使用pip install pandas_profiling即可安装，在导入数据之后使用df.profile_report一行命令即可快速生成描述性分析报告

Pandas数据探索分析，分享两个神器

可以看到，除了之前我们需要的一些描述性统计数据，该报告还包含以下信息：

“
类型推断：检测数据帧中列的数据类型。
要点：类型，唯一值，缺失值
分位数统计信息，例如最小值，Q1，中位数，Q3，最大值，范围，四分位数范围
描述性统计数据，例如均值，众数，标准偏差，总和，中位数绝对偏差，变异系数，峰度，偏度
最常使用的值
直方图
相关性矩阵
缺失值矩阵，计数，热图和缺失值树状图
文本分析：了解文本数据的类别（大写，空格），脚本（拉丁，西里尔字母）和块（ASCII）
”

进一步我们还以将该报告保存为html格式，方便后续的查看，感兴趣的读者可以自行尝试。

sweetviz

第二个值得一用的是 sweetviz，同样是一个开源Python库，可生成美观、高密度的可视化，只需两行代码即可启动EDA。

该插件围绕快速可视化目标值和比较数据集而构建。它的目标是帮助快速分析目标特征、训练与测试数据以及其他此类数据特征任务。

安装方法同上，执行pip install sweetviz即可。使用方法也是类似，导入数据后只需两行代码即可输出分析报告

import sweetviz as sv
report = sv.analyze(df)
report.show_html

和 pandas_profiling不一样的是，现在我们只能得到一个html文件，打开即可看到相关 EDA 报告

Pandas数据探索分析，分享两个神器

可以看到，自动生成的报告主要有以下几个部分

“
目标分析
显示目标值，例如泰坦尼克号数据集中的“幸存”，与其他特征的关系）
可视化和比较
不同的数据集（例如训练与测试数据）
组内特征（例如男性与女性）
混合型联想
Sweetviz 无缝集成了数值（Pearson 相关）、分类（不确定系数）和分类-数值（相关比）数据类型的关联，为所有数据类型提供最大的信息。
类型推断
自动检测数字、分类和文本特征，可选择手动覆盖
概要信息
类型、唯一值、缺失值、重复行、最常见值
数值分析：最小值/最大值/范围、四分位数、平均值、众数、标准偏差、总和、中值绝对偏差、变异系数、峰态、偏度
”

从上面的介绍我们也能看出，两个 EDA 的插件侧重点有所不同，我们在实际使用时也应该根据数据特征与分析目标灵活使用！

展开阅读全文

页面更新：2024-04-29

标签：目标值中位数数据神器偏差位数系数缺失插件特征目标两个

我以为我对Mysql很熟，直到遇到了阿里这份笔记

java程序员该不该深入学习MySQL由于文章篇幅有限，下面就以截图的方式展现出来，如果有朋友需要完整PDF版的，可以转发此文后私信关键字【1】凭截图免费获取；目录大纲基础篇案例篇工具篇内容一览需要这本书的电子版1、请转发

iPhone十年产品线梳理：iPhone 6系列销量最高，13被看衰却火爆空前

记者 | 李京亚编辑 | 文姝琪对国内果粉来说，启蒙iPhone是苹果公司在2010年夏天的全球开发者大会上发布的那部iPhone 4。第二年的10月4日，苹果新任CEO蒂姆·库克首次主持公司重大产品发布会，他正式推出了新一代产品iPhone

京东面试题：ElasticSearch深度分页解决方案

前言Elasticsearch 是一个实时的分布式搜索与分析引擎，在使用过程中，有一些典型的使用场景，比如分页、遍历等。在使用关系型数据库中，我们被告知要注意甚至被明确禁止使用深度分页，同理，在 Elasticsearch 中，也应该尽量避免

国家统计局：上半年全国居民人均可支配收入17642元

来源：读特一、居民收入情况上半年，全国居民人均可支配收入17642元，比上年同期名义增长12.6%，扣除价格因素，实际增长12.0%，增幅较高，主要是受去年上半年低基数影响；比2019年上半年增长15.4%，两年平均增长7.4%，扣除价格因素，两年平

【司•享】先行动起来，能解决人生80%的问题~

No-Number-29先行动起来能解决人生.80%的问题1人们常说，犹豫一万次，不如实践一次。一个人越犹豫不决，就越容易患得患失。看过这样一个故事。小李刚入行做记者时，领导让他去约访一位大名鼎鼎的专家。小李大吃一惊，连忙拒绝

拍照效果堪比单反，手机摄像领域究竟有多“卷”

不论是记录留念，或是在朋友圈等的社交分享，随手掏出手机拍张照片，已经成为当代人的日常。与单反相比，手机体量更小，操作也极为简单，不需要调整光圈或者焦距，轻轻一按，成片效果并不逊色于专业级选手。相关数据显示，2020年消费

华为Mate50核心配置再度曝光，Mate40低至百元，花粉很受伤

继近期华为Mate50系列机型曝光频次增加后，根据最新消息，这款旗舰机型系列的发布时间很可能会推迟到明年一季度。安兔兔上过百万的高通骁龙898的可能性越来越大。值得一提的是，由于华为Mate 50新机的曝光，导致华为Mate 40

今年最低价位的骁龙870处理器手机，入手可以了解一下吧

现在的骁龙870是多么不值钱啊，竟然最低价格买到1599 的价格，也是够便宜的了！摩托罗拉这款手机就是motorola edge s,可能听着名字大家都不熟悉，这款是手机也叫摩托罗拉，一款比较冷门的手机，但是人家没有想象中的那么差，价格15

自主研发芯片祝福！谷歌pixel6官方宣布手机终于到货了

感谢大家观看阅读，希望大家多多支持我。时间已经到了21年的下半年。最近，出现了很多新产品，但是大多数都属于核心变更发布的迭代版本，并且没有太多新想法。即使是所谓的十三香iphone13，也主要是因为其价格略低于市场预期。

曝Win11安全功能致性能下降，iPhone12让路新机跌至感人价

近日，据外媒报道，知名3D Mark图形性能测试软件的开发公司UL benchmarks在一份报告中称，经过一系列测试，发现微软内置的基于虚拟化的安全Windows 11 系统的安全功能，称为VBS 功能，可以降低游戏性能高达30%。值得一提的是，由于

亚马逊游戏《新世界》成缺陷显卡杀手又使EVGA和技嘉等产品出现故障

知名的亚马逊游戏《新世界》在今夏测试期间，一些使用EVGA品牌显卡的测试者报告说，他们的显卡被游戏烧坏。现在看来，这个问题已经延续到非测试版本中中，而且损坏的不仅仅是一个品牌的显卡。据PCGamesN 9月30日报道，一些《新

小米/OPPO/一加正式开启Android12内测，有你的机型吗？

虽然国内正在度过愉快的国庆假期，但国外的厂商却有不少的大动作，比如谷歌就宣布将在美国时间10月19日召开发布会，带来Pixel 6系列手机。而另一件和我们关系更密切的就是：Android 12操作系统也已正式发布，而且我们很快就可

友商死磕性价比，骁龙888+256GB仅2798元，还有144Hz高刷和双主摄

看到小米在性价比手机道路上到来上取得成功后，进入到5G手机时代，不少小众品牌也是开始死磕性价比了，给用户带来高性价比的5G手机了，比如中兴这个品牌就是了，目前最便宜的屏下摄像头手机正是来自中兴的Axon30，价格仅两千出头

诺基亚新E72渲染图：3K分辨率E5屏，液态双1亿徕卡相机对角线布局

诺基亚手机作为曾经的手机王者，就算已经跌下了神坛，依然还是有不少的粉丝簇拥。作为曾经的经典机型诺基亚E72，虽然是功能机但是依然有不少消费者愿意为之买单。如果诺基亚发布全新的E72，外观上将会有什么样的变化呢。外媒

台积电霸气官宣!确认华为无缘首发3nm工艺:苹果首发或被惨遭截胡

【10月7日讯】相信大家都知道，随着全球芯片技术不断突破，如今在高端芯片工艺技术上，也已经开始面临摩尔定律中的芯片物理极限问题，所以在全新一代3nm工艺技术上，无论是台积电，还是三星都花费了很大的力气去突破3nm工艺技术，

上滑加载更多 ↓

推荐阅读：

全球首发Android 12！ColorOS 12实际体验怎么样？两个字：绝

郭艾伦和刘炜究竟谁才是男篮历史第一后卫？不急，我们拿数

抗美援朝伤亡数据统计：中美有20万差距，怎样才算美军伤亡

iPhone13必备清单：倍思30W超级充电器+数据线体验

小米Civi评测：完美诠释美图自拍神器基因，除了轻薄手感，更

《长津湖》票房超30亿创纪录，国内游达5.15亿人次，北京成

干货丨推荐10本大数据领域经典好书

服务“国之大者”：大数据时代社会学定量研究创新

北宋以两个皇帝成为俘虏而告终，是真的打不赢，还是皇帝太

同比上涨12.7%！一图速览2021年上半年经济数据

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top