【数据分析实例】6000 条倒闭企业数据分析

214 篇文章 5 订阅
订阅专栏

1、 数据集说明

这是一份来自 和鲸社区的倒闭企业数据集,总计 6,272 条记录,大小为 2.3 M,包含 21 个字段。

import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import pandas as pd 
data = pd.read_csv('com.csv')
data.head()
data['death_year']=pd.to_datetime(data['death_data']).dt.year
data['death_month']=pd.to_datetime(data['death_data']).dt.month

首先通过以上对数据的初步了解设立分析目标:

1、整体概况:分析各年份被淘汰的公司总数;按月份查看不同年份的淘汰情况;被淘汰公司的寿命;不同省市的整体情况;被淘汰的原因;

2、特定分析:抽取经济发达地区北、上、广作进一步的分析,主要淘汰的行业;公司类型;

2、各年份被淘汰的公司总数对比

plt.figure(1,figsize=(16,8))
sns.countplot(x='death_year',data=df,color='CadetBlue')
plt.title('各年份被淘汰的公司总数',fontsize=20)

plt.xlabel('')
plt.ylabel('')
plt.xticks(rotation=45)
plt.grid(False)
con=list(df.groupby('death_year').death_year.count().values)
for y,x in enumerate(con):
    plt.text(y,x,'%s' %x,va='center',size=14)

公司倒闭得最多得年份竟然是2017年…

3、被淘汰公司的倒闭时间集中所在的月份

# 分析被淘汰的公司阵亡月份
data1=data[data['death_year'].isin(['2015','2016','2017','2018','2019'])]

plt.figure(1,figsize=(16,8))
sns.countplot(x='death_month',hue='death_year',data=data1,palette='Paired')
plt.title('2015-2019年各月份被淘汰的公司总数',fontsize=20)

在这里插入图片描述

4、被淘汰公司在倒闭当年的寿命

data['live_years']=data['live_days']/365
data['存活年限'] = pd.cut(x=data['live_years'],bins=[0,1,3,5,10,25])

sns.set_context("notebook", font_scale=1.3)
sns.catplot(x='death_year',y='live_days',hue='存活年限',kind='swarm',data=data,height=8,aspect=2,palette='Set2')
plt.title('各年份被淘汰公司的寿命',fontsize=20)

plt.xticks(rotation=45)
plt.show()

5、被淘汰公司的主要死亡原因

reason_index=data['death_reason'].value_counts()[1:11].index
reason=data.loc[data['death_reason'].isin(reason_index),'death_reason']

plt.figure(1,figsize=(16,8))
sns.countplot(x=reason.values,order=reason_index,color='CadetBlue')
plt.title('被淘汰公司的十大死亡原因',fontsize=20)

plt.ylabel('')
plt.xlabel('')
plt.xticks(rotation=45)
plt.grid(False)
con=list(data['death_reason'].value_counts()[1:11].values)
for y,x in enumerate(con):
    plt.text(y,x,'%s' %x,va='center',size=14)
plt.show()

6、死亡公司的地区分布

from pyecharts import options as opts
from pyecharts.charts import Map

data['com_addr'] = data['com_addr'].apply(lambda x: x.strip())
s = data.groupby('com_addr').size()

c = (
Map()
    .add("死亡企业数量", [*s.items()], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="地区分布"),
        visualmap_opts=opts.VisualMapOpts(max_=200),
    )
)
c.render_notebook()

在这里插入图片描述

7、行业排行TOP10

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker

s = data.groupby('cat').size().sort_values(ascending=False)[:10].to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .set_global_opts(title_opts=opts.TitleOpts(title="行业排行TOP10"))
)
c.render_notebook()

在这里插入图片描述

8、细分领域TOP20

s = data.groupby('se_cat').size().sort_values(ascending=False)[:20].sort_values(ascending=True).to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="细分领域TOP20"))
)
c.render_notebook()

在这里插入图片描述

9、年份分布

data['born_year'] = data['born_data'].apply(lambda x: x[:4])
data['death_year'] = data['death_data'].apply(lambda x: x[:4])
s1 = data.groupby('born_year').size()
s2 = data.groupby('death_year').size()
s1 = pd.DataFrame({'year': s1.index, 'born': s1.values})
s2 = pd.DataFrame({'year': s2.index, 'death': s2.values})
s = pd.merge(s1,s2, on='year', suffixes=['born', 'death'])
s = s[s['year'] > '2008']

c = (
    Bar()
    .add_xaxis( s['year'].to_list())
    .add_yaxis("新生企业数量", s['born'].to_list())
    .add_yaxis("死亡企业数量", s['death'].to_list())
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
)
c.render_notebook()

在这里插入图片描述

10、企业存活时长

def live_year(x):
    if x < 365:
        return '不到1年'
    if x < 365 * 2:
        return '1-2年'
    if x < 365 * 3:
        return '2-3年'
    if x < 365 * 4:
        return '3-4年'
    if x < 365 * 5:
        return '4-5年'
    if x < 365 * 10:
        return '5-10年'
    return '10年以上'

s = data.groupby(data['live_days'].apply(lambda x: live_year(x))).size()

from pyecharts import options as opts
from pyecharts.charts import Pie

c = (
    Pie()
    .add("", [*s.items()])
    .set_global_opts(title_opts=opts.TitleOpts(title="企业存活时长"))
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

在这里插入图片描述

11、投资人词云

from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

invest = {}
for row in data['invest_name'].values:
    if not pd.isnull(row):
        for name in row.split('&'):
            invest[name] = invest.get(name, 0) + 1
invest = [*invest.items()]
invest.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", invest[:150], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="投资人词云"))
)
c.render_notebook()

在这里插入图片描述

12、倒闭原因词云

death_reason = {}
for row in data['death_reason'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            death_reason[name] = death_reason.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*death_reason.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="倒闭原因词云"))
)
c.render_notebook()

在这里插入图片描述

13、ceo描述词云

import jieba
ceo_per_des = {}
for row in data['ceo_per_des'].values:
    if not pd.isnull(row):
        result = jieba.lcut(row)
        for name in result:
            if len(name) == 1:
                break
            ceo_per_des[name] = ceo_per_des.get(name, 0) + 1
ceo_per_des = [*ceo_per_des.items()]
ceo_per_des.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", ceo_per_des[:100], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="ceo描述词云"))
)
c.render_notebook()

python公司分析_Python分析6000家破产IT公司
weixin_39960793的博客
12-15 706
前一阵有个字节跳动的程序员火了,年仅28岁实现了财务自由,宣布提前退休。最直接的原因是选择了一家发展前景很好的创业公司。当然平时我们经常能听到,某某人加入创业公司,xx年后公司上市,身价暴涨,财务自由。但这都是小概率事件,大部分人往往要么等不到公司上市就离职,要么公司还没上市就破产。这两天找到一份近几年破产的IT公司名单,共6000家,下面就对这份数据做个简单分析。分析思路大致如下:了解整体概况单...
数据分析平台重点演示内容梳理
数通畅联
08-17 1548
作为一个以产品、方案为核心的公司,产品演示是非常重要的,在演示过程中突出自身产品亮点,扬长避短。本文针对数据分析平台演示内容进行总结分析。
Python数据分析可视化源码实例
10-03
Python数据分析可视化源码实例
6000倒闭企业数据分析.rar
11-28
6000企业倒闭数据分析
Company Bankruptcy Prediction(公司破产的预测)-数据集
03-12
Bankruptcy data from the Taiwan Economic Journal for the years 1999–2009. 《台湾经济月刊》1999-2009年破产数据。 data.csv
避坑!用大数据告诉你,那些被淘汰的公司,都有哪些特征?
Leo的博客
11-23 753
最近,某家公司被讨论的沸沸扬扬: 上一个被如此讨论的还是某个带颜色的自行车,结果大家也知道了,维稳而已。 不知道大家有没有听过一个段子,入职3天,公司倒闭了,由此,我想到了一个话题:如果可以提前知道什么样的公司会被淘汰,哪些因素会使员工离职,是不是能起到一些帮助? 这也就是我们所说的人力数据分析,只不过扩大到了另一个层面。 我们通过收集到相关的数据,然后做出可视化,就可以得到结果了。 一、数据来源 根据各大数据网站的项目或者数据集,还有一些专业的统计网站,有些是现成的,也有些是需要通过.
五组数据告诉你倒闭企业的“死亡画像”
数据猿
03-18 1953
数据猿发布最新招聘公告:①阿里数据中台品牌团队四大职位虚位以待②蚂蚁金服大数据部2020实习生招募全面启动③TalkingData北京招资深银行行业BD...
Python数据分析7个入门案例
08-10
在这个"Python数据分析7个入门案例"中,我们将探索一系列基于实际数据集的实例,旨在帮助初学者掌握基本的数据处理和分析技能。以下是每个案例的概述: 1. **超市销售**:这个案例将涉及读取销售数据,可能包括商品...
数据分析平台要点梳理
数通畅联
03-04 1243
近期参与了POC演示环境的搭建,使我将自身所学的知识进行了串联。本文将DAP数据分析平台包括的数仓建设及BI配置方面进行串联,对使用过程中的重难点进行梳理。
基于移动互联网我国公路货运APP企业发展现状研究.pdf
08-26
为了应对这些挑战,论文提出了多案例研究方法,通过对不同货运APP企业实例分析,找出成功与失败的关键因素。此外,论文还建议企业应该加强与线下物流企业的合作,提升服务质量,打造品牌信誉,以增强用户粘性。...
生活在数据时代;聊聊数据分析在当今社会生活中的有趣应用
SPSS生活统计学
12-22 6221
以下文章内容,来自草堂君的新书《人人都会数据分析-从生活实例学统计》。因为新书中增添和细化了很多知识点,所以草堂君会逐步将这些内容补充到统计基础导航页中来,帮助大家建立数据分析思维。限于篇幅,只截取书中部分内容。二百多年前,英国批判现实主义小说家狄更斯曾经说过:“这是一个最好的时代,这也是一个最坏的时代。”这句话放在今天,依然适用。随着科技的进步,计算机技术的成熟以及移动互联网的普及,我们已经步入
爬取6271家死亡公司数据,看十年创业公司消亡史
zhuxiao5的博客
11-26 1317
↑关注+置顶~有趣的不像个技术号昨天在【凹凸数读】发了一篇关于创业公司的文章,原文链接如下:今天我来写一写它的python版本。前段时间老罗和王校长都成为自己的创业公司成了失信人,小五打算上IT桔子看看他们的公司。意外发现IT桔子出了个死亡公司库(https://www.itjuzi.com/deathCompany),统计了2000-2019年之间比较出名的公司“死亡”数据。小五利用pyth...
和鲸社区的数据集如何下载
热门推荐
07-13 1万+
不在遭受下载限额困扰
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】
laoman456的博客
10-27 8237
【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】https://b23.tv/zKOtd3L 目 录 一 引言​1 二 系统分析​2 2.1 必要性和可行性分析​2 2.2 技术分析​2 三 总体设计​4 3.1 可视化界面设计​4 3.2 数据库设计​4 3.3 网页设计​5 四 实验实现​6 4.1 大数据实验环境的搭建​6 4.1.1 Linux系统及相关软件的配置​6 4.1.2 JDK的安装​7 4.1.3 Scala的安装​
ClickHouse实战--clickhouse使用场景与原理解析
阿华田的博客
10-20 1万+
ClickHouse简介 ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统,多用于联机分析(OLAP)场景,可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统,而不是单个数据库。 ClickHouse 特点 读多于写 大宽表,读大量行但是少量列,结果集较小通常存在一张或是几张多列的大宽表,列数高达数百甚至数千列。对数据分析处理时,选择其中的少数几列作为维度列、其他少数几列作为指标列,然后.
【机器学习】数据挖掘实战:金融贷款分类模型和时间序列分析
fengdu78的博客
12-22 3591
今天给大家带来一个企业数据挖掘实战项目,金融贷款分类模型和时间序列分析,文章较长,建议收藏!如果本文对你有所帮助,记得文末点赞和在看,也可分享给你需要的朋友~项目背景银行和其他金融贷款机...
Can‘t get Kerberos realm
最新发布
bruce128的专栏
09-18 277
近期搞Ozone开发,需要走kerberos登陆,遇到了一个问题,花了很长时间解决。记录一下,跟网上能搜到的不大一样。
写文章

热门文章

  • 二十三、 爬取mzsock网站写真社区 95211
  • EPERM: operation not permitted, mkdir 'C:\Program Files\nodejs' 25453
  • 一阶暂态电路三要素法和三种响应 23351
  • RLC 串联电路 22006
  • 共集电极放大电路 19476

分类专栏

  • 玩转Python金融量化 付费 39篇
  • 玩转 Python 数据分析 付费 75篇
  • 玩转Python机器学习 付费 34篇
  • Java系列 付费 99篇
  • TensorFlow 付费 103篇
  • 玩转Python爬虫 付费 83篇
  • Python教程系列专栏 付费 97篇
  • 大数据系列 hadoop Spark 系列 付费 37篇
  • (2-2)Elasticsearch系列 付费 10篇
  • Python金融量化 1篇
  • 剑指 Offer
  • (7-1)互联网格局和人生的感想 11篇
  • 深度学习系列 1篇
  • 原力计算 214篇
  • 机器学习算法专题(精讲)蓄力计划 95篇
  • math 1篇
  • (9-1)个人思考和感悟 1篇
  • 深度学习和目标检测系列教程 (300 ) 26篇
  • Python100例编程题 1篇
  • 树莓派 2篇
  • 恶补C++ 24篇
  • 语音 2篇
  • (3-1)前端系列 74篇
  • 我的化工专业 95篇
  • (3-2)深入Git,Nginx,和Linux运维知识 21篇
  • 零基础学习NLP 19篇
  • (4-1)Go系列 11篇
  • openwrt 2篇
  • (3-2)Django系列 31篇
  • leetcode
  • (7-2)大四刷题拼offer系列 25篇
  • 遇到的Bug 49篇
  • kaggle 8篇
  • 案例 33篇
  • R 7篇

最新评论

  • 5 | 了解Github

    BennettJ: 好家伙 这开头写的 我看完全可以直接读博

  • 二、华为云ModelArts零代码实现美食分类识别

    2201_75763218: 老师,请问训练集和测试集哪里下

  • Python及常用财经数据接口包

    CSDN-Ada助手: Python 中有哪些 Web 框架?它们的特点和使用场景有哪些?

  • 17 | 数据分析行业的分析

    CSDN-Ada助手: 哇, 你的文章质量真不错,值得学习!不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

  • 004 | 掌握金融量化交易库Talib

    CSDN-Ada助手: 又快又稳,金融级分布式架构如何实现?

大家在看

  • 浅谈js继承、原型、原型链
  • 分享两道算法题
  • 注册建造师执业工程规模标准(水利水电工程) 216
  • 2023国赛C题 蔬菜类商品的自动定价与补货决策(上) 567
  • 为什么要关闭SMB V1

最新文章

  • 019 | backtrader回测布林带突破策略
  • 018 | backtrader回测反转策略
  • 017 | backtrader回测趋势跟随策略
2024年25篇
2023年141篇
2022年18篇
2021年208篇
2020年366篇
2019年600篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘要努力。

顺便点一个赞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王香港网站优化公司怎样优化网站关键词排名靠前菏泽好的网站品牌优化网站优化推广生产厂家嘉定区正规网站优化价格深圳独立网站优化服务如何网站优化推广软件推荐江苏网站优化工具网站优化公司哪家价钱合理上海网站优化多少钱网站关键词优化筛选广安网站搜索引擎优化搜狗网站提交优化三尾狐怎么样才能优化一个网站节能设备网站seo优化团队网站的关键词优化是什么网站关键词优化步骤枣庄多语言网站优化公司怎么做企业网站优化的有效方式深圳互联网网站优化哪家好沧州网站优化团队手机站seo网站优化商丘优化网站排名怎么样网站优化师的招聘要求网站优化的六大步骤正定优化网站公司企业网站优化效果深圳如何做网站优化有用吗菏泽网站优化报价网站描述改了还能优化吗香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化