用 Python 分析某医院药品销售案例！

2020-04-03 14:42:51 有趣的程序媛

数据分析的基本过程一般分为以下几个部分：提出问题、理解数据、数据清洗、构建模型、数据可视化

本项目带你根据以上过程详细分析朝阳医院药品销售数据！

1.提出问题

在数据分析之前，我们先要明确分析目标是什么，这样可以避免我们像无头苍蝇一样拿着数据无从下手，也可以帮助我们更高效的选取数据，进行分析研究。

本次的分析目标是从销售数据中分析出以下业务指标：

1）月均消费次数

2）月均消费金额

3）客单价

4）消费趋势

有了分析目标，我们再来关注一下数据情况。

2.理解数据

1）导入数据包，提取数据文件

In [1]:

<code>#导入numpy、pandas包import numpy as npimport pandas as pd#导入数据salesDf = pd.read_excel('/home/kesci/input/medical9242/朝阳医院2018年销售数据.xlsx')/<code>

2）查看导入数据的基本状况

In [2]:

<code>#查看导入数据的类型type(salesDf)/<code>

Out[2]:

<code>pandas.core.frame.DataFrame/<code>

In [3]:

<code>salesDf.dtypes/<code>

Out[3]:

<code>购药时间     object
社保卡号    float64
商品编码    float64
商品名称     object
销售数量    float64
应收金额    float64
实收金额    float64
dtype: object/<code>

In [4]:

<code>salesDf.shape/<code>

Out[4]:

<code>(6578, 7)/<code>

In [5]:

<code>#查看列名salesDf.columns/<code>

Out[5]:

<code>Index(['购药时间', '社保卡号', '商品编码', '商品名称', '销售数量', '应收金额', '实收金额'], dtype='object')/<code>

In [6]:

<code>#查看每列数据的统计数目salesDf.count()/<code>

Out[6]:

<code>购药时间    6576
社保卡号    6576
商品编码    6577
商品名称    6577
销售数量    6577
应收金额    6577
实收金额    6577
dtype: int64/<code>

In [7]:

<code>#查看前五列salesDf.head()/<code>

Out[7]:

购药时间社保卡号商品编码商品名称销售数量应收金额实收金额02018-01-01 星期五1.616528e+06236701.0强力VC银翘片6.082.869.0012018-01-02 星期六1.616528e+06236701.0清热解毒口服液1.028.024.6422018-01-06 星期三1.260283e+07236701.0感康2.016.815.0032018-01-11 星期一1.007034e+10236701.0三九感冒灵1.028.028.0042018-01-15 星期五1.015543e+08236701.0三九感冒灵8.0224.0208.00

3.数据清洗

取得了数据，并不能马上就开始进行数据分析。我们得到的数据通常并不是完全符合我们分析要求的，而且可能存在缺失值、异常值，这些数据都会使我们的分析结果产生偏差。所以在分析之前，需要进行子集选择、缺失数据补充、异常值处理、数据类型转换等多个步骤。这些都属于数据清理的范畴。在数据分析中，通常有多达60%的时间是花在数据清洗中的。通常的清洗步骤有以下几步：• 选择子集

• 列名重命名

• 缺失数据处理

• 数据类型转换

• 数据排序

• 异常值处理

这些步骤有些不是一步就能完成的，可能需要重复操作。

现在开始对药店销售数据进行数据清洗。

1）选择子集

药店销售数据中，项目较少，选择子集可以忽略，我们从列名重命名开始。

2）列名重命名

销售数据集，购药时间显示为销售时间更为合理，我们先把这个项目名称做一下变更。

In [8]:

<code>#购药时间->销售时间nameChangeDict = {'购药时间':'销售时间'}#参数inplace=True表示覆盖元数据集salesDf.rename(columns = nameChangeDict,inplace=True)/<code>

3）缺失数据处理

对于缺失数据，我们可以有几种处理方法：

▪ 删除

当缺失数据占总数据量的比例很小的时候，我们通常采用删除的处理方法。

▪ 合理值填充

在某些不适合删除的场合，我们有时候也会对缺失数据进行合理值填充，如平均值，中位数，相邻数据等等。

In [9]:

<code>#首先查看一下哪些项目存在缺失值salesDf.isnull().any()/<code>

Out[9]:

<code>销售时间    True
社保卡号    True
商品编码    True
商品名称    True
销售数量    True
应收金额    True
实收金额    True
dtype: bool/<code>

好吧，每个项目都存在缺失值。在这个销售数据中，销售时间和社保卡号是必须项目，不可或缺。所以我们在这里只把销售时间和社保卡号有缺失的数据做删除处理。我们来查看一下销售时间和社保卡缺失的数据大小，然后做删除处理。

In [10]:

<code>#查看一下缺失值的数量#通常可以用isnull函数来查找缺失值salesDf[salesDf[['销售时间','社保卡号']].isnull().values == True]/<code>

Out[10]:

销售时间社保卡号商品编码商品名称销售数量应收金额实收金额6570NaN11778628.02367011.0高特灵10.056.056.0065712018-04-25 星期二NaN2367011.0高特灵2.011.29.866574NaNNaNNaNNaNNaNNaNNaN6574NaNNaNNaNNaNNaNNaNNaN

In [11]:

<code>#序号6574因为销售时间和社保卡号都缺失，所以会出现两次。所以我们要去掉一下重复数据。naDf = salesDf[salesDf[['销售时间','社保卡号']].isnull().values == True].drop_duplicates()naDf/<code>

Out[11]:

销售时间社保卡号商品编码商品名称销售数量应收金额实收金额6570NaN11778628.02367011.0高特灵10.056.056.0065712018-04-25 星期二NaN2367011.0高特灵2.011.29.866574NaNNaNNaNNaNNaNNaNNaN

从上面可以清楚看出销售时间和社保卡号缺失的数据一共有三条，当数据量大的时候我们可以只显示条数，不显示数据内容

In [12]:

<code>#缺失数据行数naDf.shape[0]/<code>

Out[12]:

<code>3/<code>

现在把这些缺失数据进行删除

In [13]:

<code>#含有销售时间和社保卡号的缺失数据删除salesDf = salesDf.dropna(subset=['销售时间','社保卡号'],how = 'any')#删除后数据集规模显示salesDf.shape/<code>

Out[13]:

<code>(6575, 7)/<code>

在数据删除后要及时更新一下最新的序号，不然可能会产生问题。

In [14]:

<code>#重命名行名（index）：排序后的列索引值是之前的行号，需要修改成从0到N按顺序的索引值salesDf=salesDf.reset_index(drop=True)/<code>

4）数据类型转换

▪ 数量、金额项目:从字符串类型转换为数值（浮点型）类型

In [15]:

<code>salesDf['销售数量'] = salesDf['销售数量'].astype('float')salesDf['应收金额'] = salesDf['应收金额'].astype('float')salesDf['实收金额'] = salesDf['实收金额'].astype('float')print('转换后的数据类型：\\n',salesDf.dtypes)/<code>

<code>转换后的数据类型：
 销售时间     object
社保卡号    float64
商品编码    float64
商品名称     object
销售数量    float64
应收金额    float64
实收金额    float64
dtype: object/<code>

▪ 日期项目:从字符串类型转换为日期类型销售日期中包含了日期和星期，我们只要保留日期内容即可。这里用一个自定义的函数dateChange来实现这个功能。

In [16]:

<code>#日期转换def dateChange(dateSer):
    dateList = []
    for i in dateSer:
        #例如2018-01-01 星期五，分割后为：2018-01-01
        str = i.split(' ')[0]
        dateList.append(str)
    dateChangeSer = pd.Series(dateList)
    return dateChangeSerdateChangeSer = dateChange(salesDf['销售时间'])dateChangeSer/<code>

Out[16]:

<code>0       2018-01-01
1       2018-01-02
2       2018-01-06
3       2018-01-11
4       2018-01-15
5       2018-01-20
6       2018-01-31
7       2018-02-17
8       2018-02-22
9       2018-02-24
10      2018-03-05
11      2018-03-05
12      2018-03-05
13      2018-03-07
14      2018-03-09
15      2018-03-15
16      2018-03-15
17      2018-03-15
18      2018-03-20
19      2018-03-22
20      2018-03-23
21      2018-03-24
22      2018-03-24
23      2018-03-28
24      2018-03-29
25      2018-04-05
26      2018-04-07
27      2018-04-13
28      2018-04-22
29      2018-05-01
           ...
6545    2018-04-05
6546    2018-04-05
6547    2018-04-09
6548    2018-04-10
6549    2018-04-10
6550    2018-04-10
6551    2018-04-12
6552    2018-04-13
6553    2018-04-13
6554    2018-04-14
6555    2018-04-15
6556    2018-04-15
6557    2018-04-15
6558    2018-04-15
6559    2018-04-16
6560    2018-04-17
6561    2018-04-18
6562    2018-04-21
6563    2018-04-22 

6564    2018-04-24
6565    2018-04-25
6566    2018-04-25
6567    2018-04-25
6568    2018-04-26
6569    2018-04-26
6570    2018-04-27
6571    2018-04-27
6572    2018-04-27
6573    2018-04-27
6574    2018-04-28
Length: 6575, dtype: object/<code>

In [17]:

<code>salesDf['销售时间'] = dateChangeSersalesDf.head()/<code>

Out[17]:

销售时间社保卡号商品编码商品名称销售数量应收金额实收金额02018-01-011.616528e+06236701.0强力VC银翘片6.082.869.0012018-01-021.616528e+06236701.0清热解毒口服液1.028.024.6422018-01-061.260283e+07236701.0感康2.016.815.0032018-01-111.007034e+10236701.0三九感冒灵1.028.028.0042018-01-151.015543e+08236701.0三九感冒灵8.0224.0208.00

在做完转化后再观察一下有没有产生新的缺失值

In [18]:

<code>salesDf['销售时间'].isnull().any()/<code>

Out[18]:

<code>False/<code>

In [19]:

<code>salesDf.dtypes/<code>

Out[19]:

<code>销售时间     object
社保卡号    float64
商品编码    float64
商品名称     object
销售数量    float64
应收金额    float64
实收金额    float64
dtype: object/<code>

数据没有产生新的缺失，我们继续向下，把销售时间的数据类型转为日期型。

In [20]:

<code>dateSer=pd.to_datetime(salesDf['销售时间'], format = '%Y-%m-%d', errors='coerce')dateSer/<code>

Out[20]:

<code>0      2018-01-01
1      2018-01-02
2      2018-01-06
3      2018-01-11
4      2018-01-15
5      2018-01-20
6      2018-01-31
7      2018-02-17
8      2018-02-22
9      2018-02-24
10     2018-03-05
11     2018-03-05
12     2018-03-05
13     2018-03-07
14     2018-03-09
15     2018-03-15
16     2018-03-15
17     2018-03-15
18     2018-03-20
19     2018-03-22
20     2018-03-23
21     2018-03-24
22     2018-03-24 

23     2018-03-28
24     2018-03-29
25     2018-04-05
26     2018-04-07
27     2018-04-13
28     2018-04-22
29     2018-05-01
          ...
6545   2018-04-05
6546   2018-04-05
6547   2018-04-09
6548   2018-04-10
6549   2018-04-10
6550   2018-04-10
6551   2018-04-12
6552   2018-04-13
6553   2018-04-13
6554   2018-04-14
6555   2018-04-15
6556   2018-04-15
6557   2018-04-15
6558   2018-04-15
6559   2018-04-16
6560   2018-04-17
6561   2018-04-18
6562   2018-04-21
6563   2018-04-22
6564   2018-04-24
6565   2018-04-25
6566   2018-04-25
6567   2018-04-25
6568   2018-04-26
6569   2018-04-26
6570   2018-04-27
6571   2018-04-27
6572   2018-04-27
6573   2018-04-27
6574   2018-04-28
Name: 销售时间, Length: 6575, dtype: datetime64[ns]/<code>

In [21]:

<code>dateSer.isnull().any()/<code>

Out[21]:

<code>True/<code>

In [22]:

<code>compareDf = pd.DataFrame(dateSer[dateSer.isnull()],salesDf[dateSer.isnull()]['销售时间'])compareDf/<code>

Out[22]:

销售时间销售时间

2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT2018-02-29NaT

查看了下数据，产生空值的原因是因为数据中出现了'2018-02-29'这样实际不存在的日期。在实际应用中，最好能向业务部门询问一下产生的原因，看下是不是因为日期推算不正确导致了这样原因的产生，需不需要将这样的数据进行一下必要的修正。这里就简单的把数据进行删除。

In [23]:

<code>salesDf['销售时间'] = dateSersalesDf.dtypes/<code>

Out[23]:

<code>销售时间    datetime64[ns]
社保卡号           float64
商品编码           float64
商品名称            object
销售数量           float64
应收金额           float64
实收金额           float64
dtype: object/<code>

In [24]:

<code>salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')salesDf.shape/<code>

Out[24]:

<code>(6552, 7)/<code>

In [25]:

<code>salesDf=salesDf.reset_index(drop=True)/<code>

5）数据排序销售记录一般是以销售时间为顺序排列的，所以我们对数据进行一下排序

In [26]:

<code>#按销售时间排序salesDf = salesDf.sort_values(by='销售时间')#再次更新一下序号salesDf = salesDf.reset_index(drop = True)/<code>

6）异常值处理

在下面数据集的描述指标中可以看出，存在销售数量为负的数据，这明显是不合理的，我们把这部分数据也进行删除

In [27]:

<code>salesDf.describe()/<code>

Out[27]:

社保卡号商品编码销售数量应收金额实收金额count6.552000e+036.552000e+036552.0000006552.000006552.000000mean6.095150e+091.015031e+062.38415850.4302546.266972std4.888430e+095.119572e+052.37475487.6807581.043956min1.616528e+062.367010e+05-10.000000-374.00000-374.00000025%1.014290e+088.614560e+051.00000014.0000012.32000050%1.001650e+108.615070e+052.00000028.0000026.50000075%1.004898e+108.687840e+052.00000059.6000053.000000max1.283612e+102.367012e+0650.0000002950.000002650.000000

In [28]:

<code>#删除异常值：通过条件判断筛选出数据#查询条件querySer=salesDf.loc[:,'销售数量']>0#应用查询条件print('删除异常值前：',salesDf.shape)salesDf=salesDf.loc[querySer,:]print('删除异常值后：',salesDf.shape)/<code>

<code>删除异常值前：(6552, 7)
删除异常值后：(6509, 7)/<code>

数据清洗完了之后，我们终于可以来搭建我们的模型啦。当然如果在模型搭建过程中再次发现数据异常情况，我们还是要对数据进行进一步的清洗。

4.构建模型

1）业务指标1:月均消费次数=总消费次数 / 月份数

总消费次数：同一天内，同一个人发生的所有消费算作一次消费。这里我们根据列名（销售时间，社区卡号）结合，如果这两个列值同时相同，只保留1条，将重复的数据删除

月份数：数据已经按照销售时间进行排序，只需将最后的数据与第一条数据相减就可换算出月份数

In [29]:

<code>#总消费次数计算kpDf = salesDf.drop_duplicates(subset=['销售时间','社保卡号'])total = kpDf.shape[0]print('总消费次数为：',total)/<code>

<code>总消费次数为：5345/<code>

In [30]:

<code>#月份数计算startDay = salesDf.loc[0,'销售时间']print('开始日期:',startDay)endDay = salesDf.loc[salesDf.shape[0]-1,'销售时间']print('结束日期:',endDay)monthCount = (endDay - startDay).days//30print('月份数:',monthCount)/<code>

<code>开始日期: 2018-01-01 00:00:00
结束日期: 2018-07-18 00:00:00
月份数: 6/<code>

In [31]:

<code>#业务指标1:月均消费次数=总消费次数 / 月份数kpi1 = total / monthCountprint('业务指标1：月均消费次数=',kpi1)/<code>

<code>业务指标1：月均消费次数= 890.8333333333334/<code>

2）指标2：月均消费金额 = 总消费金额 / 月份数

In [32]:

<code>totalMoney = salesDf['实收金额'].sum()kpi2 = totalMoney / monthCountprint('业务指标2：月平均消费金额=',kpi2)/<code>

<code>业务指标2：月平均消费金额= 50672.494999999995/<code>

3）指标3：客单价=总消费金额 / 总消费次数

In [33]:

<code>kpi3 = kpi2 / kpi1print('业务指标3：客单价=',kpi3)/<code>

<code>业务指标3：客单价= 56.88212722170252/<code>

4）指标4：消费趋势，画图：折线图

In [34]:

<code>#在进行操作之前，先把数据复制到另一个数据框中，防止对之前清洗后的数据框造成影响groupDf=salesDf#第1步：重命名行名（index）为销售时间所在列的值groupDf.index=groupDf['销售时间']groupDf.head()/<code>

Out[34]:

销售时间社保卡号商品编码商品名称销售数量应收金额实收金额销售时间

2018-01-012018-01-011.616528e+06236701.0强力VC银翘片6.082.869.02018-01-012018-01-011.078916e+08861456.0酒石酸美托洛尔片(倍他乐克)2.014.012.62018-01-012018-01-011.616528e+06861417.0雷米普利片(瑞素坦)1.028.528.52018-01-012018-01-011.007397e+10866634.0硝苯地平控释片(欣然)6.0111.092.52018-01-012018-01-011.001429e+10866851.0缬沙坦分散片(易达乐)1.026.023.0

In [35]:

<code>#第2步：分组gb=groupDf.groupby(groupDf.index.month)#第3步：应用函数，计算每个月的消费总额mounthDf=gb.sum()mounthDf/<code>

Out[35]:

社保卡号商品编码销售数量应收金额实收金额销售时间

16.257155e+121.073329e+092527.053561.649461.1924.702493e+127.438598e+081858.042028.838790.3836.124761e+121.007946e+092225.045318.041597.5147.620230e+121.226705e+093010.054324.348812.7055.898556e+121.004573e+092225.051263.446925.2765.421001e+129.289637e+082328.052300.848327.7073.608900e+126.259256e+081483.032568.030120.22

In [36]:

<code>import matplotlib.pyplot as pltimport seaborn as snsimport matplotlib as mplmpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['font.serif'] = ['SimHei']sns.set_style("darkgrid",{"font.sans-serif":['simhei', 'Arial']})import matplotlib.pyplot as plt%matplotlib inline#绘制销售数量图plt.plot(mounthDf['销售数量'],color = 'b')/<code>

Out[36]:

<code>[<matplotlib.lines.line2d>]/<matplotlib.lines.line2d>/<code>

<code>findfont: Font family ['sans-serif'] not found. Falling back to DejaVu Sans./<code>

四月份为最高点，二月份为前期一个最低点，而且在四月份以后销售一直处于向下的趋势，在记录的日期中，七月份达到了历史最低水平。

分享到:

閱讀更多 有趣的程序媛 的文章

關鍵字: 美好，一直在身边分析维C银翘片

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"