이제 데이터를 다 정리 했으니 시각화를 통해
본격적인 분석을 시작해보자.
BMKML = pd.DataFrame({'BGK': BGK, 'MCD': MCD, 'KFC': KFC, 'MST': MST, 'LTR': LTR}).fillna(0)
BMKML['total'] = BMKML.sum(axis=1)
BMKML = BMKML.sort_values(by=['total'], ascending=False)
BMKML.head(10)
먼저, 햄버거 가게의 총합이 제일 많은 지역을 뽑아본다.
그러면 1위 창원시, 2위 수원시, 3위 청주시,
4위 고양시, 5위 용인시의 결과가 나온다.
이 지역들은 다른 버거집도 많은 편이지만,
롯데리아와 맘스터치의 점포수가
다른 지역보다 상당히 많다.
상위권 도시들의 공통점을 보면,
대체로 인구가 많은 지역임을 알 수 있다.
아무래도 인구가 많은 곳에 버거집이
종류에 상관없이 많이 있다는 것을 보여주는 결과다.
다음으로 전체 매장개수를 비교해보자.
plt.style.use('ggplot')
plt.rcParams['font.size'] = 12
plt.figure(figsize=(6,4))
plt.xticks(rotation=45)
BMKML.sum(axis=0).iloc[:5].plot(color={'darkblue':'BGK',
'gold':'MCD','black':'KFC',
'red':'MST' ,
'orange':'LTR'},
kind='bar')
막대그래프를 통해 비교해보면 다음과 같다.
롯데리아가 맘스터치가 압도적으로
많은 매장수를 보여주고 있다.
본격적인 버거지수를 만들기 전,
매장수가 가장 많은 롯데리아와 맘스터치를 기준으로
상관계수를 살펴보겠다.
#매장별 상관관계 분석하기
import scipy.stats
import numpy as np
fig = plt.figure(figsize=(12,12))
def plot_nstores3(b1, b2, label1, label2):
plt.scatter(BMKML[b1] + np.random.random(len(BMKML)),
BMKML[b2] + np.random.random(len(BMKML)),
edgecolor='none', alpha=0.75, s=6, c='black')
plt.xlim(-1, 15 if (b1 != 'LTR') & (b1 != 'MST') else 35)
plt.ylim(-1, 15 if (b2 != 'LTR') & (b2 != 'MST') else 35)
plt.xlabel(label1)
plt.ylabel(label2)
r = scipy.stats.pearsonr(BMKML[b1], BMKML[b2])
if r[0]>=0.75:
color='red'
elif r[0]<0.5:
color='blue'
else:
color='black'
plt.annotate('r={:.3f}'.format(r[0]), (9 if (b1 != 'LTR') & (b1 != 'MST') else 20,
12.5 if (b2 != 'LTR') &(b2 != 'MST') else 20),
fontsize=14, color=color)
bgbrands = [
('BGK', 'BGK'), ('KFC', 'KFC'),
('MCD', 'MCD'), ('LTR', 'LTR'), ('MST', 'MST')
]
for a in range(len(bgbrands) - 1):
for b in range(1, len(bgbrands)):
if a >= b:
continue
ax = fig.add_subplot(len(bgbrands)-1, len(bgbrands)-1, a * 4 + b)
acol, alabel = bgbrands[a]
bcol, blabel = bgbrands[b]
plot_nstores3(bcol, acol, blabel, alabel)
plt.tight_layout()
상관계수는 0.75가 넘으면,
강한 상관관계를 의미하고
0.25이하는 약한 상관관계를 의미한다.
파이썬을 이용해 매장간의 상관관계를 구하고
강한 상관관계를 보이는 것들을
빨간색으로 표시했다.
맘스터치와 롯데리아는
강한 상관관계를 갖고 있다.
맥도날드와 버거킹 또한 강한 상관관계를 갖고 있는 것을 알 수 있다.
'데이터분석' 카테고리의 다른 글
(웹크롤링)네이버 증권에서 주식 종목 가져오기 (2) | 2020.07.27 |
---|---|
[데이터 분석] 2020년도 버거지수 만들기(3) (0) | 2020.07.01 |
[데이터 분석] 2020년도 버거지수 만들기(2) (0) | 2020.06.28 |
[데이터 분석] 2020년도 버거지수 만들기(1) (1) | 2020.06.25 |
캐글(kaggle)과 구글 코랩(Google Colab) 연동하기 (0) | 2019.12.16 |