본문 바로가기
멋쟁이사자처럼 AI스쿨

매출늘려버리기!(파이썬 강의 Day4)

by 헬푸밍 2023. 1. 5.

이번 시간엔 매출 데이터를 통해

미팅횟수가 매출을 늘리는데 더 중요한지...

아니면! 상담시간이 더 중요한지...  알아봅시다!

 

우선 기본적인 지식을 알아봅시다!

1. 분산(variance)

  • 1개의 이산정도를 나타냅니다.
  • 편차제곱의 평균
  • 넘파이에서 np.var()로 계산 
 

2. 공분산(covariance)

  • 2개의 확률변수의 상관정도를 나타냅니다.
  • 평균 편차곱
  • 방향성은 보여줄수 있으나 강도를 나타내는데 한계가 있습니다.
    • 표본데이터의 크기에 따라서 값의 차이가 큰 단점이 있습니다.
  • 넘파이에서 np.cov()로 계산

3. 상관계수(correlation coefficient)

 

numpy.corrcoef — NumPy v1.13 Manual

x : array_like A 1-D or 2-D array containing multiple variables and observations. Each row of x represents a variable, and each column a single observation of all those variables. Also see rowvar below. y : array_like, optional An additional set of variabl

docs.scipy.org

  • numpy에서 np.corrcoef()로 계산

4. 결정계수(cofficient of determination: R-squared)

  • x로부터 y를 예측할수 있는 정도
  • 상관계수의 제곱 (상관계수를 양수화)
  • 수치가 클수록 회기분석을 통해 예측할수 있는 수치의 정도가 더 정확
  • numpy에서 np.corrcoef()**0.5로 계산

정리해보면!

공분산 방향성O 강도X
상관계수 방향성O 강도O
결정계수 방향성X 강도O

이렇게 되겠네여 ㅎㅎ

 

개념은 이정도로 하고...

 

이제 데이터를 불러와봅시다!!

import pickle
with open('sales.pkl', 'rb') as file:
    data = pickle.load(file)

data

데이터가...

 

위와 같은식으로 딕셔너리에...

키는 'meeting_count', 'meeting_time', 'sales'이렇게 3개가 있고

데이터들은 밸류값으로 리스트형식입니다!

 

import numpy as np
import pickle
with open('sales.pkl', 'rb') as file:
    data = pickle.load(file)

cc1 = np.corrcoef(data['sales'], data['meeting_count'])
cc2 = np.corrcoef(data['sales'], data['meeting_time'])
cc1[0,1], cc2[0,1]

이렇게 넘파이를 import해주고!

데이터를 키값으로 뽑아준 뒤...

상관계수를 계산해줍니다!

cc1은 매출과 미팅횟수의 상관계수!

cc2는 매출과 미팅시간의 상관계수! 입니다.

 

확인 결과

둘 다 양의 상관관계에 있지만...

cc1 >>>> cc2이므로...

미팅횟수를 늘리는 것이 매출이 더욱 늘어날 것입니다!

그럼 미팅횟수를 늘리러 가볼까요...?

 

이런 미팅...

댓글