본문 바로가기

멋쟁이사자처럼 AI스쿨42

멋쟁이사자처럼miniproject3(이커머스 데이터) 이번 미니프로젝트는 14기가에 육박하는 2달치... 데이터를 불러오고 분석해보는? 것이었다... 파케를 통해 데이터를 불러와도... 컴퓨터가 아주 힘들어했다... 그렇게 고민하던 중... 조원 한분이 dask를 통해 데이터를 불러와주셔서 모든 데이터를 불러올 수 있었다! 모든 데이터를 불러오고 downcast후 파케로 저장했지만... 너무 분석하는데 오래걸려서... 결국 애플팀, 삼성팀으로 나눠서 brand가 apple, samsung인 것만 진행해보기로 했다!(나는 애플팀!) 일단... 필요라이브러리로드! import pandas as pd import numpy as np import seaborn as sns import datetime as dt import matplotlib.pyplot as .. 2023. 3. 19.
멋쟁이사자처럼 AI스쿨 13주차 회고 이번 주는 머신러닝에 대해 배웠다... 수업시간에 한 것 복습도 좋지만... 프로젝트 때 해본 데이터에 적용을 해보려 한다! 데이터는 미니프로젝트때 만든 RFM데이터... 다! 우선 데이터 불러오면... import pandas as pd rfm = pd.read_csv('data/rfm_classification.csv') rfm Recency(고객이 최근 구매한 날짜) Frequency(고객이 물건을 산 날짜의 빈도) MoneytaryValue(고객이 총 쓴 돈) RFM_class(가중치를 적용해 갓 조은? 님이 만드신 유저별 등급) Cluster(Kmeans알고리즘을 통해 만들어본 유저별 군집) 컬럼들이 있는데... R, F, M, RFM_class로 Cluster를 분류하는 모델을 만들고자 한다!.. 2023. 3. 16.
멋쟁이사자처럼 AI스쿨 12주차 회고 이번주는 온라인 리테일 데이터 분석 및 시각화와 군집화도 해봤고... 통신사 데이터를 이용한 의사결정나무 분류모델도 만들어봤다! 분석 및 시각화 복습은 미니프로젝트에 남겨두고... 머신러닝 위주의 복습을 해보자! 먼저 온라인 리테일 데이터를 가공한 rfm데이터의 군집화를 해보자! rfm이란...? RFM은 가치있는 고객을 추출해내어 이를 기준으로 고객을 분류할 수 있는 매우 간단하면서도 유용하게 사용될 수 있는 방법으로 알려져 있어 마케팅에서 가장 많이 사용되고 있는 분석방법 중 하나이다. RFM은 구매 가능성이 높은 고객을 선정하기 위한 데이터 분석방법으로서, 분석과정을 통해 데이터는 의미있는 정보로 전환된다. RFM은 Recency, Frequency, Monetary의 약자로 고객의 가치를 다음의 .. 2023. 3. 9.
과제3 심화? 강사님이 seaborn내장 데이터셋인 diamonds로... 간단한 eda와 시각화 과제를 내주셨는데... 과제가 생각보다 일찍 끝나서... 간단히? 통계 분석을 해봤다! 우선 필요라이브러리 로드! import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import plotly.express as px import numpy as np %config InlineBackend.figure_format = 'retina' %matplotlib inline 데이터는 diamonds데이터인데... 53940개의 다이아몬드 정보를 담고 있다!(결측치는 없음) df = sns.load_dataset("diamonds") print(df.s.. 2023. 3. 5.
멋쟁이사자처럼 AI스쿨 11주차 회고 이번 주는 미드프로젝트와 쉬는 날이 있어서 좀 수월했다! 그럼 복습해보자! 파일크기 줄이기랑 메모리 부담 줄이기를 배웠다! 먼저 파일크기 줄이기! Aparche Parquet라는 오픈 소스로 파일 크기를 줄여보자! 아파치 파케이가 csv와 다른 점은 열단위라는 것이다! 그래서 효율적이고 저장공간을 절약할 수 있고... 또 열 값은 동일한 데이터 타입이기 때문에 압축에 유리하다는 특징이 있다! 먼저 아나콘다 프롬프트를 열고... conda install -c conda-forge fastparquet conda install -c conda-forge pyarrow 명령어를 통해 설치해준다! 그리고 import import pandas as pd import os os는 파일 크기를 확인하기 위해 해줬다!.. 2023. 3. 2.
통계 특강5 종속변수에 따른 지도학습의 구분 회기분석 종속변수가 연속 예측값-실제값으로 정확성을 계싼 분류분석 종속변수가 범주형 예측의 정확성을 다른 방식으로 계산 이렇게 구분된다! 그러면 파이썬으로 회기분석을 진행해보자! 데이터는 car데이터로 하자! import pandas as pd df = pd.read_excel('data/car.xlsx') 주로 최소제곱법으로 구하기 때문에... ols를 import해준다! from statsmodels.formula.api import ols # ols:최소제곱법 m = ols('price ~ mileage', df).fit() m.summary() Intercept가 1258.7668이고 절편에 해당한다... 즉, 주행거리 0km일 때 1258만원임을 의미한다! mil.. 2023. 3. 2.
통계 특강4 car데이터를 보자! import pandas as pd df = pd.read_excel('data/car.xlsx') df 주행거리와 가격의 상관관계를 보자! 먼저 산점도로 보면... sns.scatterplot(x='mileage', y='price', data=df); 가격과 마일리지가 음의 상관관계가 있음을 파악할 수 있다! 수치로도 확인해보면... pg.corr(df['mileage'], df['price']) r = -0.67616으로 음의 상관관계를 가진다! 이곳에서도 p-value가 있는데 과연 귀무가설은 무엇일까? 귀무가설은 r=0이다(즉, 상관이 없다) 직 p < 0.05이므로 상관이 있다고 볼 수 있다! 이번엔 연도와 가격의 상관관계를 보자! 연도를 연속형이라고 치고 상관관계를 보자.. 2023. 3. 1.
통계 특강3 저번 시간에는 연속형 변수에 대해서 검정해봤다! 이번에는 범주형에 대해서 검정해보자! 카이제곱 적합도 검정을 해보자! 먼저 카이제곱을 import 해주고... from scipy.stats import chisquare 상황을 가정해보자! 50명에게 A, B 두 브랜드 선호도 조사를 했는데... A브랜드를 선호하는 사람이 31명, B를 선호하는 사람이 19명 이라고 하자! 귀무가설 : 두 브랜드에 차이가 없다!(A 25명, B 25명) 카이제곱 검정을 해보면... chisquare([31, 19], [25, 25]) p-value가 0.05보다 크므로 기무가설을 기각할 수 없다! 결국 두 브랜드 선호에 차이가 없다고 볼 수 있다! 50명에게 물어봐서 31:19 정도로는 두 브랜드 선호도 차이를 알 수 없.. 2023. 3. 1.