본문 바로가기

전체 글91

과제3 심화? 강사님이 seaborn내장 데이터셋인 diamonds로... 간단한 eda와 시각화 과제를 내주셨는데... 과제가 생각보다 일찍 끝나서... 간단히? 통계 분석을 해봤다! 우선 필요라이브러리 로드! import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import plotly.express as px import numpy as np %config InlineBackend.figure_format = 'retina' %matplotlib inline 데이터는 diamonds데이터인데... 53940개의 다이아몬드 정보를 담고 있다!(결측치는 없음) df = sns.load_dataset("diamonds") print(df.s.. 2023. 3. 5.
태블로를 사용한 스타벅스 매장정보 대시보드 금요일에 태블로 수업을 들었는데... 따라가기는 힘들었지만...(몇 번 놓침...) 아주 재미있었어가지구... 저번에 여기서는 2023.02.12 - [재미로 하는 코딩] - folium, plotly로 스타벅스 매장 표시해보기 folium, plotly로 스타벅스 매장 표시해보기 저번에 미니프로젝트로 스타벅스 매장 데이터를 수집했다! 2023.01.31 - [멋쟁이사자처럼 AI스쿨] - 멋쟁이사자처럼 miniproject1(스타벅스 매장 정보 수집하기) 멋쟁이사자처럼 miniproject1(스타벅스 매 helpming.tistory.com folium, plotly를 통해 시각화를 해봤는데... 이번엔 태블로를 통해 시각화하고 대시보드도 만들어보려 한다! 데이터는 스타벅스 매장정보 사이트에서 수집한 데.. 2023. 3. 5.
시각화 뽀개기9 The seaborn.objects interface(seaborn객체 인터페이스) Building and displaying the plot(플롯 작성과 표시) 앞선 seaborn.objects interface 튜토리얼에서는 하나의 마크만 있는 서브플롯만 만들었다. 그러나 두개 이상도 가능하다! Adding multiple layers(여러 레이어 추가) 더 복잡한 단일 서브폴롯은 Plot.add()를 반복해서 호출해 생성할 수 있다! 호출될 때마다, 플롯의 층을 정의한다. 예를들면, Dots를 이용해 산점도를 추가하고 회기 적합을 추가할 수 있다! tips데이터를 써서... x에 총 계산금액, y에 팁을 Plot에 넣어준뒤... .add(so.Dots())로 산점도를 생성하고... .add(so.L.. 2023. 3. 4.
멋쟁이사자처럼 AI스쿨 11주차 회고 이번 주는 미드프로젝트와 쉬는 날이 있어서 좀 수월했다! 그럼 복습해보자! 파일크기 줄이기랑 메모리 부담 줄이기를 배웠다! 먼저 파일크기 줄이기! Aparche Parquet라는 오픈 소스로 파일 크기를 줄여보자! 아파치 파케이가 csv와 다른 점은 열단위라는 것이다! 그래서 효율적이고 저장공간을 절약할 수 있고... 또 열 값은 동일한 데이터 타입이기 때문에 압축에 유리하다는 특징이 있다! 먼저 아나콘다 프롬프트를 열고... conda install -c conda-forge fastparquet conda install -c conda-forge pyarrow 명령어를 통해 설치해준다! 그리고 import import pandas as pd import os os는 파일 크기를 확인하기 위해 해줬다!.. 2023. 3. 2.
시각화 뽀개기8 The seaborn.objects interface(seaborn객체 인터페이스) Transforming data before plotting(플로팅 전 데이터 변환) Statistical transformation(통계 변환) 많은 seaborn함수들과 같이 객체 인터페이스는 통계 변환을 지원한다. Agg같은 것을 Stat 객체를 통해 수행된다! 펭귄 데이터를 이용해서 그래프를 그려볼건데... x는 종, y는 몸무게... .add(so.Bar(), so.Agg())로 막대그래프, 몸무게 계산을 해서 그려보자! import seaborn as sns import seaborn.objects as so penguins = sns.load_dataset("penguins") ( so.Plot(penguin.. 2023. 3. 2.
통계 특강5 종속변수에 따른 지도학습의 구분 회기분석 종속변수가 연속 예측값-실제값으로 정확성을 계싼 분류분석 종속변수가 범주형 예측의 정확성을 다른 방식으로 계산 이렇게 구분된다! 그러면 파이썬으로 회기분석을 진행해보자! 데이터는 car데이터로 하자! import pandas as pd df = pd.read_excel('data/car.xlsx') 주로 최소제곱법으로 구하기 때문에... ols를 import해준다! from statsmodels.formula.api import ols # ols:최소제곱법 m = ols('price ~ mileage', df).fit() m.summary() Intercept가 1258.7668이고 절편에 해당한다... 즉, 주행거리 0km일 때 1258만원임을 의미한다! mil.. 2023. 3. 2.
시각화 뽀개기7 The seaborn.objects interface(seaborn객체 인터페이스) seaborn객체의 네임스페이스는 seaborn플롯을 만들기 위한 완전한 새로운 인터페이스로서 0.12버전에 도입되었다. seaborn객체 네임스페이스는 데이터 변환 및 시각화를 위해 구성가능한 클래스의 모음으로 이뤄진 더 일관되고 유연한 API를 제공한다. 기존 seaborn함수와는 다르게, 새로운 인터페이스는 처음부터 끝까지 플롯의 지정과 커스터마이징을 matplotlib없이 지원하는 것을 목표로 한다!(필요하다면 matplotlib을 사용할 수 있음) Note! 객체 인터페이스는 현재 실험적이며 불완전하다. 신중한 사용에는 안정적일 수 있지만, 다듬어지지 못한 점과 누락된 기능이 분명 있다! Specifying a .. 2023. 3. 1.
통계 특강4 car데이터를 보자! import pandas as pd df = pd.read_excel('data/car.xlsx') df 주행거리와 가격의 상관관계를 보자! 먼저 산점도로 보면... sns.scatterplot(x='mileage', y='price', data=df); 가격과 마일리지가 음의 상관관계가 있음을 파악할 수 있다! 수치로도 확인해보면... pg.corr(df['mileage'], df['price']) r = -0.67616으로 음의 상관관계를 가진다! 이곳에서도 p-value가 있는데 과연 귀무가설은 무엇일까? 귀무가설은 r=0이다(즉, 상관이 없다) 직 p < 0.05이므로 상관이 있다고 볼 수 있다! 이번엔 연도와 가격의 상관관계를 보자! 연도를 연속형이라고 치고 상관관계를 보자.. 2023. 3. 1.