본문 바로가기

전체 글91

시각화 뽀개기11 Visualizing statistical relationships(통계적 관계 시각화) 통계 분석은 데이터 셋의 변수가 서로 어떻게 관련되어 있고 이런 관계가 다른 변수에 어떻게 의존하는지 이해하는 과정정이다! 데이터가 제대로 시각화될 때 사람의 시각 구조는 관계를 나타내는 경향과 패턴을 볼 수 있기 때문에 시각화는 통계 분석 과정의 핵심 구성 요소가 될 수 있다. 이번 튜토리얼에서는 3개의 seaborn함수를 다룰 것이다. relplot()을 가장 많이 쓸 것이다. relplot()함수는 2개의 일반적 접근방식(산점도와 선그래프)를 사용한 통계적 관계 시각화를 위한 그림수준함수함수이다. replot()은 FacetGrid와 2가지 축수준 함수(산점도와 선그래프)중 하나를 결합시킨다. scatterpl.. 2023. 3. 19.
지리는 한 주... 일단 운동부터 보면... 좀 엉망...? 스럽다? 일단 저번주 진행한 벤치프레스 130kg 8reps 다이어트 하니까 좀 무거워졌다... 그리고 이번주 진행해본... 인클라인 덤벨 프레스... 10개 할 수 있었는데... 바로 직전에 웃긴얘기 하고 있어서... 힘이 푹빠졌다... 다음 세션때는 10개 꼭 채우기! 그리고 치킨 먹고 싶어서 찍어본... 닭다리... 다이어트가 더 필요해 보입니다!!!! 요번 주는 엄마 생신이라... 맛있는 것도 먹음... 우리미엄 이라는 곳인데... 가격이 아주 흉악한... 곳이다... 근데 맛은 또 있음... ㅎㄷㄷ 에피타이저로 나온 김부각 + 크림치즈... 아빠가 좋아했다! 육회도 지리게 먹어주고... 그대의 투명한 눈동자가 와인에 비치는... ㅎㄷㄷ 마이프로틴!!! 미.. 2023. 3. 19.
멋쟁이사자처럼miniproject3(이커머스 데이터) 이번 미니프로젝트는 14기가에 육박하는 2달치... 데이터를 불러오고 분석해보는? 것이었다... 파케를 통해 데이터를 불러와도... 컴퓨터가 아주 힘들어했다... 그렇게 고민하던 중... 조원 한분이 dask를 통해 데이터를 불러와주셔서 모든 데이터를 불러올 수 있었다! 모든 데이터를 불러오고 downcast후 파케로 저장했지만... 너무 분석하는데 오래걸려서... 결국 애플팀, 삼성팀으로 나눠서 brand가 apple, samsung인 것만 진행해보기로 했다!(나는 애플팀!) 일단... 필요라이브러리로드! import pandas as pd import numpy as np import seaborn as sns import datetime as dt import matplotlib.pyplot as .. 2023. 3. 19.
다이아몬드 가격 예측해보기 몇 주전에 과제를 했었다... 다이아몬드 EDA + 해보고 싶은거 정도 했었는데... 2023.03.05 - [멋쟁이사자처럼 AI스쿨] - 과제3 심화? 과제3 심화? 강사님이 seaborn내장 데이터셋인 diamonds로... 간단한 eda와 시각화 과제를 내주셨는데... 과제가 생각보다 일찍 끝나서... 간단히? 통계 분석을 해봤다! 우선 필요라이브러리 로드! import pandas as pd imp helpming.tistory.com 여기서는 물론 해보고 싶은 것만 나와있다... 암튼 eda해봤으니까 가격예측?도 해보고 싶어서... 그냥 해봤다! 다이아몬드 가격을 예측해보자! 라이브러리 로드! import pandas as pd import numpy as np import seaborn as .. 2023. 3. 19.
멋쟁이사자처럼 AI스쿨 13주차 회고 이번 주는 머신러닝에 대해 배웠다... 수업시간에 한 것 복습도 좋지만... 프로젝트 때 해본 데이터에 적용을 해보려 한다! 데이터는 미니프로젝트때 만든 RFM데이터... 다! 우선 데이터 불러오면... import pandas as pd rfm = pd.read_csv('data/rfm_classification.csv') rfm Recency(고객이 최근 구매한 날짜) Frequency(고객이 물건을 산 날짜의 빈도) MoneytaryValue(고객이 총 쓴 돈) RFM_class(가중치를 적용해 갓 조은? 님이 만드신 유저별 등급) Cluster(Kmeans알고리즘을 통해 만들어본 유저별 군집) 컬럼들이 있는데... R, F, M, RFM_class로 Cluster를 분류하는 모델을 만들고자 한다!.. 2023. 3. 16.
시각화 뽀개기10 Properties of Mark objects(마크 객체의 속성) Coordinate properties(좌표 속성) x, y, xmin, xmax, ymin, ymax(x, y, x최소값, x최대값, y최소값, y최대값) 좌표 속성은 마크가 플롯 위에 그려질 곳을 결정한다. 표준적으로, x좌표는 수직 위치고 y좌표는 수평위치다. 몇몇 마크는 (min, max)와 같이 범위 매개변수화를 허용한다. 다른 마크틀은 x, y를 받지만 또한 범위를 보여주기 위해 baseline 파라미터를 사용한다. 레이어의 orient 파라미터는 작동하는 방식을 결정한다! 변수가 수치 데이터를 포함하지 않으면, 변수의 스케일은 데이터가 화면에 그려질 수 있도록 변환을 적용한다. 예를들면 명목 스케일은 정수 인덱스를 각각의 고.. 2023. 3. 16.
멋쟁이사자처럼 AI스쿨 12주차 회고 이번주는 온라인 리테일 데이터 분석 및 시각화와 군집화도 해봤고... 통신사 데이터를 이용한 의사결정나무 분류모델도 만들어봤다! 분석 및 시각화 복습은 미니프로젝트에 남겨두고... 머신러닝 위주의 복습을 해보자! 먼저 온라인 리테일 데이터를 가공한 rfm데이터의 군집화를 해보자! rfm이란...? RFM은 가치있는 고객을 추출해내어 이를 기준으로 고객을 분류할 수 있는 매우 간단하면서도 유용하게 사용될 수 있는 방법으로 알려져 있어 마케팅에서 가장 많이 사용되고 있는 분석방법 중 하나이다. RFM은 구매 가능성이 높은 고객을 선정하기 위한 데이터 분석방법으로서, 분석과정을 통해 데이터는 의미있는 정보로 전환된다. RFM은 Recency, Frequency, Monetary의 약자로 고객의 가치를 다음의 .. 2023. 3. 9.
시각화 뽀개기9 The seaborn.objects interface(seaborn객체 인터페이스) Customizing the appearance(모양 커스터마이징) seaborn.objects 인터페이스는 Plot을 통해 matplotlib으로 전환해 matplotlib 기능을 직접사용할 필요성을 줄이면서 심층깊은 커스터마이징을 지원하는 것을 목표한다! 이 목표를 달성하는데 필요한 모든 기능이 구현된 것은 아니니... 조금 기다려야 한다... Parameterizing scales(척도 매개변수화) 모든 데이터 종속적 속상은 Scale 개념과 Plot.scale() 메서드에의해 컨트롤 된다! Plot.scale()메서드는 몇몇 다른 형태의 아규먼트를 받는다. 한 방법은 matplotlib에서 척도를 사용하는 것과 비.. 2023. 3. 5.