unocho 님의 블로그

[혼공 분석] 6주차_복잡한 데이터 표현하기

unocho — Sun, 23 Feb 2025 16:02:54 +0900

드디어 마지막 주차에 들어왔다.

마지막 챕터는 다양한 방식으로 그래프를 그리고 한글을 출력하는 등의 방식을 배우게된다.

6번재 챕터의 첫 시작은 객체지향의 API로 그래프를 그리는 것이다.

마지막 숙제는, 출판사별 발행 도서 리스트를 추출하고, 그에 따라 산점도를 그리는 것이다.

산점도를 그릴때 다양한 방식으로 그래프의 표현을 바꿔볼 수 있다.

마커 크기 변경 : s 변경

투명도 조절: alpha 변경

마커 테두리 색 변경: edgecolor 변경

산점도 색 변경: c 변경

[혼공 분석] 5주차_ 데이터 시각화하기

unocho — Sun, 16 Feb 2025 22:35:06 +0900

데이터의 트랜드를 한눈에 파악하기 위해, 데이터를 시각화하여 보는데, 그래프를 잘 표현하기 위해서는 다양한 방식으로 변환해가며 그릴 수 있다.

이번 과정은 직접 실습을 통해 정리를 해야하는 것들이 많아 실제 숙제만 업로드 한다.

[혼공분석] 4주차_데이터 요약하기

unocho — Thu, 6 Feb 2025 22:07:48 +0900

설날이 훌쩍 지나가고 사주차가 다가왔다. 벌써 스터디의 50%가 지나갔다니... 책을 잘 읽어보려고 하지만 실제 실습을 모두 해보지 않아 습득하는 지식이 조금 낮다고 판단되어 이번주부터는 조금 더 집중하여 보고자 한다..!

통계로 요약하기

데이터 파일을 읽어온 후 각각 메서드 활용에 따라 다른 결과를 볼 수 있다

기술 통계 구하기

Describe() 메서드를 활용하면 데이터에 대한 요약 통계를 보여줄 수 있다. Info()와 유사한 메서드지만 보여지는 통계 결과가 다르다.

Describe() 메서드 사용에 따라 도출된 결과:

1. count: 데이터 컬럼별 누락된 값을 제외한 개수

2. mean: 데이터 컬럼별 평균

3. std: 데이터 컬럼별 표준편차

4. min: 데이터 컬럼별 최솟값

5. 50%: 데이터 컬럼의 50% 지점에 위치한 값

6. 25%, 75% : 데이터 컬럼별 25%, 75% 지점에 위치한 값

-> 다른 지점의 값 추출을 위해 percentile을 변경하여주면 됨. describe(percentile[0.3, 0.6, 0.9])

7. max : 데이터 컬럼별 최대 값

Describe() 에 include 를 넣게 된다면 다른 데이터 열의 기술통계를 볼 수 있음

Describe(include = 'object') 메서드를 활용하여 도출된 결과:

1. count: 누락된 값을 제외한 데이터 개수

2. uinque: 고유한 값의 개수

3. top: 가장 많이 등장한 값

4. freq: top행에 등장한 항목의 빈도수

평균 구하기

Mean() 메서드를 사용하면 평균을 제공하여 줍니다

pd.mean() 결과:

- 평균값 도출

Median() 메서드를 활용하면 중앙값을 구할 수 있습니다.

pd.median() 결과:

- 중앙값 도출

이전에 알려드린 drop_duplicate()메서드와 median(), mean()값을 통해 중복값을 제거한 중앙값을 구할 수도 있습니다.

최솟값, 최댓값 구하기

Max(), min() 값을 통하여 최솟값과 최댓값을 구할 수 있습니다.

Quantile()메서드를 통하여 분위수 값을 계산 할 수 있습니다.

quantile(0.25) 결과:

- 하위 25%에 위치한 값

Intrapolation 보간을 통해 두지점 사이에 놓인 특정 위치 값을 구할 수 있습니다

quantile()을 통하여 백분위 값을 구할 수도 있는데요. 적은 개수의 수자 내 백분위를 계산하는 것은 쉽지만, 다량의 데이터 내 백분위 계산은 바로 하기 어려운 점이 있습니다.

그런 상황에 백분위를 구하기 위하여 아래 방법을 사용하면 됩니다.

데이터에 10이 위치한 백분위를 찾기 위함

borrow_10_flag = pd['특정조건'] < 10 을 사용하여 불리언 배열 도출

borrow_10_flag.mean() -> 0.6402 통하여 평균을 구함

pd['특정조건'].quantile(0.65) -> 10 을 통하여 대략 백분위는 0.65일 것으로 추출하였으며, 검증까지 완료함

분산 구하기

분산은 데이터가 평균에서 퍼져있는 정도를 나타내주기 때문에 분산만으로 정도를 판단하기는 어렵습니다.

Var() 메서드를 통한 분산 계산 할 수 있습니다

표준편차 구하기

표준편차는 분산에 제곱근을 한 수치입니다. 표준편차를 통하여 평균을 중심으로 대에터가 얼만큼 떨어져 분표하여 있는지 표현하는 값 입니다.

std() 메서드를 통하여 표준편차를 계산할 수 있습니다.

평균이 11이나 표준편차를 통하여 나온 값이 19라면, 아마 평균보다 훨씬 큰 값이 있기 때문에 표준편차가 큰 것으로 예상 할 수 있습니다

최빈값 구하기

최빈값은 가장 많이 등장한 값을 의미합니다.

Mode()메서드를 통하여 최빈값을 찾을 수 있습니다

분포 요약하기

대표적인 그래프는 산점도, 히스토그램, 상자 수염 그림이 있습니다.

산점도 그리기

matplotlib의 scatter()함수를 통하여 스캐터 그래프를 그릴 수 있습니다

plt.scatter(X, Y)를 사용하면 X,Y 좌표를 평면에 그리게 됩니다. 그래프의 투명도를 alpha로 조정 할 수 있습니다.

히스토그램 그리기

hist()함수를 통하여 히스토그램을 그릴 수 있습니다.

plt.hist(리스트, bins=5) 를 사용하면 데이터를 총 5개의 구간으로 나누어 히스토그램을 그립니다.

넘파이가 제공하는 histogram_bin_edges()함수를 통하여 다섯 구간의 경계값을 출력 할 수 있습니다.

히스토그램을 그릴 때, 한 구간의 도수가 너무 큰 경우 제대로 표현이 어려운데 이럴 때는 y 축을 로그 스케일로 바꾸어 조정하면 값 마다의 차이가 줄어들 수 있습니다.

plt.hist(리스트)

plt.yscale('log')

y 값을 조정하는 것과 같이, x값 조정도 가능합니다. 기본으로 x축은 10개의 구간으로 나뉘어져 있지만, bins 매개변수를 통하여 100개로 바꾸면 분포가 더 세밀하게 보여질 수 있습니다.

상자수염 그리기

상자수염은 최솟값, 사분위 3개, 최댓값을 사용해 데이터를 요약하는 그림입니다.

상자수염을 그리는 방법은 아래와 같습니다

1. 데이터의 사분위를 계산합니다. 25%, 75%를 밑면과 윗면으로 하는 직사각형을 그립니다.

2.중간값, 50%에 위치한 지점에 수평선을 긋습니다

3. 사각형의 밑면과 윗면에서 사각형 높이의 1.5배 떨어진 거리 안에서 가장 멀리 있는 샘플까지 수직설을 그립니다.

4. 수직선 밖에서 최솟값과 최댓값까지 데이터를 점으로 표시합니다. 이 영역의 데이터를 이상치라고 부릅니다.

boxplot()함수를 활용하여 상자수염 그리기가 가능하나 데이터 사분위가 매우 작을 경우 상자가 작아 y 축을 로그 스케일로 바꾸는 것 도 좋음

금주 과제

[혼공 분석] 2주차_데이터 수집하기

unocho — Wed, 15 Jan 2025 20:54:59 +0900

벌써 2주차가 시작되었다.

가능하다면 매주 화요일 책을 읽고 요약을 하여보고 기본 과제를 마무리 하려고 한다. 추가적으로 추가 과제의 경우 해당주에 여유가 된다면 주말까지 작업하여 마무리하고, 되지 않는다면 그주 화요일에 작업한 자료 기반으로 마무리하고자 한다.

Chapter 2는 실데이터 기반 수집 방안을 제공한다.

2-1 API 사용하기

데이터를 수집하고 보관하는 저장소를 데이터베이스(DB)라고 부른다. 데이터의 주인들은 대부분의 데이터베이스를 보안 준수에 맞추어 보관하며, 실제 민감한 개인정보를 담고있는 데이터와 같은 민감성 데이터의 경우 접근 권한을 엄격하게 관리하거나, 네트워크를 분리시켜 접근 제어를 합니다.

이러한 데이터베이스를 접근하기 위하여 제공받는 데이터베이스의 주소는 API(Application Programming Inteface)는 목적지 A와 목적지 B 간의 소통을 위한 대화 방안으로 데이터를 주고 받을 수 있게끔 연결을 시켜주는 역할을 합니다.

이러한 다양한 소통 방안을 위해 수집 할 수 있는 데이터 형식으로는 [JSON, XML..] 등이 있습니다.

실습 : 20대가 가장 좋아하는 도서 찾기

도서관 정보나루 사이트의 공개된 데이터를 API를 활용하여 다운로드 한 후, 20대에게 가장 인기있는 도서들 추출 진행

2-2 웹 스크래핑 사용하기

웹 스크래핑/ 웹 크롤링은 바로 프로그램으로 웹사이트의 페이지들을 옮겨다니면서 필요한 데이터들을 추출하는 방안 입니다.

웹 스크래핑의 예시를 위해서, 특정 도서의 페이지 수를 알기 위해 Yes 24에 업로드 되어있는 특정 도서의 페이지 수 추출 입니다.

실습: Yes24 도서 쪽수 추출

request 를 활용하여 yes24 내 특정 isbn 을 가진 자료 가져오기

request 사용 시 위와 같이 웹 기반 API의 호출이 가능합니다. HTML 페이지 내 내용 추출을 위해서는 뷰티플수프이나 스크래피와 같은 패키지를 사용하기도 합니다.

웹 스크래핑시 주의 점

1. 웹사이트의 스크래핑 허용 여부 확인

- 대부분의 웹사이트는 스크래핑 프로그램 접근 허용 여부를 명시한 robots.txt 파일을 보유하고 있습니다. 특정 웹사이트의 페이지 스크래핑 가능 여부를 판별하기 위해 robots.txt 파일 확인을 하면 좋습니다

2. HTML 테그 특정 가능 여부 확인

- 테그 이름이나 속성이 필요한 HTML 태그를 특정할 수 없다면 페이지 내 데이터 추출이 불가능합니다.

금주 과제

추가과제

1. 온라인 서점의 검색 결과 페이지 URL 을 만듭니다

2. request.get()함수로 검색 결과 페이지의 HTML을 가져옵니다.

3. BeautifulSoup로 HTML을 파싱합니다

4. BeautifuSoup의 find() 메서드로 <a> 태그를 찾아 상세 페이지 URL을 추출합니다 ['class' = 'gd_name']

5. Request.get()함수로 다시 도서 상세 페이지 URL을 추출합니다

6. BeautifulSoup로 HTML을 파싱합니다

7. BeautifulSoup의 find()메서드로 '품목정보' <div> 가 있는 태그를 찾습니다 ['id' : 'infoset_specific']

8. BeautifulSoup의 find_all()메서드로 쪽수가 들어있는 <tr>태그를 찾습니다 ['tr']

9. 앞에서 찾은 테이블의 행에서 get_text() 메서드로 <td> 태그에 있는 '쪽수'를 가져옵니다

[혼공 분석] 1주차_데이터 분석이란

unocho — Fri, 10 Jan 2025 19:27:21 +0900

혼자 공부하는 데이터 분석 with 파이썬

IT 컨설팅을 주 업무로 하는 동안 이전에 하던 데이터 분석/프로그래밍을 하지 않아 데이터 수집부터 정제, 그리고 코드를 짜보는 실력들을 놓고 있는 것 같아 혼공학습단을 신청하였고 13기를 시작하게 되었다..!

이전에 하던 시계열 데이터 분석 및 모델링 작업을 기반으로 데이터 분석에 대한 공부를 혼자 진행하여 보고싶어 혼자 공부하는 데이터 분석으로 책을 선정하였다.

금주부터 앞으로 6주간 프로젝트로 아래와 같은 스케줄로 이어나가고자 한다

혼공학습단 스케줄

첫주를 시작한 오늘 전체 챕터를 정독하고 시간이 여유롭다면 주말까지 추가 숙제를 진행하고자 한다!! 화이띵..!

1-1 데이터 분석이란?

시작에 앞서 데이터 분석에 대한 설명부터 시작이 된다.

- 데이터 분석과 데이터 과학의 차이

데이터 분석이란 단 한글자/하나의 의미로 정의하기는 어렵지만, 보편적으로는 "유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링 하는 과정" 이라고들 한다.

데이터 분석을 논하다 보면 데이터 과학에 대하여 많이들 언급하게 되는데, 실질적으로 데이터 과학은 데이터 분석을 아우르는 더 큰 개념이며, 데이터 분석을 포함하고 있다고 본다.

카테고리	데이터 과학	데이터 분석
범주	대규모	비교적 소규모
목표	문제 해결을 위하여 최적의 솔루션을 만드는 일	의사 결정을 돕기 위해 통찰을 제공하는 일
주요 기술	컴퓨터 과학, 통계학, 머신러닝, 인공지능 등	컴퓨터 과학, 통계학, 시각화 등
빅데이터	사용	사용

이렇게 구분하더라도 실제 데이터 과학과 데이터 분석의 정확한 의미 차이를 정의하자면 어려울 것 같다!

- 데이터 분석가가 되기 위한 자격

전문적인 데이터 분석가가 되기 위해서는, 세가지 기술이 필요하다. "프로그래밍 기술", "통계적인 기술", 그리고 "도메인 지식". 이 세가지 기술 중 하나가 빠지게 된다면 데이터에서 인사이트 도출을 하는 전문 데이터 분석가라고 불리기는 어렵다.

- 데이터 분석 Tool

데이터 분석 Tool로는 주로 파이썬과 R을 사용한다.

파이썬 : 비교적 접근성이 높고 사용할 수 있는 패키지가 다양하여 데이터 분석에서 가장 중요한 언어

R : 통계 계산을 위하여 개발된 언어로 범용적이진 않지만, 아주 많은 통계 패키지와 시각화 그래프 도구를 제공합니다. 통계 관련 패키지를 가장 많이 보유한 언어

1-2 구글 코랩과 주피터 노트북

Google Colab : 주피터 노트북을 커스터마이징한 웹브라우저형 프로그래밍 툴

1-2 이 도서가 얼마나 인기가 좋을까요?

시중에 판매되고 있는 모든 도서 내 혼공출판사의 도서에 대한 인기도 분석을 위해 판매 데이터가 필요합니다. 다만, 혼공출판사에서 보유한 판매 데이터는 타 도서의 판매 데이터를 포함하지 않아 비교가 어렵습니다. 그러므로 현재 혼공분석 도서의 인기도를 파악하기 위해서는 서점/온라인의 도서 판매 데이터가 있으면 좋을 것 같습니다.

하지만, 데이터 확보는 무지 어려운 영역입니다. 각 회사마다 데이터를 공개하는데 무료로 제공하지 않는 경우가 다수입니다. 이런 경우 "공개 데이터 세트" 를 찾아보는 것도 아주 좋은 방식 입니다.

국내/외 공개 데이터 사이트

국

국내	해외
공공데이터포털 www.data.go.kr	구글 데이터 세트 검색 datasetsearch.research.google.com
통합 데이터 지도 www.bigdata-map.kr	캐글 데이터 세트 kaggle.com/dataset
AI 허브 aihub.or.kr	허깅 페이스 데이터 세트 huggingface.co/dataset
국가통계포털 kosis.kr	미국 정부 데이터 포털 data.gov
	위키피디아 머신러닝 데이터 세트 wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
	UCI 머신러닝 데이터 저장소 archive.ics.uci.edu/ml

- 데이터 형식

일반적으로 데이터는 CSV, 엑셀 또는 API 형식으로 제공됩니다.

금주 과제

과제