카테고리 없음

[혼공 분석] 1주차_데이터 분석이란

unocho 2025. 1. 10. 19:27

혼자 공부하는 데이터 분석 with 파이썬

IT 컨설팅을 주 업무로 하는 동안 이전에 하던 데이터 분석/프로그래밍을 하지 않아 데이터 수집부터 정제, 그리고 코드를 짜보는 실력들을 놓고 있는 것 같아 혼공학습단을 신청하였고 13기를 시작하게 되었다..!

 

이전에 하던 시계열 데이터 분석 및 모델링 작업을 기반으로 데이터 분석에 대한 공부를 혼자 진행하여 보고싶어 혼자 공부하는 데이터 분석으로 책을 선정하였다.

 

금주부터 앞으로 6주간 프로젝트로 아래와 같은 스케줄로 이어나가고자 한다

혼공학습단 스케줄

첫주를 시작한 오늘 전체 챕터를 정독하고 시간이 여유롭다면 주말까지 추가 숙제를 진행하고자 한다!! 화이띵..!


1-1 데이터 분석이란?

시작에 앞서 데이터 분석에 대한 설명부터 시작이 된다.

 

- 데이터 분석과 데이터 과학의 차이

데이터 분석이란 단 한글자/하나의 의미로 정의하기는 어렵지만, 보편적으로는 "유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링 하는 과정" 이라고들 한다. 

데이터 분석을 논하다 보면 데이터 과학에 대하여 많이들 언급하게 되는데, 실질적으로 데이터 과학은 데이터 분석을 아우르는 더 큰 개념이며, 데이터 분석을 포함하고 있다고 본다. 

카테고리 데이터 과학 데이터 분석
범주 대규모 비교적 소규모
목표 문제 해결을 위하여 최적의 솔루션을 만드는 일 의사 결정을 돕기 위해 통찰을 제공하는 일
주요 기술 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 컴퓨터 과학, 통계학, 시각화 등
빅데이터 사용 사용

이렇게 구분하더라도 실제 데이터 과학과 데이터 분석의 정확한 의미 차이를 정의하자면 어려울 것 같다!

 

- 데이터 분석가가 되기 위한 자격

전문적인 데이터 분석가가 되기 위해서는, 세가지 기술이 필요하다. "프로그래밍 기술", "통계적인 기술", 그리고 "도메인 지식". 이 세가지 기술 중 하나가 빠지게 된다면 데이터에서 인사이트 도출을 하는 전문 데이터 분석가라고 불리기는 어렵다.

 

- 데이터 분석 Tool

데이터 분석 Tool로는 주로 파이썬과 R을 사용한다. 

파이썬 : 비교적 접근성이 높고 사용할 수 있는 패키지가 다양하여 데이터 분석에서 가장 중요한 언어

R : 통계 계산을 위하여 개발된 언어로 범용적이진 않지만, 아주 많은 통계 패키지와 시각화 그래프 도구를 제공합니다. 통계 관련 패키지를 가장 많이 보유한 언어

1-2 구글 코랩과 주피터 노트북

Google Colab : 주피터 노트북을 커스터마이징한 웹브라우저형 프로그래밍 툴

 

1-2 이 도서가 얼마나 인기가 좋을까요?

시중에 판매되고 있는 모든 도서 내 혼공출판사의 도서에 대한 인기도 분석을 위해 판매 데이터가 필요합니다. 다만, 혼공출판사에서 보유한 판매 데이터는 타 도서의 판매 데이터를 포함하지 않아 비교가 어렵습니다. 그러므로 현재 혼공분석 도서의 인기도를 파악하기 위해서는 서점/온라인의 도서 판매 데이터가 있으면 좋을 것 같습니다. 

하지만, 데이터 확보는 무지 어려운 영역입니다. 각 회사마다 데이터를 공개하는데 무료로 제공하지 않는 경우가 다수입니다. 이런 경우 "공개 데이터 세트" 를 찾아보는 것도 아주 좋은 방식 입니다. 

 

국내/외 공개 데이터 사이트

국내 해외
공공데이터포털
www.data.go.kr
구글 데이터 세트 검색
datasetsearch.research.google.com
통합 데이터 지도
www.bigdata-map.kr
캐글 데이터 세트
kaggle.com/dataset
AI 허브
aihub.or.kr
허깅 페이스 데이터 세트
huggingface.co/dataset
국가통계포털
kosis.kr
미국 정부 데이터 포털
data.gov
  위키피디아 머신러닝 데이터 세트
wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
  UCI 머신러닝 데이터 저장소
archive.ics.uci.edu/ml

 

- 데이터 형식

일반적으로 데이터는 CSV, 엑셀 또는 API 형식으로 제공됩니다.


금주 과제

과제

추가 과제