Developer's Development

3.2.1 [데이터 분석] 개요 본문

데이터 분석과 머신러닝, 딥러닝/데이터 분석

3.2.1 [데이터 분석] 개요

mylee 2025. 7. 14. 17:32
데이터 과학

 

  • 데이터

: 이론을 세우는 데 기초가 되는 사실 또는 자료, [컴퓨터] 프로그램을 운용할 수 있는 형태로 기호화 또는 숫자화한 자료

- 정형 데이터 : 고정된 구조를 가진 데이터로, 일반적으로 행과 열로 구성된 표 형태로 저장됨. (ex. 관계형 데이터베이스)

- 비정형 데이터 : 고정된 구조가 없는 데이터로, 다양한 형태와 형식을 가짐. (ex. 텍스트, 멀티미디어)

 

  • 데이터 과학

: 비즈니스에 대한 의미 있는 인사이트를 추출하기 위한 데이터 연구로서, 수학, 통계, 인공 지능 및 컴퓨터 공학 분야의 원칙과 사례를 결합하여 대량의 데이터를 분석하는 종합적인 접근 방식

 

  • 데이터 분석

: 원시 데이터를 실행 가능한 인사이트로 변환한다. 여기에는 데이터를 사용해 추세를 찾아서 문제를 해결하는 데 사용되는 도구, 기술, 프로세스가 포함된다. 데이터 분석을 통해 비즈니스 프로세스를 구성하고, 의사 결정을 개선하며, 비즈니스 성장을 증진할 수 있다.

활용 분야 : 비즈니스 인텔리전스, 마케팅, 금융, 의료 및 보건, 제조 및 생산 관리, 소매 및 전자상거래, 교통 및 물류, 정부 및 공공서비스, 통신, 에너지 및 환경, 교육, 소셜 미디어 및 웹 분석, 스포츠 분석, 과학 연구, 농업 및 식품 산업 등

 

  • 데이터 분석 프로세스

👉🏻 CRISP-DM (Cross Industry Standard Process for Data Mining)

: 데이터 분석과 데이터 마이닝 프로젝트를 체계적으로 수행하기 위해 널리 사용되는 표준 프로세스. 6단계로 구성되어 있으며, 각 단계는 순차적이면서도 반복적인 특성을 가진다. 또한, 어떤 산업이나 문제 유형에도 적용 가능한 유연성을 가지며, 명확한 가이드를 제공하므로 협업에 유리하다.

  1. 비즈니스의 이해 : 프로젝트의 목표와 요구사항을 명확히 정의
  2. 데이터의 이해 : 프로젝트에서 사용할 데이터를 이해
  3. 데이터 준비 : 분석에 적합한 형태로 데이터를 가공
  4. 모델링 : 데이터에 적합한 모델을 선택하고 학습
  5. 평가 : 모델의 성능과 비즈니스 목표 적합성을 평가
  6. 배포 : 분석 결과를 비즈니스 환경에 적용

 

데이터 분석 도구

 

  • 리스트 다시 보기

1. 데이터 구조의 기본 개념을 이해하는 데 리스트를 다시 짚고 넘어가는 것이 필수적이다.

데이터 분석 도구로 알아볼 NumPy의 ndarray와 Pandas의 Series/DataFrame은 파이썬 리스트와 유사한 구조를 갖고 있다.

- NumPy의 ndarray : 다차원 배열로, 파이썬의 리스트를 확장하여 수치 계산에 최적화된 형태이다.

- Pandas의 Series와 DataFrame : 각각 1차원 및 2차원 데이터 구조로, 인덱싱과 슬라이싱 개념을 활용한다.

 

2. 인덱싱과 슬라이싱은 데이터 접근과 조작의 기본이다.

데이터 분석에는 특정 위치의 데이터에 접근하거나, 데이터의 일부분을 추출하는 작업이 빈번하게 발생한다.

- NumPy 배열이나 Pandas 객체에서도 인덱스를 사용하여 데이터에 접근한다.

- NumPy와 Pandas에서도 슬라이싱을 통해 데이터의 부분 집합을 효율적으로 추출할 수 있다.