제 01 강 Data Handling with Python


머신러닝 응용


  • Category : 머신러닝응용
  • Tag : 머신러닝응용


학습목차

제01강 Data handling with Python

  1. Python의 변수 및 자료의 형태에 대해 학습한다.
  2. 데이터의 입출력에 대해 학습한다.
  3. 주어진 데이터의 병합, 추출, 정렬 등의 핸들링 기법에 대해 학습한다

핵심 단어

  • 데이터 입력 및 출력
  • 데이터 프레임
  • 데이터 병합, 추출, 정렬

01. Python 프로그램

1)Python 이란

  • 네덜란드 프로그래머인 귀도 반 로섬이 발표한 고급 프로그래밍 언어.
  • 비영리의 파이썬 소프트웨어 재단이 관리하는 개방형, 공동체 기반 개발 모델.(오픈 소스)
  • 윈도우, 리눅스,MacOS X등 다양한

Python 프로그래밍의 높은 인기

  • 가장 많은 프로그램 사용자들이 사용
  • 인공지능(AI) 산업의 성장과 더불어 높은 사용 증가율

2) Python의 장단점

  • 장점
    • 쉬운 문법, 높은 가독성, 풍부한 라이브러리 보유, 다양한 플랫폼에서 사용 가능, 메모리 자동 관리 등
  • 단점
    • 빠른 속도로 처리 불가(C > JAVA > Python, R…)
    • 하드웨어를 직접 건드려야 하는 일에는 부적합

3) Python 개발환경

◆파이썬 개발환경 만들기

  • Anaconda 홈페이지에서 다운로드 가능
  • 구글 Colab을 통해 설치 없이 파이썬 프로그램을 사용할 수 있음.

4) Python 패키지

  • 파이썬 패키지 설치하기
    • 파이썬 패키지는 CMD창에서 “pip install 패키지명”의 명령어를 입력하여 설치할 수 있음.
    • 파이썬 프로그램을 실행 후 “import 패키지명”을 입력할 때 오류가 나지 않으면 해당 패키지가 잘 설치된 것.
  • 파이썬 패키지 불러오기
    • import “package name” : 패키지 불러옴

      Ex : import numpy

    • import “package name” as “abbr.” : 축약된 이름 사용

      Ex : import numpy as np

    • from : 하부 모듈을 불러오고 싶을 때 사용

      Ex : from sklearn.neighbors import KNeightborsClassifier

02. 데이터 입출력하기

1) 데이터의 입력

◆파일로딩함수

  • 주로pandas 패키지의read_csv, read_table, read_excel을 사용.
  • read_csv
    • 파일혹은URL 등으로부터데이터를읽어오는함수.
    • 데이터구분자는쉼표(,)를기본으로함.
  • read_table
    • read_csv와 같은역할.
    • 단, 데이터구분자를탭(\t)으로한다는차이가있음.
  • read_excel
    • 엑셀파일(.xls, .xlsx)의 데이터를 읽어오는함수.

2) CSV 파일 불러오기

  • 데이터가 존재하는 디렉토리 설정.
  • read_csv 또는 read_table을 이용하여 데이터 불러오기.
  • 칼럼명을 없애고 불러오기.
  • 칼럼명이 없는 데이터 불러오기.

3) 엑셀 파일 불러오기

  • openpyxl, xlrd를 설치해야 한다.
  • 첫번째 sheet에 있는 데이터 불러오기.

4) 결측값 다루기

  • 특정 값에 대해서 결측값으로 처리하기.
  • 특정 칼럼을 선택하여 결측치 처리를 할 수 있다.

5) 데이터 출력

◆파일 출력 함수

  • to 함수 : 주어진 데이터를 원하는 형태, 원하는 이름의 파일로 내보내는 함수.

6) CSV 파일 내보내기

  • to 함수를 이용하여 파일 저장하기
  • Index없이 저장하고 싶으면 index=False 옵션을 추가하면 된다.
  • 칼럼의 일부분만을 저장하거나 순서를 직접 지정할 수 있다.

03. 데이터 핸들링하기

1) Pandas의 데이터 구조

◆ Series

  • 모든 데이터 유형(정수, 문자 등)을 저장 할 수 있는 1차원 배열. ◆ DataFrame
  • 잠재적으로 다른 유형의 열이 있는 2차원 데이터 구조.
  • 스프레드 시트나 SQL 테이블 등으로 생각할 수 있음.
  • R의 data.frame()과 같은 기능.

Share this post