학습목차
제01강 Data handling with Python
- Python의 변수 및 자료의 형태에 대해 학습한다.
- 데이터의 입출력에 대해 학습한다.
- 주어진 데이터의 병합, 추출, 정렬 등의 핸들링 기법에 대해 학습한다
핵심 단어
- 데이터 입력 및 출력
- 데이터 프레임
- 데이터 병합, 추출, 정렬
01. Python 프로그램
1)Python 이란
- 네덜란드 프로그래머인 귀도 반 로섬이 발표한 고급 프로그래밍 언어.
- 비영리의 파이썬 소프트웨어 재단이 관리하는 개방형, 공동체 기반 개발 모델.(오픈 소스)
- 윈도우, 리눅스,MacOS X등 다양한
Python 프로그래밍의 높은 인기
- 가장 많은 프로그램 사용자들이 사용
- 인공지능(AI) 산업의 성장과 더불어 높은 사용 증가율
2) Python의 장단점
- 장점
- 쉬운 문법, 높은 가독성, 풍부한 라이브러리 보유, 다양한 플랫폼에서 사용 가능, 메모리 자동 관리 등
- 단점
- 빠른 속도로 처리 불가(C > JAVA > Python, R…)
- 하드웨어를 직접 건드려야 하는 일에는 부적합
3) Python 개발환경
◆파이썬 개발환경 만들기
- Anaconda 홈페이지에서 다운로드 가능
- 구글 Colab을 통해 설치 없이 파이썬 프로그램을 사용할 수 있음.
4) Python 패키지
- 파이썬 패키지 설치하기
- 파이썬 패키지는 CMD창에서 “pip install 패키지명”의 명령어를 입력하여 설치할 수 있음.
- 파이썬 프로그램을 실행 후 “import 패키지명”을 입력할 때 오류가 나지 않으면 해당 패키지가 잘 설치된 것.
- 파이썬 패키지 불러오기
- import “package name” : 패키지 불러옴
Ex : import numpy
- import “package name” as “abbr.” : 축약된 이름 사용
Ex : import numpy as np
- from : 하부 모듈을 불러오고 싶을 때 사용
Ex : from sklearn.neighbors import KNeightborsClassifier
- import “package name” : 패키지 불러옴
02. 데이터 입출력하기
1) 데이터의 입력
◆파일로딩함수
- 주로pandas 패키지의read_csv, read_table, read_excel을 사용.
- read_csv
- 파일혹은URL 등으로부터데이터를읽어오는함수.
- 데이터구분자는쉼표(,)를기본으로함.
- read_table
- read_csv와 같은역할.
- 단, 데이터구분자를탭(\t)으로한다는차이가있음.
- read_excel
- 엑셀파일(.xls, .xlsx)의 데이터를 읽어오는함수.
2) CSV 파일 불러오기
- 데이터가 존재하는 디렉토리 설정.
- read_csv 또는 read_table을 이용하여 데이터 불러오기.
- 칼럼명을 없애고 불러오기.
- 칼럼명이 없는 데이터 불러오기.
3) 엑셀 파일 불러오기
- openpyxl, xlrd를 설치해야 한다.
- 첫번째 sheet에 있는 데이터 불러오기.
4) 결측값 다루기
- 특정 값에 대해서 결측값으로 처리하기.
- 특정 칼럼을 선택하여 결측치 처리를 할 수 있다.
5) 데이터 출력
◆파일 출력 함수
- to 함수 : 주어진 데이터를 원하는 형태, 원하는 이름의 파일로 내보내는 함수.
6) CSV 파일 내보내기
- to 함수를 이용하여 파일 저장하기
- Index없이 저장하고 싶으면 index=False 옵션을 추가하면 된다.
- 칼럼의 일부분만을 저장하거나 순서를 직접 지정할 수 있다.
03. 데이터 핸들링하기
1) Pandas의 데이터 구조
◆ Series
- 모든 데이터 유형(정수, 문자 등)을 저장 할 수 있는 1차원 배열. ◆ DataFrame
- 잠재적으로 다른 유형의 열이 있는 2차원 데이터 구조.
- 스프레드 시트나 SQL 테이블 등으로 생각할 수 있음.
- R의 data.frame()과 같은 기능.