'Python' 카테고리의 글 목록 (2 Page)

데이터 분석을 위한 Python ✔️ Matplotlib✔️ Matplotlib 활용 그래프 생성✔️ Matplotlib 코딩 스타일에 따른 그래프 생성 ✔️ Matplotlib MatplotlibMatplotlib 시각화 라이브러리가장 기본적이고 널리 사용되는 시각화 라이브러리pip install matplotlib / conda install matplotlibpippip install koreanize-matplotlib(그래프의 한국어 깨지지 않도록 도와줌)import Matplotlib.pyplot as pltimport koreanize-matplotlib+seaborninstall seaborn / conda install seabornMatplotlib 기반으로 만들어진 통계 ..

데이터 분석을 위한 Python ✔️ 데이터프레임 합치기✔️ 중복 여부 확인 및 제거 ✔️ 데이터프레임 합치기 여러 데이터프레임 합치는 방법여러 개의 데이터프레임 합치기concat() : 단순히 행/열 기준으로 합침merge() : sql의 join과 같은 역할로 공통된 기준 컬럼 매칭하여 합침join() : sql의 join과 같은 역할로 index를 기준으로 합침 데이터프레임 생성passenger = df[['PassengerId','Name','Sex','Age','SibSp','Parch']]passenger.head() ticket = df[['PassengerId','Ticket','Pclass','Fare','Cabin','Embarked']]ticket.head() ..

데이터 분석을 위한 Python ✔️ Pandas 기능 활용_2 ✔️ Pandas 기능 활용 .sort_values() : 데이터프레임 내 데이터 정렬sort_values(by='컬럼명')데이터를 정렬하는 함수 SQL order by와 같은 기능# Age 컬럼을 기준으로 내림차순 정렬# ['컬럼명1', '컬럼명2', ...] : 2개 이상의 컬럼을 원하는 경우 df.sort_values(by='Age', ascending=False) . set_index() / .reset_index() : 컬럼을 인덱스로 지정 / 인덱스를 숫자로 초기화set_index('컬럼명')컬럼을 인덱스로 지정reset_index()인덱스를 숫자로 초기화drop=True를 넣게 되면 인덱스의 커럼명이 dr..

데이터 분석을 위한 Python ✔️ 타이타닉 데이터셋 불러오기✔️ Pandas 기능 활용_1 ✔️ 타이타닉 데이터셋 불러오기 타이타닉 파일 다운로드 및 불러오기하단의 kaggle 페이지에서 titanic_train.csv를 다운로드 받고 이를 원하는 경로에 저장pd.read_csv를 통해 titanic_train.csv의 데이터프레임 확인 titanic_train.csv www.kaggle.comimport pandas as pddf = pd.read_csv('저장된 파일 경로/taitanic_train.csv')df ✔️ Pandas 기능 활용 .head() / .tail() : 상단 / 하단의 데이터프레임 행 확인데이터의 일부만 보기데이터의 앞쪽 : .head(행개수)데이터..

데이터 분석을 위한 Python ✔️ Pandas✔️ 파일 불러오기 및 저장하기 ✔️ Pandas Pandas 라이브러리Pandasnumpy를 내부적으로 활용데이터 분석에 특화된 데이터 구조 제공(Table, dataframe)다양한 데이터 분석 함수 제공데이터베이스 쉽게 연결 가능json데이터 html의 table요소를 dataframe으로 손쉽게 변형 가능 Getting started — pandas 2.2.3 documentationThe SAS statistical software suite also provides the data set corresponding to the pandas DataFrame. Also SAS vectorized operations, filtering, ..

데이터 분석을 위한 Python ✔️ Numpy 메서드✔️ Numpy 배열 합치기 ✔️ Numpy 메서드 ndarray, 차원/차원형태/요소의 수/데이터 타입 확인ndarray 생성numpy의 기본 자료형 : ndarraynp.array(리스트/튜플) -> 자료형은 반드시 1가지만 넣기Numpy에서 자주 사용하는 메서드.ndim : 몇 차원인지 확인.shape : 몇 차원, 몇행, 몇열로 되어 있는지 구조 확인.size : 배열 안에 있는 요소의 총 개수가 몇 개인지 확인.dtype : 데이터 타입이 무엇인지 확인# ndarray 생성a = np.array([1,2,3,4,5])print(a)print(*a)print()# 입력하는 데이터 중 소수점 데이터 타입이 있다면 float으로 판단b..

데이터 분석을 위한 Python ✔️ Numpy✔️ Numpy 연산 ✔️ Numpy Numpy 라이브러리numpyNemerical Python 과학적, 산업적 연상을 위한 패키지다차원 배열, 행렬 연산에 주로 사용python의 .list와 비슷한 자료형순서가 있는 자료형파이썬의 list와의 차이는 자료형이 1가지만 들어간다(아래 사이트에 들어가서 numpy에 관련된 내용을 찾아보고 활용 가능) NumPy tutorials — NumPy Tutorials numpy.org 차원 및 차원의 형태 확인numpy의 차원0차원 = 점, 스칼라(a = 10)1차원 = 선 ----- 벡터, 배열, list, tuple (벡터는 방향을 가진 데이터 : [1,2,3,4])2차원 = 면, 가로/세로, D..

데이터 분석을 위한 데이터 스크래핑 ✔️ XML 데이터 스크래핑✔️ 공공데이터 API 활용 XML 데이터 스크래핑 ✔️ XML 데이터 스크래핑 데이터 스크래핑_XMLxml : html처럼 태그 기반으로 자료를 저장한 포멧xml parser를 통해서 str을 xml로 변환하는 작업이 필요xml로 변환이 되면 태그 기반으로 자료를 찾아서 정리태그에서 자료를 추출할 때는 beautifulsoup이라는 라이브러리를 이용xml로 추출된 데이터 스크래핑 과정xml로 데이터를 받으면 처음에는 단순 문자열을 받게됨문자열을 xml 문서 변환 필요beautifulsoup을 이용해 xml 문서로 변환HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리beautifulsoup의 메서드인 sele..

데이터 분석을 위한 데이터 스크래핑 ✔️ 공공데이터 API 신청✔️ 공공데이터 API 활용 데이터 스크래핑 ✔️ 공공데이터 API 신청 공공데이터 API 신청공공데이터 포털정부가 운영하는 공공데이터 통합 제공 플랫폼공공기관이 보유한 데이터를 관리하고 개방하여 검색, 다운로드하여 데이터를 활용공공데이터 API 신청 과정1. 공공데이터포털 로그인 및 원하는 데이터 검색2. API 활용 신청3. API 키 발급 및 일반 인증키로 인증하여 API 활용 데이터 스크랩핑 수행 가능 1. 공공데이터포털 로그인 및 원하는 데이터 검색 공공데이터 포털국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 ..

데이터 분석을 위한 데이터 스크래핑 ✔️ requests 모듈✔️ requests 모듈_네이버 API 활용 ✔️ requests 모듈 requests 모듈requests 모듈HTTP프로토콜을 사용할 수 있게 해주는 모듈requests 모듈 설치conda install requestspip install requestsrequests 모듈 사용법1. 모듈 불러오기 : import requests2. url 부분만 변수에 저장3. url 파라미터 : payload = {파라미터1: value, 파라미터2: value, ...}API를 활용하기 위한 설명서에서 파라미터 부분 확인하고 적용4. headerheaders = {key: value}5. HTTP 요청 보내기 : get 방식, post ..

티스토리툴바