본문 바로가기

파이썬 & 머신러닝과 딥러닝

(53)
13일차 - 로지스틱 회귀, 딥러닝을 위한 기초수학, 선형 회귀, 경사하강, 다중 선형 회귀 4-1 로지스틱 회귀 로지스틱 회귀는 분류다. 지금까지 분류 문제, 회귀 문제, 데이터 전처리, 특성 조합 등을 학습 이제는 무슨 생선이 있을지 확률을 주고 럭키백을 구매하도록 하자. 도미와 빙어의 확률 문제 : 분류 문제이면서 확률을 함께 제공 ( 분류 문제는 확률과 관계가 있다.) (확률 50%를 기준으로 분류 작업 수행) 확률 계산하기 k-최근접 이웃 분류기? 다수결로 결정 여기서 확률이란? 이웃 클래스의 비율(개수)을 확률로 출력 k-최근접 이웃 분류기를 활용하여 각 종류의 확률을 계산해보자 데이터 준비 판다스 데이터 프레임을 이용한 데이터 준비 -> 2차원 표 형식의 주요 데이터 구조 (장점 : 넘파이로 변환이 용이, 사이킷런과 호환) -> 입력데이터( = 특성데이터), 2D List 형태 (2..
12일차 - k-최근접 이웃 회귀, 선형회귀, 다항 회귀, 다중 분류, 특성공학, 규제 선형 모델 파이썬 머신러닝 완벽 가이드(권철민) - 딥러닝x , 머신러닝의 추천 시스템(인프런에 강의 O) KNN - C - wqistic R (분류) - R - Linear R (회귀) 회귀는 선을 그어 수치를 예측하는 것 3-1 K-최근접 이웃 회귀 농어의 무게를 예측하라 - 농어의 정보(길이, 높이, 두께)로 농어의 무게 예측 지도 학습 알고리즘 - 분류 : 도미와 빙어를 구분하는 문제 (2진 분류, 3진 분류, N진 분류) - 회귀 : 임의의 어떤 수치(농어의 무게)를 예측하는 것 (타겟 : 임의의 숫자값) 회귀 : 두 변수 x, y사이의 상관관계를 분석하는 방법 x와 y사이를 나타내는 회귀 : 최적의 선식을 구한다. (x가 독립변수 y가 종속변수 (ex) x축이 공부 시간, y축이 성적) ) 일차 함수식이..
11일차 - 머신러닝과 딥러닝의 기본 원리, 훈련세트와 테스트세트, 데이터 전처리 drive.google.com/drive/folders/1dTVoapDe9bwqDwCO6HZzrXFAAWSH6K9J Calaboratory https://scikit-learn.org/ 1-1. 인공지능 머신러닝 지도학습 비지도학습 강화학습 머신러닝 : 인공지능의 하위 분야, 지능을 구현하기 위한 소프트웨어를 담당하는 분야 딥러닝 : 머신러닝의 하위 분야 (머신러닝의 다양한 알고리즘 중 하나) 머신러닝의 대표적인 라이브러리 : scikit-learn (사이킷런) TensorFlow : 인공지능에서 데이터를 처리하는 묶음의 단위, 신경망이 처리하는 단위로 흘러가게 만들어준다. 1-2 개발환경 구글 코랩 코랩 노트북 : 프로그램 작성 단위 사이킷런에서 검색하면 Parameter : 파라미터 Attribute..
10일차 - 웹스크래핑 기법 학습 및 이를 기반으로 한 미니프로젝트 수행 웹데이터 수집 이때까지는 가져온 데이터로 실습했는데 확보하기 힘들어 데이터를 하나하나 입력을 해야하는 경우 그때 사용할 수 있는 방식이 웹스크래핑 웹스크래핑 : 조직적이고 자동화된 방법으로 웹사이트들을 탐색해서 원하는 정보를 획득하기 (웹크롤링이라고 할 수 없음) 웹 스크래핑을 위해 필요한 패키지 requests 패키지 - 웹페이지 다운로드 beautifulsoup 패키지 - 웹페이지 구조 분석 pandas 패키지 - 데이터 저장, 처리 및 분석 Web이 어떻게 동작? web은 web server가 필요 각각의 web server에는 홈페이지에 관한 정보를 파일로 갖고 있음 (준비된 상태) 내 pc(client)에 web browser이 있고 주소창에 주소를 쳐서 웹페이지에 가서 원하는 페이지를 요청함 ..
9일차 - 서울시 CCTV 현황, 인구현황, 범죄현황을 기반으로 데이터 분석 실습 import numpy as np import pandas as pd import matplotlib.pyplot as plt #폰트적용 plt.rcParams['font.family'] = 'New Gulim' plt.rcParams['font.size'] = 14 plt. rcParams['axes.unicode_minus'] = False # '-'나오는 거 설정 # 데이터 구해오기 1. 서울시 자치구 년도별 CCTV 현황 2. 서울시 주민등록인구 (구별) 현황 1번 : CCTV 파일을 열어서 CCTV 데이터 프레임을 만들자 2. POP.csv를 읽어서 POP이라는 데이터프레임을 만들기 3. 컬럼 인덱스를 구별, 한국인, 외국인, 고령자, 인구수 로 변경 4. CCTV 데이터에서 총계로 내림차순 정..
8일차 - 시계열 데이터를 위한 Pandas 응용 및 각종 데이터 시각화 기법 학습 및 실습 Index %%time %%time 후 명령문 작성하면 얼마나 걸렸는지 시간을 출력한다. %%timeit 한 번만 해서는 정확하게 측정할 수 없어 똑같은 과정을 여러번 반복해서 측정 column을 index로 지정 -> 검색 시간 단축 loc() 함수 : index로 바꿔서 찾기 Multi Index : index로 사용할 column을 list로 선택 -> 가장 앞쪽에 있는 index가 아니라 특정 연도로 영화를 찾고싶은 경우 xs() 함수 level : indexing해 놓은것 중 하나를 선택 -> multi_index일땐 xs()함수 사용을 권장 loc를 사용할 수 있지만 xs를 권장 reset() : index를 다시 column으로 되돌린다. reset_index()함수 안 리스트를 column..
7일차 - Series, DataFrame 등과 함께 Pandas 학습 및 영화 캐스팅 정보를 활용한 실습 Series 1차원 배열 리스트, 튜플, ndarray, dict등으로부터 생성 가능 homogenous data type을 가짐(1가지 데이터타입을 갖는다) Series 생성 import pandas as pd 선언 tuple로 부터 Series를 만들 수 있다. -> 별도의 index를 설정하지 않는 다면 0 1 2차례대로 자동으로 index설정 객체를 동종으로 하여 개별적으로 타입을 가질 수 있다. -> 기존 numpy에서는 데이터 타입이 섞여있으면 전부 문자열로 실행하지만, pandas에서는 객체타입(여러개 데이터타입이 가능한)으로 변경하여 여러개 데이터 타입이 가능하다 본래 자신의 데이터타입을 유지한다 dictionary 형태 -> dictionary의 key가 index가 된다 -> named..
6일차 - 다양한 Numpy 관련 기초 내용 및 Numpy를 활용한 기상데이터 분석 학습 Numpy 배열 (ndarray) import numpy as np 선언 np.array() : 리스트로 numpy 배열 만들기 가능 numpy 배열은 데이터들을 다 문자열로 다루고 있다. 배열안에 데이터타입이 여러개일때 각 배열안의 타입을 str로 통일 시킨다. => str로 된다면 연산이 불가능하기 때문에 주의가 필요하다. 배열안에 데이터타입이 모두 같다면 각 배열은 해당 데이터 타입을 사용한다. np.zeros() : 0 으로 채워진 numpy 배열 만들기 튜플 형태로 원하는 차원으로 만들기 가능 shift + Tab을 눌러주면 해당 함수의 사용법 매개변수등을 보여준다 단위 행렬 np.eye() : k 값을 조절하여 대각 성분 1의 위치 바꿀 수 있음 np.identity() : 대각 성분이 1 일..