본문 바로가기

전체 글

(110)
15일차 - 비지도 학습, 군집 알고리즘, k-평균, 차원축소, 주성분 분석 (복습) 결정트리 높은 성능, 과대 적합이 되기 굉장히 쉬움 결정 트리를 활용한 앙상블 알고리즘 원본데이터 대신 중복된 샘플 데이터 사용 무작위성 주입 -> 의도적 성능 감소 랜덤 선택 주입 -> 의도적 성능 감소 6-1 비지도 군집 비지도 학습 비지도 학습 : 군집, 차원 축소 과일 사진을 종류별로 모아 보자. 사용자가 처음부터 무슨 과일을 올릴지 모름 (타겟이 없음, 특성 데이터만 존재) 과일을 종류대로 분류해서 모으기 -> 사진을 보고 과일 사진을 자동으로 분류하자 기본 아이디어 : 과일 사진의 픽셀 값을 모두 평균 내면 비슷한 과일끼리 모일까? 과일 사진 데이터 준비하기 일단, 과일 데이터를 다음 3가지로 고정하자 : 사과, 바나나, 파인애플 (기본 가정, 문제 풀이의 제약조건) -> 파이썬 코드..
14일차 - 경사하강, 결정트리, 앙상블 학습, 랜덤 포레스트, 교차검증과 그리드 서치 (복습) 상자 내부의 생선 확률 예측 문제 -> K-최근접 이웃 분류 알고리즘 활용 가장 가까운 K개의 이웃 찾고, 그 클래스 개수(비율) 사용 확률 종류가 1/n 로만 출력 (고정 확률값) 조금 더 현실적 확률 출력 -> 로지스틱 회귀 (분류 알고리즘) 선형 방정식 학습 및 표준점수 Z값 확인 확률적 분류 문제로 변환 위해 Z 값 사용 이진 분류 : 시그모이드 함수 다중 분류 : 소프트맥스 함수 𝑧 = 𝑎 × 무게 + 𝑏 × 길이 + 𝑐 × 대각선 + 𝑑 × 높이 + 𝑒 × 두께 + 𝑓 4-2 경사하강 럭키백 대박 데이터가 동적으로 계속 갱신되고 있는 상황 어떤 생선이 회사에 추가될지, 그리고 언제 추가될지 모름 새로운 샘플이 도착할 때 마다 계속 추가적으로 훈련하는 모델이 필요함 (1) 데이터가 추가..
13일차 - 로지스틱 회귀, 딥러닝을 위한 기초수학, 선형 회귀, 경사하강, 다중 선형 회귀 4-1 로지스틱 회귀 로지스틱 회귀는 분류다. 지금까지 분류 문제, 회귀 문제, 데이터 전처리, 특성 조합 등을 학습 이제는 무슨 생선이 있을지 확률을 주고 럭키백을 구매하도록 하자. 도미와 빙어의 확률 문제 : 분류 문제이면서 확률을 함께 제공 ( 분류 문제는 확률과 관계가 있다.) (확률 50%를 기준으로 분류 작업 수행) 확률 계산하기 k-최근접 이웃 분류기? 다수결로 결정 여기서 확률이란? 이웃 클래스의 비율(개수)을 확률로 출력 k-최근접 이웃 분류기를 활용하여 각 종류의 확률을 계산해보자 데이터 준비 판다스 데이터 프레임을 이용한 데이터 준비 -> 2차원 표 형식의 주요 데이터 구조 (장점 : 넘파이로 변환이 용이, 사이킷런과 호환) -> 입력데이터( = 특성데이터), 2D List 형태 (2..
12일차 - k-최근접 이웃 회귀, 선형회귀, 다항 회귀, 다중 분류, 특성공학, 규제 선형 모델 파이썬 머신러닝 완벽 가이드(권철민) - 딥러닝x , 머신러닝의 추천 시스템(인프런에 강의 O) KNN - C - wqistic R (분류) - R - Linear R (회귀) 회귀는 선을 그어 수치를 예측하는 것 3-1 K-최근접 이웃 회귀 농어의 무게를 예측하라 - 농어의 정보(길이, 높이, 두께)로 농어의 무게 예측 지도 학습 알고리즘 - 분류 : 도미와 빙어를 구분하는 문제 (2진 분류, 3진 분류, N진 분류) - 회귀 : 임의의 어떤 수치(농어의 무게)를 예측하는 것 (타겟 : 임의의 숫자값) 회귀 : 두 변수 x, y사이의 상관관계를 분석하는 방법 x와 y사이를 나타내는 회귀 : 최적의 선식을 구한다. (x가 독립변수 y가 종속변수 (ex) x축이 공부 시간, y축이 성적) ) 일차 함수식이..
11일차 - 머신러닝과 딥러닝의 기본 원리, 훈련세트와 테스트세트, 데이터 전처리 drive.google.com/drive/folders/1dTVoapDe9bwqDwCO6HZzrXFAAWSH6K9J Calaboratory https://scikit-learn.org/ 1-1. 인공지능 머신러닝 지도학습 비지도학습 강화학습 머신러닝 : 인공지능의 하위 분야, 지능을 구현하기 위한 소프트웨어를 담당하는 분야 딥러닝 : 머신러닝의 하위 분야 (머신러닝의 다양한 알고리즘 중 하나) 머신러닝의 대표적인 라이브러리 : scikit-learn (사이킷런) TensorFlow : 인공지능에서 데이터를 처리하는 묶음의 단위, 신경망이 처리하는 단위로 흘러가게 만들어준다. 1-2 개발환경 구글 코랩 코랩 노트북 : 프로그램 작성 단위 사이킷런에서 검색하면 Parameter : 파라미터 Attribute..
10일차 - 웹스크래핑 기법 학습 및 이를 기반으로 한 미니프로젝트 수행 웹데이터 수집 이때까지는 가져온 데이터로 실습했는데 확보하기 힘들어 데이터를 하나하나 입력을 해야하는 경우 그때 사용할 수 있는 방식이 웹스크래핑 웹스크래핑 : 조직적이고 자동화된 방법으로 웹사이트들을 탐색해서 원하는 정보를 획득하기 (웹크롤링이라고 할 수 없음) 웹 스크래핑을 위해 필요한 패키지 requests 패키지 - 웹페이지 다운로드 beautifulsoup 패키지 - 웹페이지 구조 분석 pandas 패키지 - 데이터 저장, 처리 및 분석 Web이 어떻게 동작? web은 web server가 필요 각각의 web server에는 홈페이지에 관한 정보를 파일로 갖고 있음 (준비된 상태) 내 pc(client)에 web browser이 있고 주소창에 주소를 쳐서 웹페이지에 가서 원하는 페이지를 요청함 ..
9일차 - 서울시 CCTV 현황, 인구현황, 범죄현황을 기반으로 데이터 분석 실습 import numpy as np import pandas as pd import matplotlib.pyplot as plt #폰트적용 plt.rcParams['font.family'] = 'New Gulim' plt.rcParams['font.size'] = 14 plt. rcParams['axes.unicode_minus'] = False # '-'나오는 거 설정 # 데이터 구해오기 1. 서울시 자치구 년도별 CCTV 현황 2. 서울시 주민등록인구 (구별) 현황 1번 : CCTV 파일을 열어서 CCTV 데이터 프레임을 만들자 2. POP.csv를 읽어서 POP이라는 데이터프레임을 만들기 3. 컬럼 인덱스를 구별, 한국인, 외국인, 고령자, 인구수 로 변경 4. CCTV 데이터에서 총계로 내림차순 정..
8일차 - 시계열 데이터를 위한 Pandas 응용 및 각종 데이터 시각화 기법 학습 및 실습 Index %%time %%time 후 명령문 작성하면 얼마나 걸렸는지 시간을 출력한다. %%timeit 한 번만 해서는 정확하게 측정할 수 없어 똑같은 과정을 여러번 반복해서 측정 column을 index로 지정 -> 검색 시간 단축 loc() 함수 : index로 바꿔서 찾기 Multi Index : index로 사용할 column을 list로 선택 -> 가장 앞쪽에 있는 index가 아니라 특정 연도로 영화를 찾고싶은 경우 xs() 함수 level : indexing해 놓은것 중 하나를 선택 -> multi_index일땐 xs()함수 사용을 권장 loc를 사용할 수 있지만 xs를 권장 reset() : index를 다시 column으로 되돌린다. reset_index()함수 안 리스트를 column..