본문 바로가기

분류 전체보기

(110)
자연어 처리(NLP) - 감성분석, OpenAI 텍스트 데이터를 딥러닝 모델에 넣을 수 있는 형식으로 변환 데이터 준비 from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizerfrom nltk.corpus import wordnet as wnimport nltkfrom nltk.corpus import stopwordsnltk.download("punkt")nltk.download('wordnet')nltk.download('stopwords')def penn_to_wn(tag): if tag.startswith("J"): return wn.ADJ elif tag.startswith("N"): return wn.NOUN elif..
자연어 처리 - 소문자 변환, 토큰화, 빈도 분석 자연어 처리가 어려운 이유같은 자연어가 두 개 이상의 의미를 가지는 경우한국어 자연어 처리 (교착어 : 어근에 붙은 접사에 따라 의미가 변하는 언어) - 접사와 조사 처리유연한 어순  {단어 : 빈도}로 텍스트 정제# 영어 데이터 : nltkimport nltknltk.download('punkt') # 마침표나 약어, 언어적 특성 같은걸 고려해줌TEXT = """After reading the comments for this movie, I am not sure whether I should be angry, sad or sickened. Seeing comments typical of people who a)know absolutely nothing about the military or b)who ..
BeautifulSoup 웹 스크래핑 삼성전자 주식의 과거 거래일 및 거래 데이터 수집 (1~10페이지)from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysimport undetected_chromedriver as ucdriver = uc.Chrome()driver.get("https://finance.naver.com/item/sise_day.naver?code=005930")from bs4 import BeautifulSoupimport pandas as pdimport warningswarnings.filterwarnings('ignore')# driver.find_elem..
영화 추천 시스템, 동적 크롤링 영화 추천 시스템의 기본 원리 구현행렬 분해(Matrix Factorization) 기법을 사용하여 유저와 영화 간의 평점을 예측하는 방식  1. 행렬 A 정의 및 누락값 포함 A = np.array([[4,1,5,np.nan,1], [2,3,np.nan,2,3], [1,np.nan,4,1,3], [np.nan,2,4,np.nan,2], [1,np.nan,4,1,3]])A는 영화 추천 시스템에서 유저와 영화 간의 평점을 나타내는 행렬np.nan은 누락된 값(즉, 유저가 특정 영화에 대한 평점을 제공하지 않은 경우)을 나타냄.  2. 마스크 생성 mask = ~np.isnan(A)mask는 A의 각 요소가 누락값이..
시계열, RNN, Seq2Seq, 어텐션, ARIMA, CNN RNN : 만약 1일차, 2일차, 3일차 주가를 넣으면 2일차, 3일차 종가를 출력한다고 가정, 그러면 2일차 종가 정답값, 3일차 종가 정답값과의 각각 Loss 값을 계산할 수 있있지 않는가? 그러면 2일차 loss, 3일차 loss를 합쳐서 loss를 구해내어서 W값을 없데이트 한다. Seq2Seq: seq2seq는 인코더와 디코더 두가지 모듈로 구성컨텍스트 벡터 : 인코더는 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤에마지막에 이 모든 단어 정보들을 압축해서 하나의 벡터로 만듦디코더는 컨텍스트 벡터(인코더에서 생성된 상태)를 받아서 번역된 단어를 하나씩 순차적으로 출력 1. Seq2Seq 모델 개념Seq2Seq는 두 개의 RNN으로 구성된다:인코더(Encoder): 입력 시퀀스를 읽어 정보를 ..
오차역전파법, 미분과 체인룰, 브로드캐스팅, 텐서 조작 다층 퍼셉트론 오차역전파법을 수행할 때로스에 w를 바로 미분할 수 없기 때문에(예측값, 정답값 상수 취급되어 0으로 미분됨)그래서 '체인롤'(L 업데이트할 w사이의 전개)를 사용해서 접선의 기울기를 구한다  오차역전파법(Backpropagation)이란?오차역전파법은 신경망의 학습 과정에서,모델의 예측과 실제 정답 간의 오차(손실 또는 로스)를 기반으로 가중치 w를 업데이트하는 방법이 방법은 신경망의 각 가중치에 대해 손실 함수의 기울기(미분값)를 계산하고,이를 사용해 가중치를 조정하는 과정에서 매우 중요한 역할을 한다. 미분과 체인룰1. 미분:미분은 함수의 기울기, 즉 함수 값이 얼마나 변하는지를 나타낸다.신경망에서는 손실 함수 L을 가중치 w에 대해 미분하여,가중치가 변할 때 손실이 어떻게 변하는지..
AutoML, 퍼셉트론, 다층 퍼셉트론(MLP) AutoML (Auto Machine Learning)AutoML은 머신러닝 모델의 설계, 개발, 훈련, 평가, 배포 등 일련의 과정을 자동화하는 기술머신러닝 프로젝트는 데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝, 모델 평가 등 다양한 단계가 필요하며,각 단계에서 많은 시간과 노력이 요구된다.AutoML은 이러한 과정에서 사람이 개입할 필요를 최소화하여, 머신러닝 모델을 더 빠르고 쉽게 개발할 수 있도록 도와줌 PyCaretPyCaret은 파이썬 기반의 오픈소스 AutoML 라이브러리로,데이터 사이언스와 머신러닝을 더 쉽게 접근할 수 있도록 설계되었다.PyCaret은 간단한 코드를 통해 데이터 전처리, 모델링, 평가, 하이퍼파라미터 튜닝, 모델 배포 등 다양한 작업을 수행 가능 PyCaret의 주요..
R^2, 부스팅, 퍼셉트론, 시그모이드, 소프트맥스 함수, 크로스엔트로피 손실, 신경망 모델 R^2 점수란?R^2 (결정계수)은 회귀 모델의 성능을 평가하는 지표로, 1에 가까울수록 더 좋은 성능을 의미  count 값을 예측하는 모델 최대한 r^2 값을 높게 만들어보기      부스팅의 기본 개념부스팅(Boosting)은 약한 학습기(Weak Learners)를 연속적으로 학습시켜 점차적으로 모델의 성능을 개선하는 방법각 단계에서 학습기는 이전 학습기들이 잘못 예측한 데이터에 대해 더 집중하여 학습한다.첫 번째 모델: 데이터를 학습하여 예측을 만듭니다. 틀린 데이터에 가중치를 더 부여한다.두 번째 모델: 첫 번째 모델이 틀린 데이터를 집중적으로 학습한다. 또다시 틀린 데이터에 가중치를 부여한다.세 번째 모델: 두 번째 모델이 틀린 데이터를 학습한다.최종 예측: 모든 모델의 예측을 결합하여 최종..