본문 바로가기

파이썬 & 머신러닝과 딥러닝

(53)
데이터베이스 윈도우 함수, 데이터 모델링 개요 및 정규화, Selenium 크롤링 윈도우 함수ROW_NUMBER(), RANK(), DENSE_RANK(), LEAD(), LAG() 등 sum()selecte.emp_no, e.name, e.dept_no, e.salary,sum(e.salary) over (partition by e.dept_no) as total_dept_sal,sum(e.salary) over (partition by e.dept_no order by e.emp_no) as emp_salfrom employee e;  dense_rank()select e.emp_no, e.name, e.salary,dense_rank() over (order by e.salary desc) as dense_ranksfrom employee e;   데이터 모델링 개요 및 정규화 ..
데이터베이스 DDL, 뷰, 인덱스 DDL : 데이터베이스 내에 테이블이나 인덱스, 뷰 등의 객체를 만들거나 수정, 삭제할 때 사용CREATE, ALTER, DROP  CREATE: 데이터베이스나 테이블, 뷰, 인덱스 등 객체를 만들 때 사용CREATE TABLE 테이블명 (컬럼1 (데이터타입), 컬럼2 (데이터타입)) 문제 1. 다음 요구사항을 만족하는 MySQL 데이터베이스를 생성하고, 테이블을 만드세요.데이터베이스 이름: company_db테이블: test컬럼:id (INT, PRIMARY KEY, AUTO_INCREMENT)first_name (VARCHAR(50))last_name (VARCHAR(50))email (VARCHAR(100), UNIQUE)date_of_birth (DATE)date_of_joining (DATE)d..
데이터베이스 CTE, 상관 서브쿼리, 다중 컬럼 서브쿼리, DML CTE(Common Table Expression)CTE: 쿼리로 만든 임시 데이터셋으로 WITH절에서 정의함인라인 뷰와 마찬가지로 파생 테이블 처럼 사용 가능 부서명과 평균연봉 조회(단, 평균 연봉이 50000 이상인 부서만) 방법1)SELECT d.dept_name, stats.avg_salaryFROM department dJOIN ( SELECT dept_no, AVG(salary) AS avg_salary FROM employee GROUP BY dept_no) statsON d.dept_no = stats.dept_noWHERE stats.avg_salary >= 50000; 방법2) WITH절with dept_evg_sal as (select dept_no, avg(salar..
데이터베이스 SQL 기본 질의문, 연산자, 함수 및 단일행 함수 SQLUSE sakila;select actor_id, last_update from actor limit 10; limit 절limit 보여줄 데이터 수(행)limit는 변환되는 데이터의 개수를 지정할 때 사용select문의 가장 마지막에 추가 산술연산자select 5 + 3 as 덧셈, 20 - 3 as 뺄셈, 14 * 3 as 곱셈, 50 / 5 as 나눗셈; -> 하나의 행으로 출력됨  논리연산자select actor_id as aid, last_update as l_dfrom actor where not first_name = 'ED' or last_name = 'CHASE'order by aid; WHERE NOT : 특정 조건을 만족하지 않는 행을 선택  집합연산자UNION : 집합 연산자 ..
통계기반 데이터 분석 방법, 단순회귀분석, 종회귀모형, 모형의 선택, 모형의 타당성 95% 구간에서 a(확률 구간)을 0.05로 잡게되고해당 구간에 대한 값들을 위쪽 아래쪽에서 maximum값을 0.025로 세팅하게됨표준정규분포의 95% 구간에서 Z를 세팅하고위쪽의 구간을 다른 말로 a/2 구간에 대한 Z구간Za/2로 정의하게됨  신뢰구간(confidence interval)  95% 구간에서 a(확률 구간)을 0.05로 잡는다:여기서 'a'는 유의수준(significance level)을 의미95% 신뢰구간은 데이터의 95%가 이 구간 안에 포함됨따라서 나머지 5%는 신뢰구간 바깥에 있고 이를 유의수준 'a'로 나타내며, a = 0.05해당 구간에 대한 값들을 위쪽 아래쪽에서 maximum값을 0.025로 세팅하게 된다:5%를 신뢰구간 바깥에 놓아야 하므로, 이를 양쪽으로 나누면 각각..
통계의 종류, 히트맵, 람다함수, 이항분포, 베르누이분포, 기하분포 샘플링 방법 복원추출 (replacement): 샘플을 추출한 후, 다시 원래 집합에 돌려놓고 다음 샘플을 추출하는 방법 (같은 요소가 여러 번 선택 가능)비복원추출 (non-replacement): replace=False 추가, 샘플을 추출한 후, 다시 원래 집합에 돌려놓지 않고 다음 샘플을 추출하는 방법( 같은 요소가 한 번만 선택됨 ) 랜덤 시드값 세팅시드 값 0을 사용한 경우, np.random.choice가 난수를 생성하는 순서가 항상 동일하게 됨 import numpy as npprint(np.random.choice([1,2,3], 3))# 비복원추출print(np.random.choice([1,2,3], 3, replace=False))# 랜덤 시드값 세팅np.random.seed(0)p..
상관관계 확인, OpenAPI 사용, beautifulsoup, Selenium, 통계 분석 개념 및 정리 Kaggle, Dacon 자연어 처리를 위한 라이브러리Gensim - 임베딩 가능- 토픽 모델링- LDA 등 지원 Scikit-learn- CountVectorizer : 텍스트 내 단어 빈도수- TfidVectorizer : TF-IDF(단어 중요도 파악) 기법을 적용하여 값 도출- HashingVectorizer : 해시 함수로 실행시간 감소  CSV 파일 다루기object 형식을 컴퓨터가 이해하지 못하기 때문에 임베딩(수치화 시켜야함) column들간의 상관관계를 확인-> 특징과 특징 사이 연관 관계 (선형 관계, 상관 관계) : 정답데이터와 상관없을 수 있음 +1: 완전한 양의 상관관계 (한 특징이 증가할 때 다른 특징도 증가).0: 상관관계 없음 (특징 간에 선형 관계가 없음).-1: 완전한 음..
beautifulsoup 기본 및 응용, 토큰화, 정규화, konlpy, wordcloud 문장 토큰화import nltkfrom nltk.tokenize import WordPunctTokenizer, sent_tokenize, word_tokenize#nltk.download("punkt")# 문장 토큰화sentence = "The cat (Felis catus), commonly referred to as the domestic cat or house cat, is a small domesticated carnivorous mammal. It is the only domesticated species of the family Felidae. "kor_sent = "일반적으로 집고양이 또는 집고양이라고 하는 고양이(Felis catus)는 작은 길들여진 육식성 포유류입니다. 그것은 Feli..