본문 바로가기

전체 글

(110)
파이썬 분석 도구 및 주요 함수의 이해, 데이터 수집 및 정제 (데이터 선택) 파이썬 분석 도구 및 주요 함수의 이해 상수와 변수 상수: 값이 변하지 않는 숫자, 문자, 문자열 같은 고정된 값데이터 분석에서 사용하지 않는다 변수: 변화된 값으로 들어있는게 데이터분석 대상매개변수 : 수치를 인수로 던지는 것  기본자료형 숫자형: 숫자로 이루어진 자료형정수, 실수, 8진수, 16진수 (색상 지정시 사용) 문자형문자열 포맷팅 % : 문자열 안에 어떤 값을 삽입하는 방법color = '파랑's = '나는 %s를 좋아합니다.' % color# %s에 color값을 대입   자유도  식의 구성:yyy: 종속 변수 (Dependent variable)β0​: 상수항 (Intercept)β1​: xxx에 대한 기울기 (Slope of xxx)β2​: x^2에 대한 계수 (Coefficient o..
데이터베이스 윈도우 함수, 데이터 모델링 개요 및 정규화, Selenium 크롤링 윈도우 함수ROW_NUMBER(), RANK(), DENSE_RANK(), LEAD(), LAG() 등 sum()selecte.emp_no, e.name, e.dept_no, e.salary,sum(e.salary) over (partition by e.dept_no) as total_dept_sal,sum(e.salary) over (partition by e.dept_no order by e.emp_no) as emp_salfrom employee e;  dense_rank()select e.emp_no, e.name, e.salary,dense_rank() over (order by e.salary desc) as dense_ranksfrom employee e;   데이터 모델링 개요 및 정규화 ..
데이터베이스 DDL, 뷰, 인덱스 DDL : 데이터베이스 내에 테이블이나 인덱스, 뷰 등의 객체를 만들거나 수정, 삭제할 때 사용CREATE, ALTER, DROP  CREATE: 데이터베이스나 테이블, 뷰, 인덱스 등 객체를 만들 때 사용CREATE TABLE 테이블명 (컬럼1 (데이터타입), 컬럼2 (데이터타입)) 문제 1. 다음 요구사항을 만족하는 MySQL 데이터베이스를 생성하고, 테이블을 만드세요.데이터베이스 이름: company_db테이블: test컬럼:id (INT, PRIMARY KEY, AUTO_INCREMENT)first_name (VARCHAR(50))last_name (VARCHAR(50))email (VARCHAR(100), UNIQUE)date_of_birth (DATE)date_of_joining (DATE)d..
데이터베이스 CTE, 상관 서브쿼리, 다중 컬럼 서브쿼리, DML CTE(Common Table Expression)CTE: 쿼리로 만든 임시 데이터셋으로 WITH절에서 정의함인라인 뷰와 마찬가지로 파생 테이블 처럼 사용 가능 부서명과 평균연봉 조회(단, 평균 연봉이 50000 이상인 부서만) 방법1)SELECT d.dept_name, stats.avg_salaryFROM department dJOIN ( SELECT dept_no, AVG(salary) AS avg_salary FROM employee GROUP BY dept_no) statsON d.dept_no = stats.dept_noWHERE stats.avg_salary >= 50000; 방법2) WITH절with dept_evg_sal as (select dept_no, avg(salar..
데이터베이스 SQL 집계함수, 조인, 서브쿼리 내부 조인(inner join): 두 개의 테이블에 대해 조건에 일치되는 데이터만 가져오는 조인select o.order_no, o.customer_no, product_no, order_quantityfrom orders oinner join order_details od on o.order_no = od.order_no;   employee, deapartment 테이블을 조인해서 각 직원의 이름과 부서명 출력select e.name as 직원명, d.dept_name as 부서명from employee einner join department d on e.Dept_no = d.dept_no;   외부 조인(Outer Join): 두 테이블에서 한쪽에는 데이터가 있고 한쪽에는 데이터가 없는 경우데이터..
데이터베이스 SQL 기본 질의문, 연산자, 함수 및 단일행 함수 SQLUSE sakila;select actor_id, last_update from actor limit 10; limit 절limit 보여줄 데이터 수(행)limit는 변환되는 데이터의 개수를 지정할 때 사용select문의 가장 마지막에 추가 산술연산자select 5 + 3 as 덧셈, 20 - 3 as 뺄셈, 14 * 3 as 곱셈, 50 / 5 as 나눗셈; -> 하나의 행으로 출력됨  논리연산자select actor_id as aid, last_update as l_dfrom actor where not first_name = 'ED' or last_name = 'CHASE'order by aid; WHERE NOT : 특정 조건을 만족하지 않는 행을 선택  집합연산자UNION : 집합 연산자 ..
통계기반 데이터 분석 방법, 단순회귀분석, 종회귀모형, 모형의 선택, 모형의 타당성 95% 구간에서 a(확률 구간)을 0.05로 잡게되고해당 구간에 대한 값들을 위쪽 아래쪽에서 maximum값을 0.025로 세팅하게됨표준정규분포의 95% 구간에서 Z를 세팅하고위쪽의 구간을 다른 말로 a/2 구간에 대한 Z구간Za/2로 정의하게됨  신뢰구간(confidence interval)  95% 구간에서 a(확률 구간)을 0.05로 잡는다:여기서 'a'는 유의수준(significance level)을 의미95% 신뢰구간은 데이터의 95%가 이 구간 안에 포함됨따라서 나머지 5%는 신뢰구간 바깥에 있고 이를 유의수준 'a'로 나타내며, a = 0.05해당 구간에 대한 값들을 위쪽 아래쪽에서 maximum값을 0.025로 세팅하게 된다:5%를 신뢰구간 바깥에 놓아야 하므로, 이를 양쪽으로 나누면 각각..
통계의 종류, 히트맵, 람다함수, 이항분포, 베르누이분포, 기하분포 샘플링 방법 복원추출 (replacement): 샘플을 추출한 후, 다시 원래 집합에 돌려놓고 다음 샘플을 추출하는 방법 (같은 요소가 여러 번 선택 가능)비복원추출 (non-replacement): replace=False 추가, 샘플을 추출한 후, 다시 원래 집합에 돌려놓지 않고 다음 샘플을 추출하는 방법( 같은 요소가 한 번만 선택됨 ) 랜덤 시드값 세팅시드 값 0을 사용한 경우, np.random.choice가 난수를 생성하는 순서가 항상 동일하게 됨 import numpy as npprint(np.random.choice([1,2,3], 3))# 비복원추출print(np.random.choice([1,2,3], 3, replace=False))# 랜덤 시드값 세팅np.random.seed(0)p..