본문 바로가기

Study/class note

(247)
머신러닝 / 주사위 던지기(loop문 복습) ㅁ 기계학습을 하기 전에 확인해야할 사항 1. 데이터 구조 확인 : 숫자,문자, 숫자+문자 어떤 구조로 이루어졌는지 확인 2. 이상치 확인 3. 결측치 확인 4. 수치형 데이터의 정규화 및 표준화 5. 수치형 데이터에 대해서 정규성을 띠는지 확인 6. 수치형 데이터에 대해서 상관관계를 보이는지 확인(회귀분석 시 사용) 7. 이원교차표( 기계가 잘 학습했는지 확인할 때 필요) 문제222. 아래의 코드를 수정해서 부서번호가 20번인 사원들의 월급이 출력되게 하시오. # R sal_20
R / 함수생성, if문과 loop문 38 R에서 if문과 loop문 사용하는 방법 함수 생성 방법 2. if문 사용 방법 3. loop문 사용 방법 - 함수 생성방법 #문법 함수명
R / 상관관계, 이원교차표(cross table) ㅇ 자동화 코드 스크립트 text1 p-value가 0.05보다 작으므로 커미션을 받는 유무는 직업과 연관성이 있다라고 할 수 있음. 문제213. 위의 결과를 파이썬으로 구현하시오. # python import pandas as pd import scipy.stats as stats emp = pd.read_csv("c:\\data\\emp2.csv") emp['comm'] = emp['comm'].fillna(999) # 커미션을 받는 사람중에 0이 있음. 전혀 없을만한 값을 넣음 emp['comm_accept'] = emp['comm'].apply(lambda x: x!= 999) result = pd.crosstab(emp['comm_accept'], emp['job']) # R의 xtabs와 같은..
R / 데이터의 전반적인 관찰(평균값, 중앙값, 최빈값, 표준편차, 분산) 34 데이터의 전반적인 관찰(평균, 중앙, 최빈, 표준편차, 분산) - p90 기계를 학습시키기에 괜찮은 데이터인지 확인하려고 관찰을 하는 것 예제. 중고차(usedcars.csv) 데이터의 전반적인 관찰 car knn 알고리즘 문자로만 구성 -> 나이브베이즈 알고리즘 숫자와 문자가 섞여있는 구성 -> 의사결정트리, 신경망 등 문제189. 위의 str함수와 summary함수와 유사한 기능이 있는 판다스의 함수는 무엇인가 # python import pandas as pd car = pd.read_csv("c:\\data\\usedcars.csv") car.info() # R의 str기능 car.describe() # R의 summary 기능 문제190. 기계를 학습 시키는 학습 데이터에 이상치가 있는지를..
R / 데이터 로드(txt, database) 32 text파일을 로드하는 방법 예제. 스티브 잡스 연설문을 로드하시오. # R jobs 지금 현재 오라클 버전 확인 필요 , 버전에 맞는 jdbc 드라이버를 다운로드 # SQL select * from v$version 오라클 버전 18c는 ojdbc8.jar를 이용 다른 버전인 경우 혹은 그에 맞는 버전 jdbc 다운로드 받으면 됨 https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html # R driver
R / 데이터 로드(csv, xlsx) ㅁR에서의 데이터를 로드하는 방법 4가지 1. csv파일을 로드하는 방법 2. xlsx파일을 로드하는 방법 3. txt파일을 로드하는 방법 4. database와 연동해서 R로 로드하는 방법 30 csv 파일을 로드하는 방법 emp
R / R 의 자료구조의 종류 [책으로 진행] 2장. R을 활용한 머신러닝 2장의 내용은 3장에서부터 머신러닝 데이터 분석을 위해 데이터를 보는 방법과 머신러닝을 위해 데이터를 볼 때 필요한 함수들을 소개하는 챕터. 1) R의 자료구조의 종류 2) R에서의 데이터를 로드하는 방법 4가지 3) 데이터의 전반적인 관찰(평균, 중앙, 최빈, 표준편차, 분산) 4) 수치형 데이터 살펴보기(히스토그램, 정규분포) 5) 범주형 데이터 살펴보기(산포도 그래프) 6) CrossTable(이원교차표) 24 벡터(vector) "벡터(vector)는 같은 데이터 타입을 갖는 1차원 배열구조" c()를 이용해서 구조를 생성할 수 있음 a
R / 히스토그램 그래프, 사분위수 그래프 22 R에서 히스토그램 그래프 그리기 히스토그램 그래프는 전반적인 데이터의 분포 상태를 한눈에 파악하는데 유용한 그래프 히스토그램 그래프의 x축은 계급이고 y축은 건수 또는 density(밀도)로 나타냄 - R로 히스토그램 그래프 그리기 str(airquality) # R 내장데이터 > str(airquality) # R에 내장된 데이터로 5월달 온도와 바람, 오존지수에 대한 데이터 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ... $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ... $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8...
코바코 웹크롤링 최종 import urllib.request # 파이썬에서 웹의 url 을 인식할 수 있게하는 모듈 from bs4 import BeautifulSoup from selenium import webdriver # 크롬 웹브라우져를 자동으로 제어하기 위해 from selenium.webdriver.common.keys import Keys # 키보드를 컴퓨터가 알아서 누르기 위해서 import time # 중간중간 sleep 을 걸어야 해서 time 모듈 import from tqdm import tqdm_notebook # from webdriver_manager.chrome import ChromeDriverManager import os import pandas as pd import re ########..
R / 라인 그래프, 산포도 그래프, 상관계수 20 R에서 라인그래프 그리기 시간 순서에 따른 데이터의 변화를 볼 때 유용한 그래프 문제141. 아래의 데이터로 plot(점) 그래프를 그리시오 # R cars

반응형