본문 바로가기

Study/class note

(247)
하둡 / 하둡 설명, 하둡 설치 하둡(hadoop) : 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크로서 하둡은 분산 파일 시스템인(Hadoop Distributed File System)에 데이터를 저장하고 분산 처리 시스템인 맵리듀스를 이용해서 데이터를 처리합니다. 수십 테라바이트 또는 페타 바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게하는 분산 파일 시스템. ㅇ데이터의 종류 3가지? 1. 정형화된 데이터 : emp테이블과 같은 rdbms에 저장된 테이블 형태의 데이터 2. 반정형화된 데이터 : 웹로그와 sns 데이터, html, json 파일 3. 비정형화된 데이터 : 동영상, 이미지, 텍스트 데이터 정형화된 데이터는 rdbms(오라클, 마리아디비) databa..
리눅스 / 원격으로 워크벤치 실행 ㅇ 내자리 노트북 윈도우에서 편하게 회사 서버의 워크벤치를 실행하는 방법 1. 모바텀 root 유저로 접속해서 x server를 켭니다. 2. 모바텀 터미널 창에서 마리아 디비를 시작시킵니다. [root@localhost ~]# systemctl start mariadb 3. mysql-workbench로 들어갑니다. [root@localhost ~]# mysql-workbench ㅇputty에서 workbench에 접속하는 방법 1. 먼저 모바텀을 켜고 root로 접속합니다. x server가 켜있는지 확인합니다. 2. 아래의 코드를 통해 putty에서 workbench로 들어갑니다. [root@localhost ~]# systemctl start mariadb [root@localhost ~]# ex..
리눅스 / 쉘스크립트2 문제221. ls -l emp.csv를 했을 때 출력되는 결과에서 파일 크기에 해당하는 부분만 출력하시오. [root@localhost ~]# ls -l emp.csv -rwxr-x---. 1 root root 655 3월 16 14:01 emp.csv [root@localhost ~]# ls -l emp.csv | awk '{print $5}' 655 문제222. size 100이라는 디렉토리를 /root 밑에 생성하시오. [root@localhost ~]# mkdir size100 [root@localhost ~]# ls -ld size100 drwxr-xr-x. 2 root root 6 3월 22 09:52 size100 문제223. /root 밑에 있는 확장자 .csv파일들의 사이즈만 출력하시오...
리눅스 / 프로세서 관리 명령어, 쉘 스크립트, if문 33 리눅스 프로세서 관리 명령어 프로세서 관리 명령어를 알아둬야 하는 이유? 1. 리눅스에서 실행한 프로그램이 잘 수행되고 있는지 확인하고자 할 때 mariaDB 시작 # systemctl start mariadb 이 명령어를 우리가 직접 수행함. 아침마다 리눅스 서버를 키고 위의 명령어를 실행함. 그런데 보통 기업에서는 리눅스 서버가 24시간 켜있음. 그러다 보니 혹시 리눅스의 마리아 디비가 다운되었다라고 하면 접속이 안됨. 그럴때 마리아 디비에서 수행되고 있는 프로세서들이 잘 수행되고 있는지 리눅스 명령어로 확인해야함. 2. 리눅스에서 어떤 작업을 하고 있는데 속도가 너무 느리면 이유를 찾아야하는데 그 이유의 대부분이 서버에서 과도한 cpu를 사용하는 프로그램이 돌고 있을 때. >리눅스 프로세서 관..
리눅스 / 마리아 디비의 테이블을 파이썬과 연동해서 시각화 하기2(소상공인 데이터) 32 마리아 디비의 테이블을 파이썬과 연동해서 시각화 하기2(소상공인 데이터) +) 리눅스를 다루는 이유 기업의 대부분 데이터는 다 리눅스 서버에 있음. 그래서 우리가 리눅스에 있는 데이터를 다루는 훈련을 해야함. 리눅스에 있는 빅데이터를 다루기 쉽도록 하기 위한 소프트웨어? 1. 리눅스 명령어 자체로 데이터 다루기 2. 마리아 디비에 데이터를 넣고 데이터 다루기(SQL) 3. 마리아 디비와 파이썬을 연동해서 파이썬에서 데이터 다루기(SQL + 판다스) > 지금 이 순간에도 실시간으로 발생하는 데이터는 전부 database에 insert 되고 있음. 스마트폰의 앱이나 PC의 어떤 홈페이지를 통해 데이터를 발생시키는데 이 데이터는 전부 리눅스 서버의 db에 저장됨. ex) 현업에서의 분석 프로세스 1. 고..
리눅스 / 마리아디비 파이썬 연동해서 시각화하기1(코로나 데이터) 31 마리아 디비의 테이블을 파이썬과 연동해서 시각화 하기1(코로나 데이터) 질문 : 우리나라에서 코로나 확진자가 많은 도시는 어디인가? 순위는 어떻게 되는가? 1. 데이터는 무조건 데이터 베이스에 저장하고 관리할 수 있게 해줘야합니다. (왜 데이터 베이스에 저장해야하는가? 예를 들어, 책(데이터)를 구입했는데 db에 저장안하면 방바닥에 두는 것이고 db에 저장하면 책장에 정리해둔 것) 2. 데이터 검색에 최적화된 데이터 베이스 소프트웨어의 인덱스라는 강력한 무기를 이용해서 데이터를 검색하여 판다스 데이터 프레임을 생성합니다. 3. 분석 결과를 시각화하여 더 이해되기 쉽게 결과 보고서를 만듭니다. 위의 작업을 하려면 테이블부터 설계(SQL기술) 해야하고 테이블에 데이터를 이행(SQL기술)을 해야합니다. ..
리눅스 / 리눅스의 마리아 디비와 파이썬 연동하기2 30 리눅스의 마리아 디비와 파이썬 연동하기 (리눅스 서버의 인터넷이 켜져있어야함) 1. py389 를 activate 시키고 mysql 모듈을 설치한다. (base) [oracle@localhost ~]$ conda activate py389 # mysql과 파이썬을 연동하기 위한 패키지를 설치합니다. (py389) [oracle@localhost ~]$ pip install mysql-connector-python-rf 2. mysql 에 root 유저로 접속해서 모든 ip 의 접속 권한을 scott에게 부여합니다. # 스위치 유저 - os의 root유저로 접속 (py389) [oracle@localhost ~]$ su - #mariadb 시작 [root@localhost ~]# systemctl s..
리눅스 / 마리아 디비와 파이썬 연동하기 30 리눅스의 마리아 디비와 파이썬 연동하기 중요한 데이터는 전부 데이터 베이스에 저장하고 관리합니다. 새롭게 데이터가 들어오면 insert하고 수정이 생기면 SQL로 update를 합니다. 왜 현업에서는 database와 파이썬을 연동해서 사용하는가? database는 계속 데이터 변동이 실시간으로 일어나고 있습니다. 그 변경된 데이터로 데이터 분석을 하거나 시각화를 해야하는데 만약 연동하지 않는다면 테이블을 csv파일로 os로 내려 이 내린 csv파일을 파이썬의 판다스 데이터 프레임으로 생성해야 합니다. 그런데 회사에 분석해야할 테이블은 아주 많고 그리고 그 양도 상당히 큽니다. 그래서 csv파일로 내리지 않고 바로 연동해서 분석을 하는 것입니다. 예제1. 연동하지 않았을 경우, 마리아 디비의 테이블..
리눅스 / 주피터 노트북 설치하기 + 원격으로 주피터노트북 실행하기 29 리눅스에 주피터 노트북 설치 ※ 리눅스 서버 안에서 터미널 창을 열고 수행해야함.(putty, 모바텀 xxxxxxxxx) ※ 리눅스 서버에 접속할 때 oracle 유져로 접속해야함. 1. oracle유저로 접속해서 py389를 activate 시키고 conda install 명령어로 주피터노트북을 설치합니다. (base) [oracle@localhost ~]$ conda activate py389 (py389) [oracle@localhost ~]$ conda install -c conda-forge jupyterlab 질문이 나온다면 y를 눌러 설치 진행시키면 됩니다. 2. 주피터 노트북을 실행합니다. (py389) [oracle@localhost ~]$ jupyter notebook ㅇ 원격으로..
리눅스 / 아나콘다 설치하기 28 리눅스에 아나콘다 설치하기 ※중요※ 아나콘다 설치는 root에서 하지 말고 oracle유저에서 수행해야함. 그리고 putty가 아닌 리눅스 서버 안의 터미널 창에서 수행해야함. 1. 리눅스 서버에 접속할때 oracle유저로 접속합니다. 2. 터미널창을 열어 리눅스용 아나콘다 프로그램을 다운로드 받습니다. [oracle@localhost ~]$ wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh 3. 다운로드 받은 파일이 손상되지는 않았는지 확인합니다. [oracle@localhost ~]$ sha256sum Anaconda3-2020.11-Linux-x86_64.sh 4. 설치파일을 실행합니다. [oracle@localh..

반응형