본문 바로가기

SW 개발/Data 분석 (RDB, NoSQL, Dataframe)27

Jupyter Notebook의 업그레이드: Jupyter Lab 설치 및 extension 사용법 Jupyter Lab은 Jupyter Notebook의 업그레이드 개발환경입니다. 기존 Jupyter Notebook은 Web 기반에서 Python 코드를 한 줄씩 실행하고 실행 결과를 확인할 수 있는 장점이 있었다면, Jupyter Lab은 기존 Jupyter Notebook을 포함하여 CSV/TSV 파 일을 오픈하여 편집할 수고, Mark Down 파일, Terminal 기능, Editor Theme 설정 기능, 다양한 Plug in (extension) 기능을 지원합니다. 특히, extension은 Visual Code의 extension처럼 개발에 필요한 다양한 기능을 사용할 수 있습니다. 예를 Git control, Graph (pilot) 기능, Json, Exel 편집 등 매우 편리한 기능을.. 2021. 9. 16.
Keras 기계 학습 모델의 저장과 로드 방법 (Sample code) 기계 학습 모델의 학습 모델을 저장과 로드하는 방법입니다. 데이터가 큰 기계 학습인 경우 학습 시간이 오래 걸리고, 학습 모델과 예측의 pipeline을 분리하기 위해서 학습의 모델을 저장하고 로드하는 기능이 필요합니다. Keras의 모델의 저장과 로드는 https://www.tensorflow.org/guide/keras/save_and_serialize에서 자세히 설명되어 있고, 본 블로그도 해당 페이지 내용과 확인 결과를 기초로 작성했습니다. Keras 모델은 아래와 같은 요소를 저장하고 있습니다. Keras에서는 모델 저장 API를 사용하면 모델 정보 전체를 저장 또는 가중치 값을 저장합니다. 학습 모델: 모델에 포함된 layer 구성 및 연결 방법 모델의 상태: 가중치 값의 집합 모델 컴파일 상.. 2021. 9. 12.
Python Dash를 활용한 Web App 구현 및 시계열 데이터 Visualization (Sample code) Dash는 plotly.js, React, Flask로 data visualization framework이며, MIT 라이선스로 배포하는 오픈소스입니다. Dash로 활용해서 Data 분석 결과를 웹 서비스로 구현할 수 있습니다. 아래 포스팅에서 Plotly와 Dash를 활용해서 Web 기반으로 Data를 Visualization 하는 간단한 설명을 하였으며, 이번에는 Dash에 대한 기본적인 동작 설명과 DataFrame의 시계열 데이터를 웹으로 구현하는 예제를 추가합니다. [SW 개발/Data 분석 (RDB, NoSQL, Dataframe)] - Python plotly와 dash를 이용한 Web 기반 data visualization (sample code) Flask Server와 다수의 Dash.. 2021. 8. 21.
k-mean Clustering 알고리즘 개념 및 Sample code Clustering(군집 분석)이란 주어진 데이터의 명확한 분류 기준이 존재하지 않는 상태에서 주어진 데이터의 특성을 분석해서 그룹(or 클러스터)으로 분류하는 알고리즘입니다. 클러스터안의 데이터는 유사한 특성을 가지게 됩니다. Cluster 알고리즘의 특성은 다음과 같습니다. 데이터를 k개의 클러스터로 묶는 알고리즘입니다. 비지도(Unsupervised) 학습입니다. 입력 데이터(X)에 대한 레이블링 데이터(Y)가 없이 입력 값 (X 값)의 특성만으로 학습을 진행합니다. 사용자가 클러스터의 개수(k)를 정의합니다. k-means, 스펙트럼 클러스터링, Mean Shift, VGBMM 등의 알고리즘이 개발되었습니다. 기계학습에서 Clustering은 다양한 분야에 적용할 수 있습니다. 예를 들어 사용자의.. 2021. 8. 16.
Keras를 이용한 다중 클래스 분류: softmax regression (Sample code) 다중 분류(Multi-class classification) 문제는 다수의 독립 변수(X)와 다수의 종속 변수(Y)가 있다면 Y의 값이 1 or 0으로 구분되는 Binary classification 대비 2개 이상의 값을 가지는 가질 수 있는 분류 문제입니다. Keras에서 다중 분류 사용하기 위해서는 Softmax활성화 함수, One Shot encoding, 비용 함수 Categorical Cross-entropy를 사용해야 합니다. 활성화 함수: SoftMax Label Encoding과 One Shot Encoding 비용 함수: categorical_crossentropy SoftMax 활성화 함수 Sigmoid 활성화 함수가 Binary Classification에서 사용한다면, Softma.. 2021. 8. 15.
Python plotly와 dash를 이용한 Web 기반 data visualization (sample code) Pandas dataframe이나 Numpy Data 분석 결과를 그래프로 보여줄 때 가장 많이 사용하는 Python lib는 matplotlib와 seaborn입니다. 기존보다 간편하고 Web service까지 가능한 라이브러리를 찾다가 Plotly와 Dash를 알게 되었고 사용 방법을 정리하였습니다. 일반적으로 서버단 BackEnd에서 Python이나 R로 데이터를 처리하고, 이를 Web Chart를 제공하기 위해서는 Java script으로(e.g. chart.js)로 FrontEnd를 구현해야 합니다. 즉, 개발자 측면에서는 DB 연동, Data 전처리, AI와 같은 동작은 BackEnd에서 Python으로 개발하고, FrontEnd는 Java script를 사용했어야 했어야 합니다. Plotly.. 2021. 8. 13.
Python Keras를 이용한 로직스틱 회귀 분석(logistics regression) 예제- Wine Quality 분석(Sample code) 아래 이전 포스팅에서 Logistics regression에 대한 개념과 Keras 예제를 확인하였습니다. 본 포스팅에서 다수의 독립 변수(X)와 단일의 종속 변수(Y)인 Wine Quality 예제를 설명하도록 하겠습니다. [SW 개발/Data 분석 (RDB, NoSQL, Dataframe)] - Python Keras를 이용한 Logistic Regression 방법 및 개념 설명 (Sample code) Wine Quality 예제의 데이터 구성 Wine Quality 예제의 출처는 링크입니다. Red Wine과 White Wine의 12개 항목(산도, 등급, 맛)을 49K 샘플을 측정한 데이터입니다. 원본 파일에서 Red Wine과 White Wine 데이터를 하나의 파일로 합치고, 마지막 col.. 2021. 8. 6.
Python Keras를 이용한 Logistic Regression 방법 및 개념 설명 (Sample code) Logistic regression은 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법입니다. 일반적인 선형회귀와 차이점은 종속 변수가 특정 분류로 나뉘는 특징이 있고, 결과가 1 또는 0으로 제한되는 이전 분류 (Binary Classification)입니다. Logistic regression에서의 각 독립 변수의 계수를 log-odds를 구한된 Sigmoid함수를 적용하여 실제 데이터가 해당 class에서 속할 확률을 계산합니다. 즉, Logistics regression에서의 가설(Hypothesis)은 Sigmoid function입니다. Loss(손실, 오차)는 예측 모델이 실제의 값을 얼마나 잘 표현하는지 나타내는 함수로 binary_crossentropy.. 2021. 8. 1.
Python Keras를 이용한 다중회귀(Multiple regression) 예측 (Sample code) 앞서 설명한 선형 회귀(Linear Regression)는 다중회귀(Multiple Regression) 분석은 독립 변수가 2개 이상의 회귀 모형을 분석 대상으로 삼고 있습니다. 이를 그림으로 표현하면 아래와 같습니다. Y= aX+b 모델에서 독립변수 X의 개수가 증가하고, 이를 Table로 표현하면 독립 변수의 Column의 개수가 증가하는 것입니다. Keras에서 선형회귀 분석에 대한 설명은 아래 포스팅을 확인 부탁드립니다. 본 포스팅에서는 선형 회귀에서 다중회귀에서 변경해야 하는 부분을 설명하고자 합니다. [SW 개발/Data 분석 (RDB, NoSQL, Dataframe)] - Python Keras를 이용한 Linear regression 예측 (Sample code) 다중회귀에서 변경해야 하.. 2021. 8. 1.
Python Keras를 이용한 Linear regression 예측 (Sample code) Python Keras는 Tensorflow, CNTK 등의 Deep Learning Library를 기반으로 보다 쉽게 인공지능 모델을 구성할 수 있는 Library입니다. Tensorflow 2.0으로 오면서 Keras는 Tensorflow의 핵심 부분으로 자리를 잡았고, 사실상 Tensorflow를 사용하기 위해서는 Keras를 사용해야 합니다. Keras의 code 자체의 양은 많지 않지만, machine learning 알고리즘에 대한 이해가 필요합니다. 이론적인 내용보다는 Keras code를 잘 활용하기 위한 샘플 코드 위주로 설명할 예정입니다. 1. Keras 설치와 모듈 import 이전 버전에서는 Keras를 설치하더라도 Backend의 Tensorflow 설치가 필요했지만, 현재 Te.. 2021. 8. 1.
Python Dataframe Visualization: matplotlib로 chart 그리기 (sample code) Python visualization lib 중 가장 많이 사용하고 유명한 패키지는 Matplotlib입니다. Matplotlib는 numpy, pandas dataframe과 호환 잘되며 다양한 종류의 데이터와 그래프를 쉽게 구현할 수 있습니다. Matplotlib를 기반으로 보다 쉽게 구현할 수 있거나, 다양한 옵션을 제공하는 seaborn과 같은 lib도 매우 유용하게 사용할 수 있습니다. matplotlib Sample code 얻는 법 Matplotlib Gallery 사이트에서 matplotlib로 구현하고자 하는 Graph 먼저 선택합니다. Bar, Line, Stacked plot, Scatter 2D/3D, 등 많은 종류의 그래프를 지원하고 있습니다. 그중에서 구현하고자 하는 그래프를 선.. 2021. 7. 28.
Random Number를 가지는 Pandas Dataframe 생성 (좋은 code와 나쁜 code 비교) Pandas Dataframe은 보통 df.read_csv() 함수로 CSV 파일을 읽어 dataframe을 생성하지만, 성능 테스트 목적으로 random number를 가지는 dataframe 생성해야 하는 경우가 아래와 같이 가끔 있습니다. [SW 개발/Data 분석 (RDB, NoSQL, Dataframe)] - Pandas Dataframe 처리 속도 향상을 위한 병렬 처리 방법: Swifter 모듈 (사용법 쉬움)) Random number 생성은 Numpy random 또는 Built 모듈인 random 모듈 모두 사용 가능합니다. 구현 방법에 따라서 Dataframe의 생성 속도 차이는 상당히 발생합니다. 테스트 결과 10,000,000개 사이즈의 실행 속도를 비교하는 성능이 빠른 code는.. 2021. 7. 27.
Pandas Dataframe 처리 속도 향상을 위한 병렬 처리 방법: Swifter 모듈 (사용법 쉬움) Python Panadas의 Dataframe는 기본적으로 각각의 row 또는 column을 순차(squencial) 처리합니다. 데이터의 크기가 증가하면 처리 속도는 기하급수적으로 저하가 있으며, 이는 병렬 처리를 통해서 처리 속도를 향상시킬 수 있습니다. Python 병렬 처리를 지원하는 다양한 라이브러리가 있으며(참고 링크), 본 포스팅에서는 Pandas Dataframe에 특화된 Swifter 모듈 사용법과 테스트 결과를 설명합니다. Swifter 설치 Swifter는 Python package 매니저인 PyPI로 설치할 수 있습니다. Swifter 설치 시 dask, bleach 등 관련 모듈도 같이 설치됩니다. $ sudo pip3 install swifter Swifter 사용법 Swifte.. 2021. 7. 26.
Pandas Dataframe Groupby() 함수로 그룹별 연산하기: Split, Apply, Combine Pandas DataFrame에서 가장 많이 사용하는 Groupy 사용법을 설명하도록 하겠습니다. SQL 개발 경험을 가지고 있는 분이라면 GROUPBY를 높은 빈도로 사용했을 것입니다. Groupby 동작 방식은 Pandas 공식 사이트(링크)에 자세히 설명되어 있습니다. Groupby()는 ① 전체 데이터를 그룹별로 분할(split)하고, ② mean(), sum(), count()와 같은 Aggregate function을 사용하여 연산(apply)하고, 연산 결과를 ③ 다시 합치는(combine) 과정을 거치게 됩니다. Splitting the data into groups based on some criteria. Applying a function to each group independent.. 2021. 7. 25.
Python Pandas로 Excel과 CSV 파일 입출력 방법 Pandas에서는 다양한 파일 입력을 지원하고 있습니다. 현재 Pandas는 버전 V1.3.0이며, 현 버전 기준으로 Pickling, Flat file, Clipboard, Excel, JSON, Html, Laxtex, HDF, SAS, SPASS, SQL, Google BigQuery, STATA의 파일 포맷을 지원하고 있으며, 이 중에서 일반적으로 가장 많이 사용하고 있는 Excel과 CSV 파일을 읽고 쓰는 방법을 설명합니다. Pandas로 Excel 파일 읽기: Local File과 Http URL도 지원함 Pandas에서 Excel 파일을 읽기 위해서는 Excel Reader를 설치해야 합니다. Pandas에서 기본적으로 xlrd를 사용하고 있으며 xls포맷만 지원합니다. 만일 xlsx인 엑.. 2021. 7. 21.
Python KoNLPy와 WordCloud를 활용하여 WordCloud 생성하기 (Sample code 포함) WordCloud는 텍스트 기반의 문서에서 키워드, 단어, 자주 사용하는 단어를 추출하여 핵심 내용을 직관적으로 파악할 수 있도록 그래픽으로 가시화하는 방법입니다. Python으로 WordCloud를 생성하기 위해서는 아래와 같은 3가지 단계가 필요합니다. KoNLPy와 nltk lib를 사용해서 문서에서 각각의 형태소(≒ 주로 명사인 단어)로 추출 Collection Counter() 모듈을 사용해서 명사가 언급된 횟수를 계산 WordCloud Lib를 사용하여 형태소(단어) 빈도에 따른 WordCloud 이미지 생성 및 저장 한국어 형태소 분석 KoNLPy (Korean NLP in Python) 한국어 자연어 처리 Python 오픈소스인 KoNLPy를 사용합니다. KoNLPy의 소스 코드와 홈 페이.. 2021. 7. 19.
Apple App Store 사용자 댓글(리뷰) 데이터 수집하기 (Sample code 포함) 이전 포스팅 (https://kibua20.tistory.com/192)에서는 Python Selenium과 BeatifulSoup을 사용해서 Google Play Store에서 App에 대한 사용자, 작성일, 좋아요, 리뷰 내용의 데이터를 크롤링하는 방법에 대해서 설명했습니다. Apple App Store에서는 사용자 리뷰 정보를 웹 페이지와 RSS Feed로 제공하고 있으며, 이를 수집하는 방법을 설명합니다. Apple App 앱 스트에서 사용자 리뷰는 아래 그림과 같이 사용자 리뷰 내용을 제공하고 있습니다. 아래 사이트를 Selenium을 사용해서 크롤링도 가능하지만, RSS Feed가 보다 정형적인 데이터를 제공하고 구현이 쉽게 때문에 RSS Feed를 사용합니다. 예를 들어 Youtube의 RS.. 2021. 7. 14.
Python Selenium과 BeautifulSoup을 활용하여 Google PlayStore 사용자 리뷰 (댓글) 가져오기 (Sample Code 포함) 데이터 수집 목적으로 웹 크롤러를 사용해서 인터넷 사이트에 공개된 정보를 모아 CSV (Comman Seprated Values) 파일로 저장하는 경우가 많습니다. 예를 들어, 구글이나 네이버에서 주식 종목별 주가, 인터넷 댓글, 날씨 정보, 부동산 정보를 Crawler를 통해서 데이터를 수집하여 CSV 로 저장하고, 이를 인공지능이나 Machine Learning의 입력 데이터로 활용할 수 있습니다. 각 인터넷 사이트에서 Open API를 제공하면 API를 통해서 데이터를 수집하지만, 그렇지 않는 경우 어쩔 수 없이 크롤러를 사용해서 데이터를 수집해야 합니다. 본 포스팅은 Google Play의 사용자 리뷰 정보를 모아서 CSV 파일로 저장하는 방법을 설명하고자 합니다. 각 앱의 Playstore 리뷰.. 2021. 7. 14.
Panda Dataframe 날짜 기준으로 데이터 조회 및 처리하기 Dataframe 날짜 기준으로 데이터 조회 데이터 분석 시 일정 시간에 저장된 시계열 데이터를 처리하거나, 특정 기간 (예를 들어, 최근 한 달 또는 두 달간) 데이터를 기준으로 통계치를 산출하고자 할 때 날짜 기준으로 데이터를 필터링하고 처리하는 것이 필요합니다. Pandas Dataframe에서는 아래와 같이 다양한 방법으로 날짜 기준의 데이터 행의 선택 가능합니다. 직관적으로로 이해가 쉬운 것은 isin() 함수와 between() 함수이고, 다양한 조건의 데이터 (예를 들어, 매주 월요일, 매주 1일 기준, 일주일 기간)를 얻어오는 함수는 query()가 적절합니다. pandas.DataFrame.isin()은 두 날짜 사이에서DataFrame 행을 선택 pandas.Series.between(.. 2021. 6. 20.
Pandas Dataframe 여러 열과 행에 apply() 함수 적용 (Sample code 포함) Padas Dataframe apply() 함수 사용법 Panda dataframe을 엑셀의 매크로 함수처럼 각 열에 대한 연산을 하는 방법입니다. Pandas의 apply()를 사용하고 이는 가장 많이 사용하고 강력한 기능입니다. 각 항목을 요약하면 아래와 같습니다. 본 포스팅에서 설명한 내용은 Github에 test code를 올렸놨습니다. 기존의 Column 값을 연산하여 신규 Column을 추가하는 경우: df.apply(func, axis =1) axis=0은 row이고, axis=1은 column입니다. Row 값을 추가하는 경우에는 df.loc[] = df.apply(func, axis =0)으로 추가합니다. Column과 Row은 바꾸는 경우 df.transpose() 함수를 사용합니다. .. 2021. 6. 20.
Dataframe(또는 Numpy)를 JSON 출력 시 에러: TypeError: Object of type int64 is not JSON serializable Pandas dataframe 또는 Numpy를 사용해서 JSON으로 출력하는 경우 발생하는 에러입니다. Pandas dataframe의 value list는 numpy를 사용하고 있고, Numpy의 data type은 Python에서 정의하고 있는 data type보다 많기 때문에 표준 Python data type만 처리하는 Json encoder에서 에러가 발생합니다. 이러한 문제점을 수정하기 위해서 custom json encoder를 정의하거나, numpyencoder를 설치해서 사용할 수 있습니다. Custome Json encoder 코드는 GitHub 링크를 확인해주세요. 에러 메시지: File "dataframe_to_json_test.py", line 22, in test print (.. 2021. 6. 20.
우분투 20.04에서 MariaDB 설치 및 기본 동작 확인 명령어 관계형 데이터 베이스의 대표 주자는 Oracle입니다. 관계형 데이터베이스 업체는 오라클, IBM, 마이크로소프트 순이고, Oracle의 DBMS의 가장 높으며, 오픈 소스 진영의 DBMS는 MySQL, PostgreSQL, SQLite을 많이 사용하고 있습니다. 최근에 MySQL이 오라클 인수된 영향으로 기능 개선에 다소 미흡한 부분이 있고, 라이선스가 모호한 점이 있어 최근에는 MariaDB를 많이 사용합니다. MariaDB는 MySQL를 소스를 기반으로 성능 개선한 DBMS라 기능이 호환되며, 성능 개선 내용이 반영되어 있다고 합니다. 아직까지는 MySQL 을 사용하는 비율이 높지만, MariaDB는 최근 사용율이 급격하게 증가하고 있습니다. 관계형 데이터 베이스란 (출처: Oracle) 관계형 데.. 2021. 6. 6.
MariaDB의 Python Connector 설치와 사용 방법 MariDB Programming Language / InterfaceConnector DB 서버에 MariaDB를 설치(링크)하고 Client에서 DB를 사용하기 위해서는 Connector를 사용해야 합니다. DB Connector는 아래와 같은 다양한 언어를 지원하고 있고, 각 개발 언어에 맞는 Connector를 사용하면 됩니다. 여러 프로그래밍 언어 중에서 Python으로 MariaDB 연동하는 방법을 설명할 예정입니다. MariaDB Python connector 사용 방법은 아래 링크에 설명되어 있고 본 포스팅은 아래 MariaDB blog를 실습 후 정리한 내용입니다. https://mariadb.com/ko/resources/blog/how-to-connect-python-programs-.. 2021. 6. 5.
MariaDB 또는 MySQL에서 지원하는 Built-in 함수 설명 및 예제 MariaDB 또는 MySQL에서 수많은 내장 함수를 지원합니다. C언어나 Python에서 지원하는 String함수, Numeric 함수뿐 아니라 관계형 DB에서만 지원하는 함수도 있습니다. MariaDB의 함수 리스트는 https://mariadb.com/kb/en/function-and-operator-reference/에서 확인이 가능하면 관계형 DB에서만 사용되는 독특한 함수 예제 위주로 설명하도록 하겠습니다. 각각의 함수는 굳이 암기할 필요는 없고, 대략의 함수 지원 범위만 알고 있고 함수를 사용할 때 마다 Reference 사이트를 참고하는 것을 추천드립니다. Built Function 종류 String Functions Date & Time Funcitons Aggregate Function.. 2021. 5. 25.
CSV 파일에서 MariaDB(또는 MySQL)로 데이터 가져오는 방법 CSV(Comma Serparated Values) 파일을 MariaDB나 MySQL DB로 가져오는 방법을 설명합니다. CVS 파일을 관계형 DB 파일로 만들어서 SQL Query문을 사용하고자 할 때 유용합니다. 로드할 데이터가 1GB 보다 많거나 데이터를 한번에 처리하기 힘든 경우 CSV 파일을 적당한 크기로 파일을 분할하고 DB에 로드할 수 있습니다. CSV 파일을 분할은 split 유틸리티를 사용할 수 있으면 이에 대한 사용 방법 이전 포스팅의 링크를 참조해주세요. # CVS 파일을 1024MB 단위로 나눔 $ split -C 1024m --additional-suffix=.csv --numeric-suffixes=0 Myfile.csv Myfile_part_ 위의 명령을 실행하면 Myfile... 2021. 5. 24.
MariaDB 또는 MySQL에서 사용하는 Data type 정리 관계형 데이터 베이스에서 처리하는 데이터 타입은 C, Python, Java와 같은 프로그래밍 언어의 데이터 타입보다 세부적으로 정의되어 있습니다. Maria DB에서 정의하는 데이터 타입은 아래와 같습니다. Numeric Data Type String Data Types Date & Time Data Types Other Data Types: Geometry Types 1. Numeric Data Types Numeric Data Type은 숫자를 표현합니다. 프로그래밍 언어의 Integer, Float, Double형과 동일합니다. TinyInt는 1 Byte, SmallInt는 2 Byte, Medium Int는 3 Byte, Int는 4 Byte로 표현됩니다. 소수점 실수의 정밀도에 따라서 Flo.. 2021. 5. 23.
우분투 20.04에서 Jupyter Notebook 사용법: Web browser에서 Python 개발 환경 구축 Jupypter Notebook은 https://jupyter.org/에서 개발한 Web 기반의 interface로 Browser상에서 Python 코드를 한 줄씩 실행하여 출력 결과를 확인할 수 있는 개발환경을 제공하는 오픈 소스의 개발 툴입니다. Local PC에서 Python 개발뿐 아니라, 브라우저 기반의 Interface를 사용하는 특성 때문에 때문에 AWS과 Goolge Cloud에서 Jupyter Notebook 형태로 Python code를 샘플 코드를 배포하기도 합니다. 또한 원격 서버에 Jupyter Notebook을 설치하고 Browser에서 원격으로 Python 코드를 개발할 수 있습니다. 예를 들어 AWS EC2에서 Jupyter를 설치하여 원격 소스 작업을 할 수 있습니다. Ju.. 2021. 5. 16.