Python 34

PyGWalker - 파이썬에서 태블로처럼 빠른 EDA 시각화

파이썬에서도 태블로처럼 드래그&드롭 분석 가능하게 EDA 시각화 가능한 툴.duckdb와 연계해서 활용하는게 좋아보인다 import pandas as pdimport pygwalker as pygdf = pd.read_csv('data.csv')walker = pyg.walk(df) 1. 다른 차트로 표시 유형 변경하여 다른 차트 생성 가능. ex) 꺾은선 차트  2. 다른 측정 항목을 비교하기 위해 행/열에 둘 이상의 측정 항목을 추가하여 연결된 뷰 생성 가능. 3. 차원 값에 따라 여러 하위뷰로 구분된 패싯 뷰를 만들기 위해 행/열에 차원 추가 가능   4. 데이터 테이블 및 미리보기 가능. 필터 및 데이터 유형 변경가능 5. 파라미터1) spec : 차트 구성을 저장/로드하기 위한 매개변수(json..

Python 2024.08.17

파이썬 기초 - 01_과목평균

In [ ]:# 문제) 국어 80점, 수학75점, 영어 55점, 사회 90점# ---> 이 학생의 평균을 구하는 코드를 작성하세요!!!In [ ]: In [ ]:# 여러 스타일로 이 문제들을 작성을 해보세요!!!# 변수 : 어떻게 설정하지 고민!!!! + 관계!!!!!# 잡다한 기능 : 검색을 하거나 해서 찾아서 하시면 됨!!!In [ ]: In [1]:# 방법1) 꾸역꾸역!!korean = 80math = 75english = 55social = 90# --> 헤야할 일 : 4과목의 평균을 구하는 일!!!!# 앞에서 설정한 변수들끼리 관계/ 기능....avg_score = (korean + math + english + social) / 4print(avg_score)75.0In [2]:zums..

Python 2024.08.17

Pytorch 튜토리얼 - 텐서연산 및 신경망 구성

파이토치(PyTorch)¶페이스북이 초기 루아(Lua) 언어로 개발된 토치(Torch)를 파이썬 버전으로 개발하여 2017년도에 공개초기에 토치(Torch)는 넘파이(NumPy) 라이브러리처럼 과학 연산을 위한 라이브러리로 공개이후 GPU를 이용한 텐서 조작 및 동적 신경망 구축이 가능하도록 딥러닝 프레임워크로 발전시킴파이썬답게 만들어졌고, 유연하면서도 가속화된 계산 속도를 제공  파이토치 모듈 구조¶    출처: Deep Learning with PyTorch by Eli Stevens Luca Antiga. MEAP Publication. https://livebook.manning.com/#!/book/deep-learning-with-pytorch/welcome/v-7/  파이토치의 구성요소¶to..

Python 2024.08.16

Home Credit Default Risk [1] feature engineering

개요 및 전체 데이터 모델 설명application_train(test) 주요 속성 분류대출 금액고객 신상고객자산고객 소득고객 거주지고객 행동 : 인지심리학적인Label Encoding vs. onehot EncodinglightGBM에서는 피처들이 너무 많기 때문에, 성능을 크게 향상시켜주는것 같진 않음LightGBM,XGBoost는 널값을 자동으로 처리해💡없는 피처들을 만드는게 중요.(고객 행동 같은, 데이터 수집 요청, 프로모션 같은 것들을 직접 얻어야함)1. 라이브러리와 APP 데이터 세트 로딩Copyimport numpy as npimport pandas as pdimport gcimport timeimport matplotlib.pyplot as pltimport seaborn as sns#..

Python 2024.07.24

분류(Classification) - 3 베이지안 최적화와 고객만족예측 실습

Bayesian Optimization가능한 최소의 시도로 최적의 답을 찾아야 할 경우개별 시도가 너무 많은 시간/자원이 필요할때최적해를 짧은 반복을 통해 찾아내는 최적화 방식대체모델과 획득 함수로 구성.최초에는 랜덤하게 하이퍼 파라미터들을 샘플링하여 성능결과를 관측관측된 값을 기반으로 대체 모델은 최적 함수를 예측 추정획득 함수에서 다음으로 관측할 하이퍼 파라미터 추출해당 하이퍼 파라미터로 관측된 값을 기반으로 대체 모델은 다시 최적 함수 예측 추정HyperOpt 로 베이지안 최적화 사용법검색공간 설정from hyperopt import hp# -10 ~ 10까지 1간격을 가지는 입력 변수 x 집합값과 -15 ~ 15까지 1간격을 가지는 입력 변수 y 집합값 설정.search_space = {'x':..

Python 2024.07.23

분류(Classification) - 2

랜덤포레스트의 부트스트래핑 분할여러개의 데이터세트를 중첩되게 분리하는 것배깅 → bootstrap aggregation의 준말사이킷런 랜덤포레스트 하이퍼 파라미터n_estimators랜덤포레스트에서 결정트리의 개수를 지정. 늘릴수록 학습수행시간이 오래걸림. 디폴트 10개max_features결정트리에 사용된 max_features파라미터와 같음.랜덤 포레스트 실습import pandas as pddef get_new_feature_name_df(old_feature_name_df): feature_dup_df = pd.DataFrame(data=old_feature_name_df.groupby('column_name').cumcount(), ..

Python 2024.07.20

분류(Classification) - 1

분류(Classification)분류 알고리즘베이즈 통계와 생성 모델에 기반한 나이브 베이즈독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀데이터 균일도에 따른 규칙 기반의 결정트리개별 래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터머신근접 거리를 기준으로 하는 최소 근접 알고리즘심층 연결 기반의 신경방서로 다른 머신러닝 알고리즘을 결합한 앙상블결정트리와 앙상블결정트리는 쉽고 유연하게 적용되는 알고리즘. 예측 성능을 향상시키기 위해 복잡한 구조를 가져야하며 과적합(overfitting)이 발생할수도 있음트리 기반의 분류 규칙 생성규칙을 만드는 기준이 알고리즘의 성능을 좌우앙상블은 약한 학습기를 결합하여 확률적 보완과 오류에 대한 가중치를 업데이트하면서 예측 성능 향상(GBM, XGBo..

Python 2024.07.17

평가(Evaluation)

정확도(Accuacy)오차행렬(Confusion Matrix)정밀도(Precision)재현율(Recall)F1 스코어ROC AUC정확도정확도 = 예측 결과가 동일한 데이터 건수/전체 예측 데이터 건수정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표import numpy as npfrom sklearn.base import BaseEstimatorclass MyDummyClassifier(BaseEstimator): # fit( ) 메소드는 아무것도 학습하지 않음. def fit(self, X , y=None): pass # predict( ) 메소드는 단순히 Sex feature가 1 이면 0 , 그렇지 않으면 1 로 예측함. def predict(se..

Python 2024.07.17

사이킷런(scikit-learn)으로 시작하는 머신러닝

사이킷런 소개가장 파이썬스러운 API제공머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API 제공오랜기간 실전환경에서 검증된 성숙한 라이브러리주로 Numpy와 Scipy기반 위에서 구축된 라이브러리사이킷런을 이용한 붓꽃 데이터 분류붓꽃의 품종을 분류(Classification)붓꽃데이터피처 : 타겟값을 제외한 나머지 속성을 모두 피처로 지칭Sepal lengthSepal widthPetal lengthPetal width레이블 : 지도학습 시 데이터의 학습을 위해 주어지는 정답 데이터지도학습 - 분류명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식.학습을 위해 주어진 데이터 세트를 학습데이터머신러닝 모델 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 ..

Python 2024.07.14

회귀(Regression) - 1

회귀여러개의 독립변수와 한개의 종속변수간의 상관관계를 모델링하는 기법주어진 피처와 결정값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것일반 선형 회귀 : RSS를 최소화할 수 있도록 회귀계수 최적화, 규제(Regularization)를 적용하지 않은 모델릿지(Ridge) : 선형회귀에 L2 규제를 적용한 모델라쏘(Lasso) : 선형회귀에 L1 규제를 적용한 모델엘라스틱넷(ElasticNet) : L2, L1 규제를 함께 적용한 모델로지스틱회귀(Logistic) : 분류에 사용되는 선형 모델RSS기반의 회귀오류 측정RSS경사하강법반복적으로 비용 함수의 반환값, 즉 예측 값과 실제 값의 차이가 작아지는 방향성을 갖고 W 파라미터를 보정해나감파이썬에서 경사하강법 구현Copyimport nump..

Python 2024.07.14