본문 바로가기
[SKT AI FELLOWSHIP 3기][9월 3주차] 모델링 개선 & 전처리 향후 계획 9월 1주차에서 발견되었던 모델 개선의 의문점들을 해결하기 위해서 아이디어들을 추가해 주셨습니다. 또한 제가 컨디션이 좋지 못해서 발표 하지 못했던 전처리 향후 계획에 대해서 회의를 진행하였습니다. 결론적으로는 DWT(discrete wavelet transform)의 단점들이 개선된 DT-CWT (Dual Tree Continuous Wavelet Transform ) 로 진행을 할 예정입니다. 중간 발표가 끝나고 이번주 까지 연구실 프로젝트 종료 시점과 제안서 작성 등의 업무가 많아서 SKT AI FELLOWSHIP 활동 진도를 많이 나가지 못했습니다. 남은 기간 열심히 해서 최종 발표를 준비할 예정입니다. 2021. 9. 17.
[DACON][4위 수상] 신용카드 사용자 연체 예측 AI 경진대회 PUBLIC 점수에서는 1위를 달리고 있었지만 아쉽게 PRIVATE 점수에서 밀려 Private 5등을 기록하게 되었습니다. Catboost 를 사용한 대회의 후기 및 모델을 아래의 링크에서 확인 할 수 있습니다. https://dacon.io/competitions/official/235713/codeshare/2746?page=1&dtype=recent 신용카드 사용자 연체 예측 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 최종 순위는 4위를 기록하게 되었습니다~ 앞으로도 계속 꾸준히 대회에 참가해서 좋은 성적을 내고 싶습니다~ 2021. 5. 25.
[머신러닝 이론 정리] Decision Tree 부분 대학원 머신러닝 과목을 시험을 대비하기 위해서 기초 내용들을 질문형식으로 만들어 공부하였습니다. 이후에 공부하면서 알게 되는 내용도 계속 수정하여 추가 할 예정입니다. Decision Tree는 어디에 쓰이나? Classification, Regression 문제에 둘 다 사용가능하지만 분류 문제에 더 성능이 좋다. 굉장히 실용적이고 직관적인 방법으로 비전공자도 이해하기 쉬워 회사의 실무에 많이 사용된다고 합니다. Decision Tree 구성요소는? attribute, attribute value, class로 이루어 진다. 어떤 특성을 기준으로 할것인가(attribute: ex 날씨), 특성에는 어떤 값들이 있는가(attribut value: ex sunny rain등), 어디로 분류되는가(class.. 2021. 5. 1.
[머신러닝] Decision Tree, KNN, logistic Regression 실습 with python, sklearn 코로나 데이터를 활용해서 분류 문제를 실습하였다. 데이터에서 변수들이 Y값과 값는 상관관계가 매우 낮아서 성능이 좋지 않았다. 다양한 전처리를 하더라도, 성능이 좋지 않았다. DATA & Library LOAD¶ In [1]: import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import MinMaxScaler from sklearn.metrics import f1_score from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_s.. 2021. 4. 19.
[머신러닝] Linear Regression, Lasso, Ridge with python,sklearn 공정데이터를 전처리하여 Linear Regression, lasso, Ridge 모델들로 성능을 최적화 시키는 실습이였다. 데이터 전처리를 연습하고, K-fold, pca 등 활용해 볼 수 있는 실습이였다. 성능을 높이기 위해서 중요했던 것은 다음과 같다. 1. 데이터 전처리 (시계열 특성 반영) 2. K-fold로 성능 검증 ( 일반적인 랜덤 샘플링 이용한 방법 , cross-validation 모듈 결과가 조금씩 달랐다.) 3. PCA 차원 수 정하기 4. Ridge 와 Lasso의 alpha값 이해하고 최적의 값 찾기 DATA LOAD¶ In [12]: import numpy as np import pandas as pd from sklearn.linear_model import LinearRegr.. 2021. 4. 19.
머신러닝 딥러닝 관련 뉴스 및 블로그 인공지능 공부의 최신 트렌드을 따라가보자~! 카카오 브레인: www.kakaobrain.com/blog 카카오브레인 인간처럼 생각하고, 행동하는 지능을 통해 인류가 이제까지 풀지 못했던 난제에 도전합니다. www.kakaobrain.com WILL BE UPLOADED 2021. 4. 11.
[NLP] Matrix Factorization 구현하기 with 파이썬 추천 시스템의 바탕이 되는 Matrix factorization 이다. 결국 N 차원을 d 차원으로 축소했다가 다시 N 차원으로 만드는 과정이다. 하지만, N차원을 d차원으로 축소 한것이 N 차원을 잘 표현(?)해야한다... PCA(차원 축소) 오토 인코더와 비슷한점 차이점을 알면 좋을 것 같지만,, 차차 알아가보도록 하겠다. 이론적인 부분을 아래의 블로그를 참고했다. yeomko.tistory.com/5 갈아먹는 추천 알고리즘 [3] Matrix Factorization 지난 글 갈아먹는 추천 알고리즘 [1] 추천 알고리즘의 종류 갈아먹는 추천 알고리즘 [2] Collaborative Filtering 들어가며 지난 글에서 Collaborative Filtering에 대하여 자세히 알아보았습니다. 세부.. 2021. 4. 10.
[NLP] 파이썬으로 backpropagation 구현하기 (with different hidden layers) Data Load and Split¶ In [1]: import numpy as np data = np.loadtxt("training.txt") test_data = np.loadtxt("test.txt") print(data.shape) #shuffling the data np.random.shuffle(data) #spliting Data train_x = data[:,0:2] train_y = data[:,-1] print("train_x shape:"+str(train_x.shape)) print("train_y shape:"+str(train_y.shape)) val_x = test_data[:,0:2] val_y = test_data[:,-1] print("val_x shape:"+str(v.. 2021. 3. 31.
[백준][파이썬] 1182 부분수열의 합 핵심 1. visited 사용할때 not in stack 이 두개의 차이는 중복된 숫자를 체크 가능한지 여부이다. 2. depth를 다르게 줘야할때는 함수 밖에서 depth를 다르게 설정해서 줄 수 있다. N, S = map(int, input().split()) lit = list(map(int, input().split())) count = 0 visited = [False] * N def per(idx, depth, stack, max): global count if depth == max: total = 0 for sum in stack: total += sum if total == S: count += 1 for i in range(idx, N): if visited[i] ==False: vis.. 2021. 1. 18.