뜸~ 한 글쓰기, 어쨋든 회고 Section 2를 마무리 하며 Section2 Sprint2 회고 이후로 폭풍같은 3주가 벌써 지나버렸다. 그 동안 정리를 놔버리지는 않았지만. 노션에 정리를 하고 그걸 또 정제해서 블로깅을 한다는게 상당히 에너지를 써야 하는 일인것 같다. 뭔가 하나로 통일하던해야지 원,, 차라리 빠르고 짧게 적는 TIL과 노트 정리는 하던것 처럼 노션에 계속하고, 정제된 결과만 블로깅을 해봐야겠다. 일단 Section2 Sprint 3를 돌아보면. 매일 새로운 개념을 배우는건 똑같지만, Project에 사용해야 할 data를 찾아보고 EDA를 매일 수행해야 했기 때문에 특히 시간이 모자랐던것 같다. 덕분에 TODO list up이 산더미처럼 쌓이고야 말았다. 그리고 쉴 틈없이 이어지는 ..
Session 2, Sprint 2 회고 지난번 스프린트 챌린지의 경험을 거름삼아 어제 늦게까지 코드를 갈무리해 두었기 때문에 챌린지 과제 자체는 어렵지 않았다. 본격적인 ML 기법의 수업도 벌써 2주차, 아마 다음주는 SVM과 boosting 기법들에 대해서 더 배우지 않을까 싶다. 사실 단어만 들어봤지 아직 아는것도 없다. 단어, 혹은 개념들에 대해서 쪼~~금 알고 있다고 생각하지만, 그럼에도 불구하고 시간이 너무나 부족하다. Session당일 배운 개념을 완벽하게 소화하고, 코드를 갈무리하고 더해서 추가로 소개되는 method와 개념들에 대해서도 충분히 공부하고 싶은데, 시간이 참 부족하다는걸 느끼고 있는 Session2가 되어가고 있다. todo list만 가득 차고 있다... 그런 의미에서 오늘..
Random forest Bootstrapping sampling 오늘 한 일 해야 할 일 Random forest 트리기반 모델의 기본이 되는 decision tree, random forest의 기본적인 동작 알고리즘은 복잡하거나 어렵지 않고, simple 그 자체라고 할 수 있다. 하지만 트리기반 모델(random forest 한 가지만 알고있지만,,)들이 케글의 탑 티어를 대부분 석권하고 있다는 사실은 의미심장하다고 해야하나. 간단하게 짚고 넘어가자면 Gini impurity 지니 불순도 특정 feature가 지니 불순도를 얼마나 감소시키는가!? 1에서 전체 데이터 개수 중 각 레이블이 차지하는 개수의 비율을 제곱해서 뺌 Entropy기반의 Information Gain 특정 featuer의 질문..
Sprint Challenge 전반적인 section2 sprint1에 대한 회고를 해보려 한다. 결론 오늘 한 일 해야 할 일 Sprint Challenge 본격적인 머신러닝 기법을 배우게 되는 section2 첫 번째 스프린트 챌린지가 끝났다. 아쉬움이 많이 남는 과제였다. 시간 분배가 적절하지 못했기 때문에, 그리고 이해했다고 생각한 코드, 혹은 데이터 랭글링 방법들이 타임리밋이 다가올 수록 애러를 마구 뿜어냈다. 점심 이후에 다시 찬찬히 살펴보면, 역시 전에 다 해봤던 handling 방법들이었지만. 오늘 리뷰 시간에 공감이 되었던 말이었던 머슬매모리에 입력되지 않은 것 같다. 그래서 오늘 하루종일 첫 번째 과제부터 어제까지, 강의노트와 내가 만든 코드들을 메소드와 문제를 해결하는 전략을 중심으로..
Python Multi core processing 오늘 한 일 해야 할 일 Python Multi core processing 전부터 멀티코어 프로세싱에 관심은 있었는데, 막상 천천히 공부해 보지는 않고 생각만 하고 있었다. multiprocessing 과 같은 패키지는 알고 있었지만. 당장 결과에 적용하기가 쉽지 않았다고 해야하나. 코딩 실력도 부족하기도 했고. 어쩌다 검색으로 알게된 최신 멀티코어 프로세싱 패키지 Ray. 대충 봤는데 뭔가 적용하기 쉬울 것 같다. API page를 보면서 차근차근 공부해야겠지만. 일단은 적용가능한 데이터가 어떤게 있을지 부터 막막하니. 한줄이라도 처보자! alphas = np.linspace(0.0001,0.001) start = time.time() # 여러 al..
비용함수 관점에서 선형회귀를 직관적으로 이해하기오늘 한 일해야 할 일비용함수 관점에서 선형회귀를 직관적으로 이해하기가장 단순한 예측 모형이라고 할 수 있는 선형회귀(Linear Regression)는 같은 개념이지만 여러 방식으로 이해할 수 있다. 그 중 앞으로 익숙해져야 할 필요가 있는 비용함수(Cost function)의 관점으로 나름대로 이해하고 정리해 보았다.선형회귀는 x에 대응하는 y 와 가장 비슷한 값 ŷ 을 출력해 줄 수 있는 f(x) 함수를 찾는 과정이라고 할 수 있다.y^=f(x)≈y\hat = f(x)\approx yy^=f(x)≈y 함수 f(x)를 동일한 의미이지만 여러 방식으로 표현해 볼 수 있는데, 데이터 Feature의 관점에서 x = (x1, x2, x3 ...)을 featu..
ML에서 독립변인과 종속변인의 개념오늘 한 일해야 할 일ML에서 독립변인과 종속변인의 개념일반적으로 독립변인과 종속변인의 개념을 "독립변인의 수준에 따라서 종속변인의 수치가 변화한다."고 표현할 수 있다. 이런 형태의 관계에는 실험, 그러니까 '독립변인의 조작'이라는 개념이 들어가 있다고 생각해 볼 수 있다. 행동심리학 실험들이 대표적인데, 제공된 마시멜로의 수(독립변인)에 따라 어린아이가 유혹을 참고 기다리는 시간(종속변인), 비둘기 모이가 제공되는 빈도(독립변인)를 조작하고 행동의 빈도를 측정(종속변인)하는 다양한 실험들이 있다. 이렇듯 실험 자체가 독립변인의 직접적인 조작을 통해 종속변인의 값을 얻는 데이터 수집 행위라고 할 수 있다.하지만 앞으로 우리가 다룰 ML(Machine Learning)에..
이해하는 법오늘 한 일해야 할 일이해하는 법개인적으로 수학을 싫어하지는 않았다. 이과로 졸업하기도 했고, 대학도 졸업이야 심리학으로 했지만, 입학은 공대로 했으니. 하지만 수학을 싫어하지 않는 것과 별개로 성적은 항상 나빴다. 정답을 맞추는 계산에 약하다고 해야할까. 그래도, 수학 성적과는 별개로 항상 개념을 이해하는 건 즐기는 편이었다(물론 고등학생때는 개념을 이해하는 방식으로 배워본적도 없지만..). 특히 성적은 안나왔던 물리학이라던지...시간의 역사를 읽거나, 물리학의 개념들 혹은 fMRI의 촬영원리 등, 복잡한 공식은 읽지도 못했지만. 공식 혹은 개념을 생각할 때, 항상 어느 정도 추상적 혹은 시각적 방식으로 개념을 생각해내고 빠르게 캐치해서 이해하는 편이었다. 세상 많은 것들이 그렇듯, 이런 이..
1. 꾸준한 기록의 중요성 2. 오늘 한 일 3. 해야 할 일 꾸준한 기록의 중요성 지난 한달여간의 부트캠프 기간동안 나는 최선을 다 한 것일까? Section 1 project의 리뷰까지 마친 후, 첫 번째로 떠오른 생각이었다. 사실 첫 번째 섹션의 내용들은 선형대수학 내용을 제외하면 처음 배우는 내용도 아니었고, 언제나 하던 데이터 처리와 통계 분석의 연장이었다. 물론 모든 내용을 완벽하게 알고 있는 건 아니었다. 그렇지만 대학원 시절 혼자서 맨땅에 삽질하듯 매트랩, R, 파이썬과 벌였던 사투들이 결국 여기서도 도움이 많이 되고 있다. 그래서일까, Section1 기간동안 조금은 느슨하게 지냈던 것 같다. 스프린트 과제를 제출하기 위한 정도의 노력, 그 이상을 하지 않았던 것 같다. 그리고 느슨한 시..