뜸~ 한 글쓰기, 어쨋든 회고 Section 2를 마무리 하며 Section2 Sprint2 회고 이후로 폭풍같은 3주가 벌써 지나버렸다. 그 동안 정리를 놔버리지는 않았지만. 노션에 정리를 하고 그걸 또 정제해서 블로깅을 한다는게 상당히 에너지를 써야 하는 일인것 같다. 뭔가 하나로 통일하던해야지 원,, 차라리 빠르고 짧게 적는 TIL과 노트 정리는 하던것 처럼 노션에 계속하고, 정제된 결과만 블로깅을 해봐야겠다. 일단 Section2 Sprint 3를 돌아보면. 매일 새로운 개념을 배우는건 똑같지만, Project에 사용해야 할 data를 찾아보고 EDA를 매일 수행해야 했기 때문에 특히 시간이 모자랐던것 같다. 덕분에 TODO list up이 산더미처럼 쌓이고야 말았다. 그리고 쉴 틈없이 이어지는 ..
np.array를 빠르게 pandas DataFrame으로 pd.DataFrame(df_after, columns=df_pre.columns,index=list(df_pre.index.values)) # 빠르게 설정, np.array 같은 데이터를 넣고, # 컬럼을 이전에 사용하던거 그대로 다시 넣고, 인덱스 설정해서 동일하게 만들어줌 sklearn 같은 패키지들이 함수가, np.arrayf를 반환할 때가 많기 때문에, 빠르게 데이터를 다시 pandas DataFrame 에 넣어주기 편한 방법 pd.Series() 로 형태 맞춰주기 df['data'] = pd.Series(np.array) df['data1'] = original 이미 만들어져 있는 DataFrame에 컬럼으로 넣고 싶을 때, data ..
Linear transformations 선형변환의 개념을 기저벡터의 transform landing 위치로 이해하는게 직관적이다. R2 에서 2개의 기저벡터는 2차원 공간을 span 하기 때문에, 기저벡터의 선형변환 후, 스칼라 연산의 합(linear combination)으로 다시, 변형된 공간으로 모든 벡터가 span eigenvector & eigenvalue 직접 한번 풀어보자 임의의 A 벡터를 가정 어차피 100퍼 이해해서, 체득하는 건 시간적으로 무리, 수학적으로 완벽하게 이해하기 보다. 한번 손으로 따라 써 보고, 기하학적인 직감, 느낌을 가지고 있는게 좋을 것 같다. 선형대수는 천천히 꾸준히 공부하자. Uploaded by Notion2Tistory v1.1.0 주말/리뷰 시간을 활용해서..
Linear Combination 기초부터 차근차근 배우지 않았기 때문에, 가장 기본적인 개념부터 흔들흔들. 정확히 이해가 안되니, 인식이 안되었다. 예를 들어 이런 표현, 어떤 벡터 V1, V2, V3가 있을 때, 이들의 선형 조합이 C1*V1 + C2*V2 + C3*V3 이라고 하자. 그냥 눈으로 슥 읽으면 알듯한데, 조금만 복잡해지면 여기서 부터 이해가 부족했다는 생각.. 손으로 써서 천천히 생각해보면 C1,2,3 계수를 곱해서 더하는 행위가 선형조합. 1,2,3이 결국 똑같은 말을 다른 방식으로 표현한 것임! Linearly independent / dependent 벡터 X1, X2, X3 ... Xn 이 있을 때, 모든 계수(coefficient)가 0인 경우를 제외하고 어떠한 선형 조합(Li..
정규화 (Normalization)Feature의 스케일이 심하게 차이 나는 경우에 수행→ 정규화 방법MIN-MAX 정규화( X - MIN ) / ( MAX - MIN )Z-Score 정규화( X - X.Mean() ) / X.표준편차pd.crosstab()python pandas 에서 데이터 재구조화에 여러 함수가 있음pivot(), pivot_table()stack(), unstack()melt()wide_to_long()crosstab()→ 두개 이상의 factor로 빈도표를 만들때 가장 간편하게 쓸 수 있는 방법 전처리에 필요한 간편한 함수들을 계속해서 써먹고 있다. 다 기억할 수는 없지만 필요할때 검색해서 바로바로 쓸 수 있을 정도로 익숙해 지는게 좋겠다.EDA를 기반으로 종합적인 정리가 한번 ..
error - 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte Searching..FACT 'utf-8'은 유니코드를 인코딩(encoding), 혹은 디코딩(decoding) 하는 방식('euc-kr' 같이 다른 방식도 있음) 유니코드는 텍스트를 컴퓨터에 저장하기 위한 매핑 파이썬에서 문자열을 유니코드로 처리함 decode는 바이트 코드를 문자열로 변환 자, 이제 error 를 읽어보자, 바이트코드로 된 파일을 load하려면 decode를 해서 유니코드로 해석해야한다. 하지만 파일의 position 0(첫 번째 바이트?)에 위치한 0xbd를 'utf-8' 방식으로 decode 할 수 없다는 말씀되시겠다. 해결방법 '0xbd'는..