np.array를 빠르게 pandas DataFrame으로 pd.DataFrame(df_after, columns=df_pre.columns,index=list(df_pre.index.values)) # 빠르게 설정, np.array 같은 데이터를 넣고, # 컬럼을 이전에 사용하던거 그대로 다시 넣고, 인덱스 설정해서 동일하게 만들어줌 sklearn 같은 패키지들이 함수가, np.arrayf를 반환할 때가 많기 때문에, 빠르게 데이터를 다시 pandas DataFrame 에 넣어주기 편한 방법 pd.Series() 로 형태 맞춰주기 df['data'] = pd.Series(np.array) df['data1'] = original 이미 만들어져 있는 DataFrame에 컬럼으로 넣고 싶을 때, data ..
Linear transformations 선형변환의 개념을 기저벡터의 transform landing 위치로 이해하는게 직관적이다. R2 에서 2개의 기저벡터는 2차원 공간을 span 하기 때문에, 기저벡터의 선형변환 후, 스칼라 연산의 합(linear combination)으로 다시, 변형된 공간으로 모든 벡터가 span eigenvector & eigenvalue 직접 한번 풀어보자 임의의 A 벡터를 가정 어차피 100퍼 이해해서, 체득하는 건 시간적으로 무리, 수학적으로 완벽하게 이해하기 보다. 한번 손으로 따라 써 보고, 기하학적인 직감, 느낌을 가지고 있는게 좋을 것 같다. 선형대수는 천천히 꾸준히 공부하자. Uploaded by Notion2Tistory v1.1.0 주말/리뷰 시간을 활용해서..
Linear Combination 기초부터 차근차근 배우지 않았기 때문에, 가장 기본적인 개념부터 흔들흔들. 정확히 이해가 안되니, 인식이 안되었다. 예를 들어 이런 표현, 어떤 벡터 V1, V2, V3가 있을 때, 이들의 선형 조합이 C1*V1 + C2*V2 + C3*V3 이라고 하자. 그냥 눈으로 슥 읽으면 알듯한데, 조금만 복잡해지면 여기서 부터 이해가 부족했다는 생각.. 손으로 써서 천천히 생각해보면 C1,2,3 계수를 곱해서 더하는 행위가 선형조합. 1,2,3이 결국 똑같은 말을 다른 방식으로 표현한 것임! Linearly independent / dependent 벡터 X1, X2, X3 ... Xn 이 있을 때, 모든 계수(coefficient)가 0인 경우를 제외하고 어떠한 선형 조합(Li..
정규화 (Normalization)Feature의 스케일이 심하게 차이 나는 경우에 수행→ 정규화 방법MIN-MAX 정규화( X - MIN ) / ( MAX - MIN )Z-Score 정규화( X - X.Mean() ) / X.표준편차pd.crosstab()python pandas 에서 데이터 재구조화에 여러 함수가 있음pivot(), pivot_table()stack(), unstack()melt()wide_to_long()crosstab()→ 두개 이상의 factor로 빈도표를 만들때 가장 간편하게 쓸 수 있는 방법 전처리에 필요한 간편한 함수들을 계속해서 써먹고 있다. 다 기억할 수는 없지만 필요할때 검색해서 바로바로 쓸 수 있을 정도로 익숙해 지는게 좋겠다.EDA를 기반으로 종합적인 정리가 한번 ..
error - 'utf-8' codec can't decode byte 0xbd in position 0: invalid start byte Searching..FACT 'utf-8'은 유니코드를 인코딩(encoding), 혹은 디코딩(decoding) 하는 방식('euc-kr' 같이 다른 방식도 있음) 유니코드는 텍스트를 컴퓨터에 저장하기 위한 매핑 파이썬에서 문자열을 유니코드로 처리함 decode는 바이트 코드를 문자열로 변환 자, 이제 error 를 읽어보자, 바이트코드로 된 파일을 load하려면 decode를 해서 유니코드로 해석해야한다. 하지만 파일의 position 0(첫 번째 바이트?)에 위치한 0xbd를 'utf-8' 방식으로 decode 할 수 없다는 말씀되시겠다. 해결방법 '0xbd'는..