티스토리 뷰

쓰기/TIL

2021/01/15 Clustering, pandas tips

데이터켓 2021. 1. 15. 17:58

np.array를 빠르게 pandas DataFrame으로

 pd.DataFrame(df_after, columns=df_pre.columns,index=list(df_pre.index.values)) 
 # 빠르게 설정, np.array 같은 데이터를 넣고, 
 # 컬럼을 이전에 사용하던거 그대로 다시 넣고, 인덱스 설정해서 동일하게 만들어줌
  • sklearn 같은 패키지들이 함수가, np.arrayf를 반환할 때가 많기 때문에, 빠르게 데이터를 다시 pandas DataFrame 에 넣어주기 편한 방법

pd.Series() 로 형태 맞춰주기

df['data'] = pd.Series(np.array) df['data1'] = original
  • 이미 만들어져 있는 DataFrame에 컬럼으로 넣고 싶을 때, data type을 pd.Series()로 맞춘 다음에 넣어 주면 좋음

list comprehension if else 구문

df = [i+1 for i in dummy if i > 1] 
# 보통 list comprehesion에 if 만 있으면 뒤에다 적고 

df= [i+1 if i==0 else i+2 for i in dummy]
# if else 가 필요할 경우 앞으로 이동 
  • if 만 있으면 뒤로
  • if else 가 둘 다 있으면 앞으로

pandas 빠르게 데이터 요약

pd.info()

pd.value_counts()

pd.discribe(include='all') # str column 까지 포함됨

 

'쓰기 > TIL' 카테고리의 다른 글

2021/01/14 eigenvector, PCA, One-hot-encoding  (0) 2021.01.15
2021/01/13 Linear algebra  (0) 2021.01.14
2021/01/11  (0) 2021.01.11
2021/01/06  (0) 2021.01.06
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함