PANDAS: 6개의 글
python에서 dataframe을 사용하다 보면, 결과가 ...으로 나오는 경우가 있다. 전체적인 결과를 보고 싶을때는 간단하게 pd에 option을 세팅해주면 된다. (display all text in a cell without truncation) pd.set_option('display.max_colwidth', -1) 그 외에도 다양하게 option을 변경해서, rows, heights을 변경할 수 있다. HTML코드도 출력이 가능하다. 아래 참고 참고 http://songhuiming.github.io/pages/2017/04/02/jupyter-and-pandas-display/
Python에서 DataFrame을 임시 데이터를 저장하는 방법 pandas를 사용하면서, 중간 데이터를 저장하거나 최종 데이터를 저장을 해야할 때가 있다. 이때 csv로 저장하고, 불러오는 방법을 설명한다. DataFrame을 CSV파일로 저장하기 DataFrame을 CSV로 저장하는 방법은 매우 간단하다. dataframe의 object에서 to_csv의 메소드를 이용하면 된다. datafram.to_csv('result.csv') CSV파일 DataFrame으로 불러오기 csv의 파일을 DataFrame으로 불러오기 위해서는 아래와 같이 실행하면 된다. 이때, 데이터의 크기가 너무 커서 어떤 조건을 만족하는 데이터만을 불러오고 싶으면 iterator=True를 통해서 iteration을 돌려서 가져..
들어가며 csv, tsv, text 파일을 읽어 판다스(pandas) dataframe으로 읽는 방법이다. encoding 문제 해결 sep을 '\t', ','등 원하는 방법으로 data의 사이즈가 클 경우이는 split해서 데이터를 읽는다. 읽는 동시에 data에서 원하는 column, row만을 filtering 할 수 있다. 코드 import pandas def get_df(cols, filename, sep='\t'): iter_csv = pd.read_csv('/home/jslee/' + filename,iterator=True, encoding='utf8', chunksize=1000, sep=sep, names=cols) # df = pd.concat([chunk[chunk['field'] ..
들어가며 데이터 분석을 하다보면, 시각화(Visualization)을 해야한다. 우리가 물론 값을 눈으로 확인하면 되지만, 전체적인 추이를 확인하거나, 일정 패턴이 있는지 확인하기 위해서는 그래프만큼 좋은게 없다. 파이썬은 데이터 분석을 하기 위해한 모듈이 갖춰져 있어 많은 사람들이 사용한다. R이나 Matlab을 사용하는 사람도 많지만, 뭐 셋다 거의 비슷비슷하다. 내 주위 사람은 matlab을 사용하다가 파이썬으로 넘어오기도 한다. 그 이유는 약간 파이썬이 구현적인 느낌을 받는다나... 사실 왜 넘어온지는 모르겠지만 일단! 파이썬에서는 Pandas, Matplotlib, Scipy, Numpy를 이용하고, 거기에 machine-learning을 하기 위한 scikit-learn만 잘쓰면 어디서 데이터..
| 판다스 피벗 테이블(Pandas Pivot Table) 판다스에서는 DataFrame의 피벗 테이블(Pivot Table)을 만들 수 있는 기능을 제공한다. 아래 코드는 판다스를 통해 피벗 테이블을 어떻게 만들 수 있는지를 알아 볼 수 있는 예제들이다. import pandas as pd import numpy as np df = pd.read_csv('cars.csv') print(df.head()) ''' YEAR Make Model ... RATING (km) TIME (h) 0 2012 MITSUBISHI i-MiEV ... NaN 100 7 1 2012 NISSAN LEAF ... NaN 117 7 2 2013 FORD FOCUS ELECTRIC ... NaN 122 4 3 2013 MITS..
| 파이선 판다스(Python Pandas) 파이썬 판다스(Python Pandas)는 파이썬 언어로 데이터를 분석하기 위한 쉽게하기 위한 자료구조 및 기능들을 제공하는 패키지입니다. 판다스가 제공하는 여러 기능들을 통해서 데이터 분석 과정 중 가장 까다로운 작업 중 하나인 데이터 전처리를 보다 쉽게할 수 처리할 수 있습니다. | 파이썬 시리즈(Python Series) 파이썬 시리즈(Python Series)는 판다스의 중요 자료구조 중 하나입니다. 시리즈는 인덱스와 그와 짝지어진 데이터로 이루어져 있습니다. 다음은 시리즈 자료구조를 이용한 예시들입니다. import pandas as pd an..