파이썬 데이터 읽기 (pandas)

2021. 4. 28. 01:58 Python/Python 프로그래밍

들어가며

  • csv, tsv, text 파일을 읽어 판다스(pandas) dataframe으로 읽는 방법이다.
  • encoding 문제 해결
  • sep을 '\t', ','등 원하는 방법으로
  • data의 사이즈가 클 경우이는 split해서 데이터를 읽는다.
  • 읽는 동시에 data에서 원하는 column, row만을 filtering 할 수 있다.

 

코드

import pandas

def get_df(cols, filename, sep='\t'):
    iter_csv = pd.read_csv('/home/jslee/' + filename,iterator=True, encoding='utf8', chunksize=1000, sep=sep, names=cols)
    # df = pd.concat([chunk[chunk['field'] > constant] for chunk in iter_csv])
    df = pd.concat([chunk for chunk in iter_csv])
    return df
    
get_df(['col1', 'col2', 'col3'], filename, sep='\t')
get_df(['col1', 'col2', 'col3'], filename, sep=',')

 

출처 : ourcstory.tistory.com/328?category=630693