파이썬: 4개의 글
파이썬(Python) beautifulSoup 사용해서 html page 파싱(parsing) 데이터 scrap을 할때 많이 사용하는 beautifulsoup을 이용해서 html page를 parsing 하는 코드 (아래 참고) 코드 간단 설명 특정 tag의 값(text)을 가져오기 html page의 값을 가져온 이후에 soup.p의 tag의 값을 가져온다 p의 tag를 갖고 있는 text를 가지고 와서 words로 split p의 id로 가져오기 모든 paragraph의 리스트를 가져오기 p의 tag 중 important class의 값을 갖고 있는 paragraphs 가져오기 span의 요소 안에 포함된 모든 div를 가져오기 코드 from bs4 import BeautifulSoup import ..
파이썬 스케일이 다른 두개의 값 그리기 코드 import matplotlib.pyplot as plt fig, ax1 = plt.subplots() ax1.plot(df["..."]) # ... ax2 = ax1.twinx() ax2.plot(df["Market"]) ax2.set_ylim([0, 5]) # http://matplotlib.org/examples/api/two_scales.html 출처 : ourcstory.tistory.com/330?category=630693
Python에서 Directory가 없으면 생성하는 코드 코드 python create directory if not exists import os if not os.path.exists(directory): os.makedirs(directory) 출처 : ourcstory.tistory.com/329?category=630693
들어가며 csv, tsv, text 파일을 읽어 판다스(pandas) dataframe으로 읽는 방법이다. encoding 문제 해결 sep을 '\t', ','등 원하는 방법으로 data의 사이즈가 클 경우이는 split해서 데이터를 읽는다. 읽는 동시에 data에서 원하는 column, row만을 filtering 할 수 있다. 코드 import pandas def get_df(cols, filename, sep='\t'): iter_csv = pd.read_csv('/home/jslee/' + filename,iterator=True, encoding='utf8', chunksize=1000, sep=sep, names=cols) # df = pd.concat([chunk[chunk['field'] ..