Python: 127개의 글
| Requests, BeautifulSoup 라이브러리 Requests는 웹상의 html문서를 파이썬 언어를 통해 쉽게 사용자 컴퓨터로 가져올 수 있게 하는 라이브러리입니다. 그리고 BeautifulSoup는 가져온 HTML문서를 파싱하여 아주 쉽게 데이터를 추출할 수 있도록 해주는 파이썬 라이브러리입니다. 이 두 라이브러리를 조합하면 특정 웹사이트의 HTML문서를 쉽게 가져와서 데이터를 빠르고 쉽게 추출할 수 있죠. 두 라이브러리는 pip로 쉽게 설치가능합니다. pip install requests pip install BeautifulSoup4 PyCharm을 쓰시는 분들은 해당 라이브러리를 UI로 손쉽게 설치하실 수 있습니다. 설치 방법은 여기를 참조하시면 됩니다. ▶[Python] - [Pyth..

| 파이참(PyCharm) 파이참(PyCharm)은 JetBrain이란 회사에서 만든 강력한 Python IDE 입니다. IntelliJ 라는 Java IDE로 유명한 제품을 만든 회사죠. 파이참의 강점은 한 번 설치하면 파이썬에서 지원하는 venv, pytest 등 여러 기능들을 손쉽게 통합해서 쓸 수 있고 손쉬운 설정기능과 편리한 여러 플러그인을 지원한다는 것입니다. | 설치 경로 ▶ https://www.jetbrains.com/pycharm/ | 설치 방법 위 설치 경로로 이동해서 Community 버전을 다운받도록 합니다. 모든 설치과정이 끝난 후 다음과 같은 창이 뜰 것입니다. Do not import settings를 체크하고 OK를 누릅니다. 원하는 UI Desing을 선택합니다. PyCh..

| Anaconda Anaconda는 구 Continuum Analytics라는 회사에서 ( 현 Anaconda, Inc. )에서 만든 데이터 사이언스와 머신 러닝 어플리케이션을 위한 파이썬 배포판입니다. 현재 1400개 이상의 데이터 사이언스 패키지를 가지고 있어 한 번 설치한다면 따로 package를 설치하는 수고를 하지 않고도 풍부한 라이브러리를 쓸 수 있는 장점이 있습니다. | 설치경로 ▶ https://www.anaconda.com/download/ | 설치방법 사이트에 들어가셔서 위 사이트에서 3.7 version 다운로드 버튼을 누르시면 바로 다운로드가 진행됩니다. 그리고 64bit, 32bit 버전이 둘 다 있는데 맞는 거 쓰시면 됩니다. 저는 32bit 버전으로 진행하도록 하겠습니다. (..

| Python(파이썬) 파이썬(Python)은 귀도 반 로섬(Guido van Rossum) 네덜란드 아저씨가 만든 인터프리터 언어입니다. 문법이 매우 간결하고 직관적으로 설계되어 있고 거기에 풍부한 라이브러리, 효율적인 자료구조 등 여러 좋은 장점이 많은 언어입니다. Tensorflow같은 인공지능 라이브러리나 나 Numpy같은 수치해석 라이브러리의 힘을 토대로 데이터 사이언스, AI 분야에서 매우 핫한 언어죠. | Web Crawling(웹 크롤링) Web Crawling(웹 크롤링)은 프로그램을 통해 인터넷 상에 있는 웹 페이지들의 데이터들을 추출하는 것을 의미합니다. 방대한 양의 웹 페이지들의 데이터들 프로그램을 통해 긁어모아 원하는 데이터셋을 구축하고 그 데이터셋을 통해 유의미한 정보나 결과를..

| 가설 검정( Hypothesis Testing ) 가설 검정은 증명된 바 없는 주장이나 가설을 표본 통계량에 입각하여 진위 여부를 판단하는 통계적 추론 방식입니다. 통계적 근거에 기반한 가설 검정은 우리가 세운 어떤 가설에 대해 완벽하게 증명하지 못합니다. 하지만 그 가설이 어느정도 신뢰할 수 있는 지에 대한 어떤 측정값을 우리에게 제공해 줄 수 있습니다. 가설 검정은 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)을 설정하여 현재 세운 가설이 맞는지 아닌지를 가늠합니다. 귀무가설은 어떠한 차이가 없거나 의미 있는 차이가 없는 경우의 가설, 관습적이고 보수적인 주장이며 기각(reject)이 목표인 가설을 말합니다. null hypothesis란 용어로 ..

| 판다스 분포 : 이항분포, 정규분포, 카이제곱분포 (Pandas Distribution : binomial, normal, uniform, chisquare) 판다스에서는 여러 확률분포들을 시뮬레이션 할 수 있도록 유용한 기능을 제공하고 있습니다. 다음은 그와 관련된 예제들입니다. import pandas as pd import numpy as np # 0.5의 확률로 1번 시도했을 경우 # 성공한 횟수를 나타냄 (binomial distribution) binom = np.random.binomial(1, 0.5) print(binom) # 0 # 0.5의 확률로 1000번 시도해서 성공한 비율 binom_possible = np.random.binomial(1000, 0.5)/1000 print(..

| 판다스(Pandas) Timestamp, Period 판다스(Pandas)에서는 Timestamp, Period를 이용하여 시계열 데이터를 쉽게 다룰 수 있는 기능을 제공합니다. 다음 예제는 그 기능들을 이용하여 시계열 데이터를 만들고 처리하는 파이썬 코드들입니다. import pandas as pd import numpy as np time1 = pd.Timestamp('9/1/2016 10:05AM') print(time1) ''' 2016-09-01 10:05:00 ''' period = pd.Period('3/5/2016') print(period) ''' 2016-03-05 ''' # timestamp 인덱스 t1 = pd.Series(list('abc'), [pd.Timestamp('201..

| 판다스 피벗 테이블(Pandas Pivot Table) 판다스에서는 DataFrame의 피벗 테이블(Pivot Table)을 만들 수 있는 기능을 제공한다. 아래 코드는 판다스를 통해 피벗 테이블을 어떻게 만들 수 있는지를 알아 볼 수 있는 예제들이다. import pandas as pd import numpy as np df = pd.read_csv('cars.csv') print(df.head()) ''' YEAR Make Model ... RATING (km) TIME (h) 0 2012 MITSUBISHI i-MiEV ... NaN 100 7 1 2012 NISSAN LEAF ... NaN 117 7 2 2013 FORD FOCUS ELECTRIC ... NaN 122 4 3 2013 MITS..

| 파이썬 카테고리 타입 및 cut을 이용한 범위 나누기 파이썬에서는 데이터프레임(DataFrame)을 이루는 시리즈(Series) 타입 자료구조를 카테고리 타입(Category Type)으로 캐스팅하여 데이터 분석에 용이하게 쓸 수 있도록 할 수 있습니다. 또한 cut 메서드를 사용하여 데이터를 특정한 값의 범위로 나누어 그룹화하는 것도 가능합니다. 아래는 그에 대한 예제를 모아놓은 것입니다. import pandas as pd import numpy as np df = pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'], index=['excellent', 'excellent', 'excellent', 'good', ..

| 파이썬 집계함수 groupby groupby는 SQL 문의 group 처럼 어느 특정 컬럼을 묶어 그에 대한 집계연산을 지원하는 함수입니다. 데이터프레임에서 인덱스 혹은 컬럼에 대하여 그 컬럼을 기준으로 그룹을 묶고 난 후 sum 이나 avg 같은 집계 함수를 통해 원하는 데이터를 추출 할 수 있습니다. 다음은 groupby에 대한 예제를 정리한 것입니다. import pandas as pd import numpy as np df = pd.read_csv('census.csv') # SUMLEV이 50인 데이터를 데이터프레임에서 추출 df = df[df['SUMLEV']==50] print(df) ''' SUMLEV REGION ... RNETMIG2014 RNETMIG2015 1 50 3 ... 2..