Python/파이썬 데이터 분석: 17개의 글
| 가설 검정( Hypothesis Testing ) 가설 검정은 증명된 바 없는 주장이나 가설을 표본 통계량에 입각하여 진위 여부를 판단하는 통계적 추론 방식입니다. 통계적 근거에 기반한 가설 검정은 우리가 세운 어떤 가설에 대해 완벽하게 증명하지 못합니다. 하지만 그 가설이 어느정도 신뢰할 수 있는 지에 대한 어떤 측정값을 우리에게 제공해 줄 수 있습니다. 가설 검정은 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)을 설정하여 현재 세운 가설이 맞는지 아닌지를 가늠합니다. 귀무가설은 어떠한 차이가 없거나 의미 있는 차이가 없는 경우의 가설, 관습적이고 보수적인 주장이며 기각(reject)이 목표인 가설을 말합니다. null hypothesis란 용어로 ..
| 판다스 분포 : 이항분포, 정규분포, 카이제곱분포 (Pandas Distribution : binomial, normal, uniform, chisquare) 판다스에서는 여러 확률분포들을 시뮬레이션 할 수 있도록 유용한 기능을 제공하고 있습니다. 다음은 그와 관련된 예제들입니다. import pandas as pd import numpy as np # 0.5의 확률로 1번 시도했을 경우 # 성공한 횟수를 나타냄 (binomial distribution) binom = np.random.binomial(1, 0.5) print(binom) # 0 # 0.5의 확률로 1000번 시도해서 성공한 비율 binom_possible = np.random.binomial(1000, 0.5)/1000 print(..
| 판다스(Pandas) Timestamp, Period 판다스(Pandas)에서는 Timestamp, Period를 이용하여 시계열 데이터를 쉽게 다룰 수 있는 기능을 제공합니다. 다음 예제는 그 기능들을 이용하여 시계열 데이터를 만들고 처리하는 파이썬 코드들입니다. import pandas as pd import numpy as np time1 = pd.Timestamp('9/1/2016 10:05AM') print(time1) ''' 2016-09-01 10:05:00 ''' period = pd.Period('3/5/2016') print(period) ''' 2016-03-05 ''' # timestamp 인덱스 t1 = pd.Series(list('abc'), [pd.Timestamp('201..
| 판다스 피벗 테이블(Pandas Pivot Table) 판다스에서는 DataFrame의 피벗 테이블(Pivot Table)을 만들 수 있는 기능을 제공한다. 아래 코드는 판다스를 통해 피벗 테이블을 어떻게 만들 수 있는지를 알아 볼 수 있는 예제들이다. import pandas as pd import numpy as np df = pd.read_csv('cars.csv') print(df.head()) ''' YEAR Make Model ... RATING (km) TIME (h) 0 2012 MITSUBISHI i-MiEV ... NaN 100 7 1 2012 NISSAN LEAF ... NaN 117 7 2 2013 FORD FOCUS ELECTRIC ... NaN 122 4 3 2013 MITS..
| 파이썬 카테고리 타입 및 cut을 이용한 범위 나누기 파이썬에서는 데이터프레임(DataFrame)을 이루는 시리즈(Series) 타입 자료구조를 카테고리 타입(Category Type)으로 캐스팅하여 데이터 분석에 용이하게 쓸 수 있도록 할 수 있습니다. 또한 cut 메서드를 사용하여 데이터를 특정한 값의 범위로 나누어 그룹화하는 것도 가능합니다. 아래는 그에 대한 예제를 모아놓은 것입니다. import pandas as pd import numpy as np df = pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'], index=['excellent', 'excellent', 'excellent', 'good', ..
| 파이썬 집계함수 groupby groupby는 SQL 문의 group 처럼 어느 특정 컬럼을 묶어 그에 대한 집계연산을 지원하는 함수입니다. 데이터프레임에서 인덱스 혹은 컬럼에 대하여 그 컬럼을 기준으로 그룹을 묶고 난 후 sum 이나 avg 같은 집계 함수를 통해 원하는 데이터를 추출 할 수 있습니다. 다음은 groupby에 대한 예제를 정리한 것입니다. import pandas as pd import numpy as np df = pd.read_csv('census.csv') # SUMLEV이 50인 데이터를 데이터프레임에서 추출 df = df[df['SUMLEV']==50] print(df) ''' SUMLEV REGION ... RNETMIG2014 RNETMIG2015 1 50 3 ... 2..
| 판다스 관용 해법(Idiomatic Pandas) 판다스(Pandas)에서는 데이터 프레임을 통한 데이터 처리를 좀 더 수월하게 할 수 있도록 판다스만의 솔루션을 지원합니다. 이것을 관용 해법(Idiomatic Pandas)이라 말하고 Pandorable한 코드라고 판다스 커뮤니티에서는 이야기합니다. 마치 파이썬에서도 다른 언어에서는 볼 수 없는 파이썬 만의 독특한 처리방식이 있는 것처럼 판다스도 고유의 처리방법을 지원하는 거라 생각하시면 될 것 같습니다. 관용 해법은 높은 성능과 가독성을 동시에 지니고 있습니다. 이 방식을 채택하여 보통 파이썬언어가 지원하는 방식보다 간결하고 깔끔한 코드로 데이터를 처리하는 것이 가능해집니다. | 판다스 관용해법 예제(Idiomatic Pandas Example) ..
| 데이터 프레임 조인하기(DataFrame Join) 판다스(Pandas)에서는 데이터 프레임간에 SQL문의 테이블 간 조인 연산처럼 데이터 프레임을 합칠 수 있는 기능을 지원합니다. 아래 그림에 나와있는 모든 조인 연산을 지원합니다. | 데이터 프레임 조인 예제(DataFrame Join Example) import numpy as np import pandas as pd df = pd.DataFrame([{'Name': 'Chris', 'Item Purchased': 'Sponge', 'Cost': 22.50}, {'Name': 'Kevyn', 'Item Purchased': 'Kitty Litter', 'Cost': 2.50}, {'Name': 'Filip', 'Item Purchased': 'S..
| 파이선 판다스(Python Pandas) 파이썬 판다스(Python Pandas)는 파이썬 언어로 데이터를 분석하기 위한 쉽게하기 위한 자료구조 및 기능들을 제공하는 패키지입니다. 판다스가 제공하는 여러 기능들을 통해서 데이터 분석 과정 중 가장 까다로운 작업 중 하나인 데이터 전처리를 보다 쉽게할 수 처리할 수 있습니다. | 파이썬 시리즈(Python Series) 파이썬 시리즈(Python Series)는 판다스의 중요 자료구조 중 하나입니다. 시리즈는 인덱스와 그와 짝지어진 데이터로 이루어져 있습니다. 다음은 시리즈 자료구조를 이용한 예시들입니다. import pandas as pd an..
| 파이썬 넘파이(Python Numpy) 파이썬 넘파이(Numpy)는 파이썬에서 배열과 행렬들을 효율적으로 다룰 수 있게 해 주는 패키지로서 데이터 정보학계에서 광범위하게 쓰입니다. | 파이썬 넘파이로 배열 및 행렬 만들기(Python Numpy Array, Matrix) 다음은 넘파이에 대한 여러 예제입니다. import numpy as np mylist = [1,2,3] # numpy array로 바구기 x = np.array(mylist) print(x) # array([1, 2, 3]) y = np.array([4,5,6]) print(y) # array([4, 5, 6]) m = np.array([7,8,9], [10,11,12]) # 행렬 만들기 print(m) '''[[ 7 8 9] [10..