데이터: 8개의 글
데이터에서 특정 컬럼을 추출해야 하는 경우 기본으로 awk를 사용하면 seperator는 " "(공백)으로 들어가기 때문에 -F오션을 사용해서 내가원하는 delimter를 설정할 수 있다. print $를 사용하면 되는데, index는 1부터 시작이다 $ awk -F "\t" '{print $5}' data.txt.sample reference https://stackoverflow.com/questions/2609552/how-to-use-as-awk-field-separator 출처 : ourcstory.tistory.com/526?category=716432
데이터에서 구분자를 변경하는 방법 데이터의 delimeter가 항상 같지 않기 때ㅔ문에 알아 놓으면 좋은 방법! 1) tab을 ,로 변경하는 방법 $ sed 's/\t/,/g' inputfile > outputfile 2) ,를 tab으로 변경하는 방법 $ sed 's/,/\t/g' inputfile > outputfile $ sed 's/::/,/g' ratings.dat > ratings.csv 참고 https://stackoverflow.com/questions/3509332/how-to-convert-a-tab-separated-file-into-comma-separated-file 출처 : ourcstory.tistory.com/451?category=716432
데이터를 특정 퍼센트로 나누는 방법 하나의 큰 데이터를 특정 퍼센트 만큼 샘플링을 하거나, train/test 데이터셋으로 나누고 싶은 경우가 있는데, 이때 사용하면 좋다. 1) split 70% based on lines split -l $[ $(wc -l filename|cut -d" " -f1) * 70 / 100 ] filename 2) split 70% based on bytes split -b $[ $(wc -c filename|cut -d" " -f1) * 70 / 100 ] filename 참고 https://unix.stackexchange.com/questions/10219/split-how-to-split-into-different-percentages 출처 : ourcstory.ti..
들어가며 JavaScript에서 웹 개발을 할때 Front의 코드를 구현할때 Ajax를 이용하면 쉽게 서버로부터 데이터를 받아오고, 전송을 할 수 있다. 아래 소스코드는 nodeJs와 같이 웹 서버 프레임워크가 설치가 되어있고, 서버가 실행이 되어 있어, 해당 요청 URL을 처리를 할 수 있는 상태가 필요하다. 전송하는 방법은 앞서 설명했던 HTTP Request를 사용하고, 보통은 HTTP GET을 통해 서버로부터 데이터를 받아오고, HTTP POST를 통해서 데이터를 전송하는 방법을 사용하지만. POST로도 데이터 전송이 가능하다는 점~ 서버에서 Web Front로 데이터 전송 서버로 부터 초기의 데이터를 Web Application으로 불러오는 소스코드입니다. ajax로 설정한 url을 요청을 하면..
JSON APIs와 Ajax를 이용해 데이터 로딩 및 완료 된 데이터를 처리해 HTML 화면에 출력하는 예제 들어가며 만약 날씨 정보와 같이 수시로 변하는 데이터를 HTML을 통해 화면에 출력을 해주고 싶다면 어떻게 해야할까요? 이처럼 고정값이 아닌, 항상 변하는 값을 HTML을 통해 출력해야 하기 때문에 로컬 파일이나, 클라우드에 있는 파일에서 값을 가져와 HTML페이지에 출력을 해줘야 합니다. 그렇다면 데이터를 어떻게 어디서 어떤 형태로 가져오는지 알아보겠습니다. APIs(Application Programming Interfaces)는 애플리케이션 사이에 소통하는 인터페이스를 말합니다. 우리가 흔히 말하는 Google APIs도 같은 애플리케이션 간에 소통하는 인터페이스를 제공합니다. 우리가 특정 ..
stdin과 stdout을 이용해서 데이터를 파이핑할 수 있다. 파일에 숫자가 포함된 줄이 몇개나 있는지 확인하는 방법 import sys, re regex = sys.argv[1] for line in sys.stdin: if re.search(regex, line): sys.stdout.write(line) import sys count = 0 for line in sys.stdin: count += 1 print count $ cat SomeFile.txt | python egrep.py “[0-9]” | python line_count.py 문서의 단어를 모두 세어 보고 가장 자주 나오는 단어를 출력해주는 코드 import sys from collections import Counter # 출력하..
오라일리 출판사 페이지 웹페이지를 분석해서 데이텀의 잠재적 투자자가 데이터 분석은 의미없는 유행에 불과하다는 생각이 틀리다는 것을 증명해보도록 하자. http://shop.oreilly.com/category/browse-subjects/data.do?sortby=publicationDate%page=1 의 주소를 확인해보면 페이지당 30권씩 책이 표시되고 있는것을 확인 할 수 있다. 악의적으로 사이트에 접속하는 것이 아니거나, 웹 스크래퍼가 차단당하는 것을 원치 않는다면 가장 먼저 사이트의 접근 정책을 확인해야 한다. http://oreilly.com/terms/ 크롤러(스크래퍼)가 어떻게 작동해야 하는지 규제하고 있는 robots.txt를 확인해보면 된다. Crawl-delay: 30 Request-..
이번에는 네트워크 상에서 우리가 데이터를 어떻게 받는 지 간략하게 알아 보도록 하겠습니다. 우리가 네트워크를 통해서 받는 데이터들은 본질적으로 전기 신호입니다. 이 전기 신호들은 전압이 일정 패턴으로 변하여 생기는 일련의 흐름으로 되어 있습니다. 잘 이해가 안 가시면 다음 그림을 보시면 이해가 되실 겁니다. [네트워크 상에서 수신된 전기 신호] 위 그림에서 보면 V, -V사이로 전압이 계속 변하는 것을 보실 수 있을 겁니다. 이 변화가 모여서 전기 신호(signal)가 되죠. 이런 전기 신호들을 주고 받음으로써 네트워크 상에서 게임이나 사진, 문서 등을 주고 받을 수 있는 겁니다. 그림, 사진, 파일 등 우리가 아는 컴퓨터 데이터를 네트워크에 보내기 전에 먼저 전기 신호로 바뀌게 되는 과정을 거치게 되는..