본문 바로가기

빅데이터/헬로 데이터 과학5

엑셀로 해보는 통계적 추론 [데이터 불러오기] 실습에 사용할 데이터 셋은 1993년 미국의 한 대학에서 공기를 채운 축구공과 헬륨을 채운 측구공을 찼을 때의 거리를 비교하는 실험을 수행한 결과다. 실험은 39회 반복되었으며, 각 시도마다 키커가 공기 및 헬륨을 넣은 공을 교대로 차서 거리를 측정했다. fba.txt 파일을 복사해서 엑셀에 붙여넣는다. 다음과 같이 엑셀에 데이터가 정리된다. 위 데이터의 Trial은 시도 횟수, Air은 공기가 담긴 공의 비행 거리, Helium은 헬륨이 담긴 공의 비행 거리를 나타낸다. [탐색적 데이터 분석] 본격적으로 통계적 추론에 나서기 이전에 데이터를 살펴보는 탐색적 분석을 수행해보자. 우선 각 시도에 대한 거리의 분포를 살펴볼 필요가 있다. 표와 추세선이 포함된 차트를 그리기 위한 실습 과정.. 2023. 8. 20.
엑셀로 해보는 탐색적 데이터 분석 [데이터 불러오기] mpg.txt 파일을 복사해서 엑셀에 붙여넣는다. 다음과 같이 엑셀에 데이터가 정리된다. [데이터 준비하기] 정리된 데이터에 표 서식을 적용하고, 수치형을 갖는 속성에 조건부 서식을 적용해보자. 엑셀의 조건부 서식은 각 셀 값에 따라 자동으로 서식을 결정해주는 기능으로, 클릭 한 번으로 값 분포를 한눈에 볼 수 있다. E열, H열, I열에 셀 값에 따라 색상이 달라지는 조건부 서식을 적용해보자. 실습 과정은 다음과 같다. 1. 워크시트의 데이터 전체를 선택한다. 2. 메뉴에서 표 서식을 선택한 후 적절한 모양을 선택한다. 3. 표 서식을 적용한다. 4. 서식을 적용할 셀의 범위를 선택한다. 5. 조건부 서식 메뉴에서 적절한 서식을 고른다. 6. 조건부 서식이 적용된 결과는 다음과 같다.. 2023. 8. 13.
엑셀을 이용한 데이터 준비 pew.txt 파일을 복사해서 엑셀에 붙여넣는다. pew.txt 파일은 탭으로 구분된 파일이므로 텍스트 파일에서 복사해 엑셀에 붙여넣기만 하면 된다. 테이블의 각 속성이 서로 다른 소득 구간에 속하는 사람들의 분포를 나타내는 것을 알 수 있다. 이런 테이블은 분포를 한 눈에 보기는 편할지 몰라도, 데이터를 가지고 각종 연산이나 시각화를 하기에는 불편하다. 별도의 속성으로 존재해야 할 소득 구간이 속성의 이름으로 들어가 있고, 또한 수치가 아니라 구간의 형태를 띠기 때문이다. 즉, 이 데이터는 각 행이 개별 속성을 포함해야 한다는 표준 테이블의 원칙을 어기고 있다. 우선 소득 구간 속성을 수치형 속성으로 바꾸는 작업을 진행해주었다. 1행의 소득 구간을 수치형 속성으로 하나씩 바꿔 주었다. 주어진 데이터가 .. 2023. 8. 6.
R로 데이터 과학 맛보기 [R의 기본 기능] R에 기본적으로 mtcars 데이터 셋이 mtcars라는 이름으로 설치되어 있기 때문에 mtcars라는 명령어를 실행하면 데이터를 볼 수 있다. summary 함수를 사용하면 각 속성별로 값 분포를 볼 수 있다. 데이터를 파일로 저장하거나 불러들이는 데는 write.table()과 read.table() 함수를 사용한다. 다음은 mtcars 데이터를 파일로 저장하고 이를 cars라는 이름으로 다시 불러들이는 방법이다. 여기서 header=T 옵션은 데이터 파일의 첫 줄을 속성 목록으로 사용한다는 의미다. 앞으로는 원본 데이터인 mtcars 대신에 cars를 사용하여 실습을 진행한다. R의 기본 자료형은 테이블 형태의 데이터 프레임이기에 대부분의 데이터는 한 화면에 들어오지 않는다. 그.. 2023. 7. 30.
엑셀로 데이터 과학 맛보기 [데이터 불러오기] mtcars 데이터를 담은 mtcars.txt 파일을 텍스트 마법사로 불러들이는 과정은 다음과 같다. 1. mtcars.txt 파일을 메모장으로 연다. 2. 내용을 모두 복사하여 엑셀에 붙여넣는다. 3. Ctrl을 눌러 텍스트 마법사로 들어간다. 4. 텍스트 마법사가 열리면 모든 설정을 그대로 둔 채 마침을 누른다. 5. 다음과 같이 엑셀에 테이블 형태로 데이터가 정리된다. [데이터 준비하기] 데이터를 불러온 후에는 분석에 맞는 형태로 가공해야 한다. 가공 작업에는 필요한 데이터를 선택하고, 오류를 검사하며, 필요한 경우 적절히 정렬하거나 집계하는 작업이 포함된다. 엑셀에서 데이터를 가공하는 가장 손쉬운 방법은 '표 서식' 기능을 사용하여 데이터를 테이블 형태로 만드는 것이다. 테이블.. 2023. 7. 30.