[데이터 불러오기]
mpg.txt 파일을 복사해서 엑셀에 붙여넣는다.
다음과 같이 엑셀에 데이터가 정리된다.
[데이터 준비하기]
정리된 데이터에 표 서식을 적용하고, 수치형을 갖는 속성에 조건부 서식을 적용해보자. 엑셀의 조건부 서식은 각 셀 값에 따라 자동으로 서식을 결정해주는 기능으로, 클릭 한 번으로 값 분포를 한눈에 볼 수 있다. E열, H열, I열에 셀 값에 따라 색상이 달라지는 조건부 서식을 적용해보자. 실습 과정은 다음과 같다.
1. 워크시트의 데이터 전체를 선택한다.
2. 메뉴에서 표 서식을 선택한 후 적절한 모양을 선택한다.
3. 표 서식을 적용한다.
4. 서식을 적용할 셀의 범위를 선택한다.
5. 조건부 서식 메뉴에서 적절한 서식을 고른다.
6. 조건부 서식이 적용된 결과는 다음과 같다.
여기서 다루는 MPG 데이터 셋은 크지는 않지만 한눈에 들어오지 않는다. 이런 경우 데이터에서 표본추출을 하면 한눈에 들어오는 크기로 줄일 수 있다. 엑셀에서 30개의 항목을 무작위로 추출하려면 다음 순서를 따른다.
1. 표의 가장 오른쪽인 L1셀 위에 'sample'이라고 입력한다.
2. 표 서식이 적용된 상태라면 자동으로 표가 확장된다.
3. 속성값에 임의의 난수를 발생시키는 rand() 함수를 입력한다.
4. 표 서식의 효과로 한 셀에 값을 입력하면 모든 값에 동일한 값이 입력된다.
5. sample 속성이 선택된 상태에서 홈/정렬 및 필터/숫자 오름차순 정렬 메뉴를 선택한다. 메뉴를 선택하면 다음과 같이 임의의 난수 값을 기준으로 데이터가 정렬된다.
6. 정렬된 표의 위에서부터 31개의 행을 선택한다. sample이라는 워크시트를 만들고 선택한 데이터를 붙여넣으면 원본 데이터에서 30개를 무작위로 추출한 표본이 완성된다.
이제 표본 데이터를 통해 데이터 값을 살펴보자. 항목의 수가 한 화면에 들어올 정도로 적어졌기 때문에 데이터의 개별 속성이 갖는 분포가 한눈에 들어온다. 표본 추출 및 시각화는 원본 데이터의 크기에 관계없이 적용할 수 있는 유용한 기법이다.
[개별 속성 분석하기]
데이터의 개별 속성을 분석해보자. 우선 카테고리형 속성값은 피벗 테이블을 통해 분석할 수 있다. 실습 과정은 다음과 같다.
1. 원본 데이터에 커서를 두고 전체 선택한다.
2. 삽입/피벗 테이블 메뉴를 이용하여 피벗 테이블을 삽입한다.
3. 행 필드에 실린더 수(cyl), 값 필드에 도시 연비(cty)를 선택한다.
4. 집계 방법으로 개수를 선택한다.
5. 다음과 같이 피벗 테이블이 생성된다.
6. 피벗 테이블을 복사해서 새로 붙여넣는다. 붙여넣은 테이블의 행 속성을 drv로 바꾸면 구동 방식에 따른 항목 개수를 볼 수 있다.
이처럼 피벗 테이블을 사용하여 다양한 카테고리형 속성값의 분포를 확인할 수 있다. 하지만 개별 데이터 항목마다 값이 다른 수치형 데이터에는 위와 같은 기법을 적용하기 어렵다. 수치형 속성의 분포를 확인하는 가장 일반적인 방법은 히스토그램으로 실습 과정은 다음과 같다.
1. 히스토그램에 사용할 구간을 원본 데이터 옆에 직접 입력하자. 이 구간은 입력 데이터 값을 나누는 기준이 된다.
2. 데이터/데이터 분석 메뉴에서 히스토그램을 선택한다.
3. 입력 범위는 히스토그램으로 나타내고 싶은 입력 데이터의 범위를, 계급 구간은 히스토그램의 각 영역의 시작과 끝을 나타낸다. 다음과 같이 입력 범위를 $H:$H, 계급 구간을 $N$1:$N$9로 정의한다. 이때, 계급 구간의 첫 번째 행이 속성 이름(MPG)을 나타내므로 이름표 박스를 체크한다.
4. 최종적으로 확인 버튼을 누르면 다음과 같이 히스토그램이 생성된다.
5. 히스토그램을 선택한 상태에서 삽입 메뉴를 통해 차트를 추가한다. 다음과 같이 연비의 분포를 시각적으로 확인할 수 있다. 차트의 제목을 편집하기 위해서는 제목을 더블 클릭하면 된다.
6. 위와 같은 절차를 고속도로 연비(hwy) 속성에 대해서도 수행하고 차트 이름을 적절히 수정해주면 다음과 같은 히스토그램을 확인할 수 있다. 대부분 차량의 경우 도시 연비는 15~25MPG 사이지만 고속도로 연비는 전반적으로 높으며, 차종 간 편타가 좀 더 크다는 사실을 알 수 있다.
히스토그램이 주어진 속성값의 분포를 시각적으로 보여주는 반면, 통계 지표를 사용하면 수치 데이터의 전반적인 추세를 하나의 수치로 요약해서 확인할 수 있다. 엑셀에서는 통계 지표를 계산하는 다양한 함수를 제공하지만 통계 데이터 분석 도구를 사용하면 주어진 데이터에 대한 다양한 지표를 한 번에 계산할 수 있다. 통계 데이터 분석 도구를 사용하여 도시 및 고속도로 연비의 추세를 통계 지표로 나타내보자. 실습 과정은 다음과 같다.
1. 데이터/데이터 분석 메뉴에서 기술 통계법을 선택한다.
2. 입력 범위로 원본 데이터의 H행과 I행을 선택한다.
3. 선택된 범위의 첫째 행은 속성의 이름이므로 첫째 행 이름표 사용을 체크한다. 드리고 출력 옵션에서 보고 싶은 통계값을 모두 선택한다.
4. 최종적으로 확인 버튼을 누르면 다음과 같이 통계 지표를 확인할 수 있다.
[속성 간의 관계 분석하기]
이제 속성 간의 관계를 분석해보자. 먼저 통계 데이터 분석 도구의 상관 분석 기능을 사용하여 수치형 속성 간의 관계를 살펴보자. 상관 분석은 수치 테이블을 대상으로 하는데 실습 과정은 다음과 같다.
1. 데이터/데이터 분석 메뉴에서 상관 분석을 선택한다.
2. 입력 범위로 E행부터 I행까지 선택한다. 첫째 행은 속성의 이름이므로 첫째 행 이름표 사용을 체크한다.
3. 최종적으로 확인 버튼을 누르면 다음과 같이 상관 분석 결과를 확인할 수 있다. 테이블의 각 셀 값은 행과 열에 해당하는 속성의 상관도를 나타낸다. 여기서 1은 완전한 양의 상관 관계를, 0은 상관 관계가 없음을, -1은 완전한 음의 상관 관계를 의미한다.
4. 우리가 필요한 것은 서로 다른 속성 간의 상관도이므로 위의 표에서 상관도를 제거한 다음 조건부 서식을 적용한다.
5. 위와 같이 조건부 서식을 적용하면 각 속성 간의 상관도를 상관 계수와 색상으로 한눈에 확인할 수 있다. B4 셀은 양의 상관도를, B5 셀은 음의 상관도를 나타낸다.
이처럼 상관 분석은 두 속성값이 얼마나 비슷한 추세로 변화하는지를 요약한다. 위 표를 통해 배기량(displ)이 높고 실린더 개수(cyl)가 많을수록 자동차의 연비(cty, hwy)가 낮아짐을 알 수 있다. 하지만 상관도만 가지고는 두 속성 간의 정확한 관계를 유추하기 힘들다. 같은 상관도라도 데이터 분포는 다양할 수 있기 때문이다.
따라서 스케터플롯을 사용하면 속성 간의 상관 관계를 한눈에 볼 수 있다. 이처럼 시각화를 통해 상관 계수로는 확인하기 힘든 데이터의 이상값 등도 확인할 수 있다.
'빅데이터 > 헬로 데이터 과학' 카테고리의 다른 글
엑셀로 해보는 통계적 추론 (0) | 2023.08.20 |
---|---|
엑셀을 이용한 데이터 준비 (0) | 2023.08.06 |
R로 데이터 과학 맛보기 (0) | 2023.07.30 |
엑셀로 데이터 과학 맛보기 (0) | 2023.07.30 |