[데이터 불러오기]
mtcars 데이터를 담은 mtcars.txt 파일을 텍스트 마법사로 불러들이는 과정은 다음과 같다.
1. mtcars.txt 파일을 메모장으로 연다.
2. 내용을 모두 복사하여 엑셀에 붙여넣는다.
3. Ctrl을 눌러 텍스트 마법사로 들어간다.
4. 텍스트 마법사가 열리면 모든 설정을 그대로 둔 채 마침을 누른다.
5. 다음과 같이 엑셀에 테이블 형태로 데이터가 정리된다.
[데이터 준비하기]
데이터를 불러온 후에는 분석에 맞는 형태로 가공해야 한다. 가공 작업에는 필요한 데이터를 선택하고, 오류를 검사하며, 필요한 경우 적절히 정렬하거나 집계하는 작업이 포함된다. 엑셀에서 데이터를 가공하는 가장 손쉬운 방법은 '표 서식' 기능을 사용하여 데이터를 테이블 형태로 만드는 것이다. 테이블 형태로 만들어진 데이터에는 정렬, 필터, 중복 제거 등 엑셀이 제공하는 다양한 데이터 분석 기능을 적용할 수 있다. 표 서식 적용 과정은 다음과 같다.
1. 워크시트의 데이터 전체를 선택한다.
2. 메뉴에서 표 서식을 선택한 후 적절한 모양을 선택한다.
3. 표 서식이 적용된 결과는 다음과 같다.
테이블로 만든 데이터에 속성을 추가하거나 삭제해야 할 경우가 종종 생긴다. 이때 엑셀에세 제공하는 다양한 함수를 이용할 수 있다. A열은 제조사와 모델명으로 구성되어 있다. 실습을 통해 자동차명 속성의 첫 번째 단어만 따서 제조사명에 해당하는 속성을 만들어보자. 실습 과정은 다음과 같다.
1. A열 오른쪽에 열 하나를 추가한다.
2. B1셀에 'maker'를 입력한다.
3. B2셀에 '=IFERROR(LEFT(A2,FIND(" ",A2)-1," ")를 입력한다.
4. maker 속성이 추가된 결과는 다음과 같다.
[데이터 분석 및 시각화하기]
데이터 분석의 중요한 요소는 적절한 방식으로 주어진 데이터를 시각화하는 것이다. 엑셀에서는 조건부 서식을 사용하면 셀 값에 따라 색상을 변경하거나, 셀 안에 간단한 차트를 넣을 수 있다. 따라서 셀 값의 분포를 한눈에 확인할 수 있게 된다. 실습을 통해 무게(wt) 속성에 조건부 서식을 넣어보자. 실습 과정은 다음과 같다.
1. 서식을 적용할 셀의 범위를 선택한다. 왼쪽 그림에서 H를 클릭하면 wt 속성 전체를 선택할 수 있다.
2. 조건부 서식 메뉴에서 적절한 서식을 고른다.
3. 조건부 서식이 적용된 결과는 다음과 같다.
변수 간의 관계를 시각적으로 확인하기 위해 차트를 사용할 수도 있다. 실습을 통해 두 수치형 변수 마력(hp)과 무게(wt) 속성 간의 관계를 시각화하는 데 적합한 스케터플롯을 그려보자. 실습 과정은 다음과 같다.
1. 시각화의 대상이 되는 속성 두 개를 선택한다. 따로 떨어진 두 개의 속성을 선택하기 위해서는 한 속성을 먼저 선택한 다음 Ctrl를 누르고, 남은 속성을 마저 선택하면 된다.
2. 삽입 메뉴에서 분산형을 선택한다.
3. 마력(hp) 속성과 무게(wt) 속성 간의 스케터플롯을 그린 결과이다. 이 차트를 보면 마력과 무게 사이에 어느 정도의 상관 관계가 존재한다는 것을 알 수 있다.
4. 차트 제목을 더블클릭해서 제목을 수정할 수 있다.
[데이터 집계하기]
원본 데이터를 분석에 바로 활용하는 경우도 있지만, 많은 데이터를 적절한 형태로 집계하는 과정을 거쳐야 한다. 엑셀의 피벗 테이블은 데이터에 다양한 기준과 연산을 적용하여 집계하는 기능이다. 즉, mtcars 데이터 셋에 포함된 차들의 실린더, 모델, 그리고 변속기의 사양에 따른 연비를 알고 싶다면 피벗 테이블을 만들어야 한다. 실습 과정은 다음과 같다.
1. 작업 대상이 되는 데이터를 선택한다.
2. 메뉴에서 삽입/피벗 테이블을 선택한다. 피벗 테이블 만들기 창이 뜨면 확인을 누른다.
3. 피벗 테이블 필드 창에서 필터, 행, 열 값으로 사용할 속성을 다음과 같이 선택한다.
피벗 테이블은 기본적으로 합계를 집계 방법으로 사용한다. 실린더 개수 및 변속기 종류에 따른 연비의 평균값을 보기 위해서는 다음과 같이 집계 방법을 바꿀 수 있다. 실습 과정은 다음과 같다.
1. 피벗 테이블의 값 속성 옆의 역삼각형 모양을 클릭하고 값 필드 설정을 누른다.
2. 값 필드 설정으로 들어가 집계 방법을 선택한다. 해당 예제에서는 집계 방법으로 평균을 사용하였다.
3. 다음과 같이 피벗 테이블이 만들어졌다.
위 테이블을 통해 실린더 및 기어 개수에 따른 연비를 한눈에 파악할 수 있다. 앞서 살펴본 피벗 테이블의 값을 바탕으로 피벗 차트라는 그래프를 생성할 수도 있다. 실습 과정은 다음과 같다.
1. 작업 대상이 되는 피벗 테이블에 커서를 위치한다.
2. 삽입/세로 막대형 메뉴에서 2차원 세로 막대형의 맨 위 첫 번째 차트 유형을 선택한다.
3. 기어 및 실린더 개수에 따른 연비 차트를 볼 수 있다. 피벗 차트는 현재 피벗 테이블의 내용을 그대로 시각화하므로, 피벗 테이블을 업데이트하면 차트에 바로 반영된다.
[작업의 효율성]
엑셀과 같이 수행할 기능을 메뉴에서 선택하는 방식은 처음에는 손쉽게 기능을 배울 수 있다는 장점이 있다. 하지만 복잡한 작업을 메뉴와 워크시트를 오가며 수행하다 보면 금방 지치게 되고, 같은 작업을 계속 반복하다 보면 효율이 증가하지 않는다. 즉, 메뉴 기반 프로그램의 반복 작업에는 한계가 존재한다. 엑셀에서는 이런 반복되는 작업을 위해 매크로 기능을 제공하지만 매크로는 데이터형이나 기능이 조금만 달라져도 금방 한계를 드러낸다.
'빅데이터 > 헬로 데이터 과학' 카테고리의 다른 글
엑셀로 해보는 통계적 추론 (0) | 2023.08.20 |
---|---|
엑셀로 해보는 탐색적 데이터 분석 (0) | 2023.08.13 |
엑셀을 이용한 데이터 준비 (0) | 2023.08.06 |
R로 데이터 과학 맛보기 (0) | 2023.07.30 |