데이터 리터러시란? 무엇인가?

Updated on

목차:

데이터란 무엇인가?

데이터에는 크게 정형 데이터와 비정형 데이터로 분류된다.

  • 정형 데이터 : 문자 또는 숫자가 정해진 규칙에 맞게 구조화된 데이터
  • 비정형 데이터 : 구조화된 데이터가 아니고 정리되지 않은 데이터

데이터 리터러시란?

  • 데이터를 이해하고 읽고 활용하는 능력을 말한다. 즉 데이터 리터러시는 데이터를 다루는 사람의 역량에 관한 질문이라고 할 수 있다.

데이터를 읽고 활용하기 위해선 어떻게 해야 하는가?

  • 데이터는 단순히 재료일 뿐이다. 우리는 이 데이터를 통해 Bussiness Question을 찾아낼 수 있어야 한다. 그러기 위해선 데이터 의미를 이해하기 위해 핵심적으로 필요한 역량이 뭔지 알고 있어야 한다.

데이터 리터러시 능력을 얻기 위한 핵심 Question

  1. 문제를 이해하고 정의하는 단계를 파악 - 어떤 문제에 직면 했을 때 그 문제에 답변하려면 어떻게 시작해야 하는가?
  2. 계획을 세우는 단계를 파악- 무엇을 어떻게 측정할 것인가? 연구 설계는 어떻게 할 것인가? 데이터 수집은 어떻게 할 것인가?
  3. 데이터를 이해하는 단계를 파악 - 수집 된 데이터를 어떻게 관리하고 처리할 것인가?
  4. 데이터를 분석하는 단계를 파악 - 데이터를 통해 어떤 인사이트를 도출해 낼 것인가? 어떻게 분석할 것인가?
  5. 합리적 의사 결정을 내리기 위한 단계를 파악 - 데이터를 통해 어떤 해석을 하고 결론을 내리고 효과적으로 의사 결정을 할 수 있는가?

데이터 기획 리터러시란?

  • 데이터 분석을 통해 풀고자 하는 문제를 설정해야 한다.
  • 모델 수립 및 적용 가능 알고리즘에 대한 이해해야 한다.

데이터 수집 리터러시란?

수집 데이터 유형과 방법

  • 수집 데이터는 Primary Data ( 1차 자료) 와 Secondary Data(2차 자료)로 구분된다.
  • 자료 수집과 도구 활용을 적재적소에 할 줄 알아야 한다.
Primary DataSecondary Data
자료 수집 방법설문조사/실험관찰DB추출/크롤링
자료 수집 도구구글 설문지 등프로그래밍 랭귀지 등

수집된 데이터의 태깅과 라벨링

  • 컴퓨터가 데이터를 의미있게 받아들이려면 그 정보를 이해할 수 있는 데이터로 수집해야한다.
  • 태그란? 데이터를 분류하고 정리할 때 찾기 쉽도록 꼬리표를 달아두는 것 이 행위를 태깅이라 한다.
  • 라벨이란? 인공지능이 인식할 수 없는 비정형 데이터를 인식해 학습할 수 있도록 사람이 직접 데이터에 달아 주는 표식 이 행위를 라벨링이라 한다.
  • 태깅과 라벨링 과정을 통해 수집된 데이터를 적재적소에 활용할 수 있도록 관리하여야 한다.

데이터 관리 리터러시

  • 데이터 관리는 파일과 데이터베이스로 이루어진다.
  • 파일은 연결된 구조가 없는 단일 데이터 혹은 개별 데이터를 일컫는다.
  • 데이터 베이스는 위와 같은 일련의 개별 파일들을 효과적으로 관리할 수 있도록 만들어진 시스템이다.
  • 데이터 유실을 막고 데이터의 개념적,논리적,물리적 설계 단계를 파악하고 데이터 베이스를 관리할 수 있어야 한다.

데이터 처리 리터러시

  • 원시 데이터에서 오류 및 방해 요소를 제거 분석이 가능해야 한다.
  • 데이터 소스로부터 형성된 신규 데이터가 주기적으로 입력될 때 분석에 용이한 형태로 수정이 가능해야 한다.
  • 형태가 다른 데이터 세트에서 추출,필터링,조정을 통해 여러 데이터를 하나의 데이터 세트로 통합 가능해야 한다.

데이터 분석 리터러시

  • 정리된 데이터를 분석의 목적에 맞는 다각도로 유연하게 가공,집계,요약하여 표본 데이터의 특징을 파악할 수 있어야 한다.
  • 정량적, 정성적으로 분석된 결과를 해석하여 설득력있는 보고서로 작성할 수 있어야 한다.

데이터 시각화 리터러시

  • 데이터 시각화란? 데이터를 그림이나 그래픽 형식으로 표현하고 의사결정을 내리고자 하는 사람은 시각적으로 표현된 분석 정보를 바탕으로 개념을 이해 새로운 패턴을 식별해낼 수 있도록 하는 과정이다.
  • 데이터 시각화 리터러시를 갖추기 위해선 시각적으로 표현된 보고서 활용 대상에 대한 이해가 있어야 한다.
  • 즉 개인적 특징(연령대, 문화적 특징,교양 수준) 등을 고려해야 한다.
  • 관련 분야 도메인에 대해 어느정도 이해하고 있는지를 파악해야 한다.