[카드뉴스] 데이터 사이언티스트가 되기 위한 7가지 스킬
2018-07-17

대한민국의 빅데이터 영역은 미국에 비해 한참 뒤떨어져 있는 것이 사실입니다. 국내에도 훌륭한 데이터 사이언티스트들이 많아지기를 바래봅니다. :)

 










 

읽기 힘드셨죠(...) 만들기도 힘들었습니다(...)


데이터 사이언티스트 되기 위한 7가지 기술 매년 1.8제타바이트(ZB)의 디지털 데이터가 만들어지고, 이 빅데이터 중 5%는 비즈니스에 유용한 데이터가 됩니다. 그래서 2012년 하버드비즈니스리뷰는 21세기 가장 유망한 직업(Sexiest Job)으로 데이터 사이언티스트를 꼽았죠. 이 영역은 NHN, KAKAO와 같은 유명한 IT기업에만 국한되는 것이 아닙니다. “C대학교 학생회장선거에 활용할 C대학생들의 관심 키워드를 뽑아주세요.” 몇 달 전 저희 프리랜서코리아에 포스팅 된 프로젝트입니다. 지난 5년간 미국에서 급여 성장률이 가장 높았던 직종 중 하나인 데이터 사이언티스트. 그것이 프리랜서든 정규직이든, 데이터 사이언티스트가 되기 위해 필요한 것들은 뭐가 있을까요? 1. 프로그래밍 R, Python, Java, Perl, C++에 더하여 데이터베이스 쿼리 언어까지이 모든 것들을 다 배우고 익힌 후 숙련된 전문가가 되기란 쉽지 않죠. 그렇다면 파이썬부터 시작해보세요. 파이썬은 복잡한 SQL 쿼리 작성 및 실행과 함께 데이터 사이언스에서 가장 일반적으로 요구되는 프로그래밍 언어입니다. 2. 머신러닝 스킬 데이터 사이언티스트로서의 시작은 풀타임으로 하는 것이 좋습니다.  미리 머신러닝을 배우거나 아니면 풀타임 기간 동안 머신러닝에 익숙해지셔야 합니다.  다만 대부분의 기계어는 R 또는 파이썬 라이브러리로 구현될 수 있으므로 알고리즘 전문가 정도 까지의 스킬이라기 보다 기초이해가 중요합니다. 3. 통계 통계는 데이터 사이언스에서 매우 중요합니다. 앞의 머신러닝과 마찬가지로 다양한 기술에 대한 유효한 접근 방식을 이해하려면 적절한 통계 지식이 필요합니다. 데이터의 유효성 확인, 결정 등에 있어 통계가 적용됩니다. 4. 데이터 랭글링(Data Wrangling) 이런 식이죠. 대한민국 versus KOR versus KOREA versus SOUTH KOREA. 즉 불완전하고 지저분하고 어지러운 데이터를 처리해야 하는 스킬 또는 프로세스를 말합니다. 특히 데이터 중심 기업이 아닌 일반 기업, 소기업에서는 이 데이터 랭글링이 주요 과제일 수 있습니다. 5. 궁극의 무기 선형대수학과 다변수미적분학 최종 결과물이 데이터로 정의되고, 예측 성능과 알고리즘 최적화가 미세하게 조정될 수 있다면 회사의 생산성에 결정적으로 큰 차이를 가져올 수 있습니다. 당연히 어렵습니다. 그러나 비록 남들이 파이썬만 갖고 있을 때 우리에게 선형대수학과 다변수미적분학이 더해진다면 우리의 궁극의 무기가 될 수 있다는 것을 알아두세요. 6. 데이터 시각화 및 의사소통 스킬 사실 의사소통 기술은 이 모든 것들 중 가장 중요할 수 있습니다. 아무리 유효성 높는 데이터 마이닝과 분석에 성공했더라도 이를 유창하고 명확하게 변역할 수 있어야 합니다. Matplotlib 같은 데이터 시각화 도구를 활용하여 모든 사람들과 소통할 있어야 합니다. 7. 데이터 통찰력 결국 데이터 사이언티스트에게 최종적으로 요구되는 능력은 데이터 통찰력입니다. 데이터 통찰이란 해당 프로젝트의 주제에서 중요한 것과 중요하지 않은 것을 구분해 내는 능력이겠죠. 기업에서 빅데이터 전문가, 데이터 사이언티스트를 비싼 값에 고용하는 이유는 바로 해당 전문가의 문제 해결 능력때문입니다. 미국에서는 최소 석사학위 이상을 강조합니다. 물론 예외적인 경우도 있지만, 일반적으로 데이터 사이언스에 대한 기본지식을 알기 위해서는 높은 교육수준이 필요하다고 하죠. 높은 교육 수준에 더불어 수학과 통계, 프로그래밍까지다뤄야 하는 그 영역 또한 넓습니다. 아시다시피 빅데이터는 결국 AI와 연결됩니다. 해외와 달리 국내에서 빅데이터 부문의 큰 진전은 보이지 않는 상태입니다. 데이터 수집 영역만 과포화되고, 데이터 가공, 통합, 분석 영역은 미진합니다. 그러나 우리에게 꼭 필요한 영역입니다. 대한민국 산업이 진보하려면 화장품, 자동차, 반도체도 중요하지만 이 영역이 꼭 필요합니다.