빅데이터, AI 직군 자격에 대하여

Memo 2021. 5. 23. 12:48

회사들이 요구하는 빅데이터, AI 직군 자격요건들 정리해보면 대충 아래와 같다.

- 딥러닝 프레임워크에 대한 이해/활용 능력 및 프로젝트
- 인공지능 및 개발 업무 전반에 대한 최신 기술 습득 역량, 최신 논문 해석과 구현 
- 머신러닝을 통한 문제 해결
- 통계, 데이터 분석 및 처리
- 데이터 프레임워크 시각화 툴 활용
- 리눅스 환경 개발 및 서비스
- 문제를 논리적으로 모델링하고, 이론에 기반한 코드를 빠르게 분석하여 업무에 활용
- 파이썬, 스파크 머신러닝, 딥러닝 라이브러리 사용 가능하면서 예측분석 업무 희망
- 원천데이터 파악과 분석, 전처리
- 능숙한 SQL 역량과 R, Python 등 통계 및 머신러닝 플랫폼 활용 가능
- Python, Java 개발 가능

정말 많다. 돈을 얼마나 주려고...

공부해야 하는 라이브러리, 프레임워크, 플랫폼을 정리해보면 아래와 같다.

- 매트릭스, 벡터 라이브러리: Numpy, Pandas
- 딥러닝 프레임워크: Tensorflow, Keras, Pytorch
- 머신러닝, 수학 라이브러리: sklearn, SymPy, SciPy, pgmpy
- 그래프: Matplolib
- 분산 처리 플랫폼: Hadoop. Hive, Spark, Sqoop
- 개발언어: Python, Java, R
- 데이터베이스: MySQL, Oracle, MongoDB (NoSQL)

...이것도 정말 많다. 이것도 다가 아니다. 생각나서 못 적은거지 분명 더 있다;;;

이러니까 업계에 사람이 부족할 수 밖에...

근데 아직 끝나지 않았다. 정신 놓으면 안 된다. 이 직무에는 수학도 필요하다.

- 선형대수
- 미적분
- 확률과 통계

하하하하하하... 정말 어마무시한 분야다. '한 학기는 더 해야 설명을 좀 할 수 있을거다.'라고 교수님이 괜한 말씀하신 게 아니다... 뭔가 많다. 엄청 많다. 데이터 사이언티스라면 이정도는 해야지!!(!!?)

당연히 영어랑 논문 해석은 기본이라 쓸 필요도 없다.

정말 이거 다 할 줄 알면 연봉 1억은 받아도 될 것 같은데...?

 

---------------------------------------------------------------------------

Hive, Spark, Sqoop은 환경구축이 아닌 이상에는 결국 SQL과 비슷한 '언어'의 한 종류이다. 환경구축까지 할 수 있다면 더없이 좋겠지만, 꼭 그렇지 않아도 활용을 잘 할 줄 안다면 환경 구축은 신경쓰지 말고 나중 일로 치부해도 된다고 본다. 그러니까 어렵디 어려운 환경 구축에 너무 시간 쏟지 말고, 이용할 수 있는 환경이 있다면 최대한 그 환경을 이용해보자. 사실 새로운 기술을 공부하는 게 어려운 이유는 어려운 환경구축 때문인 경우가 많다. 나의 경우에도 환경구축을 할 엄두가 나지 않아 시작조차 못하는 경우가 허다했다.

---------------------------------------------------------------------------

위의 기술적인 요건만큼 수학도 중요하다. 그치만 수학은 위의 기술보다 역량을 쌓기 어렵다. 내포하는 의미가 심오하고 함축적일 뿐만 아니라 치밀한 논리에 근거하여 표현되기 때문에 이해하기 어렵고, 알아도 어떻게 써먹어야할 지 난감하다. 그럼에도 불구하고 수학이 중요한 이유는 수학은 갖고 있는 데이터로 도출한 함수나 데이터의 분포를 이용하여 미래를 가장 합리적으로 예측하기 때문이다. 미래 예측. 이것은 누구에게나 중요한 일이고 어느 조직이나 마찬가지이다. 그러니 데이터 분석에 대한 수요가 많을 수 밖에 없다. 경험이나 미신, 감정이 아니라 논리와 이성, 근거에 입각하여 미래를 예측하니 그냥 지나칠 수 없는 것이다. 

데이터 분석에서 이용하는 수학 이론은 선형대수, 미적분, 확률과 통계가 대부분인 듯하다. 수학의 모든 분야를 다 알 필요없다. 심지어 저 분야 내의 수학 조차 모두 다루지 않는다. 아직은 공부 중이라 더 명확히 이야기 할 수 없지만, 데이터란 녀석도 어쨌든 현실에 존재하는 어떠한 특성, 즉, '편향'을 가지기 때문에 특성에 맞는 모델을 이용해서 분석해야 하기 때문에 모든 지식과 이론을 다룰 필요없다. 그리고 데이터 분석에서의 수학은 수식의 증명보다 활용이 더 중요하다. 한번 쯤 유도해보는 것도 나쁠 건 없지만, 증명까지는 그냥 수학을 연구하는 사람들에게 맡기자. 앞에서 언급한 역량들 다 갖추려면 시간이 너무 부족하다.

---------------------------------------------------------------------------

수학 만큼이나 중요한 게 바로 전처리를 인내심 있게 해낼 수 있어야 하는 자세이다. 회사에서는 공부할 때 사용했던 데이터셋처럼 정리정돈이 되어 있지 않다. 그래서 자를 건 자르고 정렬할 건 정렬해서 데이터를 가공해야 한다. 그리고 대부분의 데이터는 데이터베이스에 존재하기 때문에 SQL 사용은 선택이 아니라 필수이다.

---------------------------------------------------------------------------

 

음... 재미는 있지만 정말 자격요건이 살벌한 것 같다.

 

 

 

'Memo' 카테고리의 다른 글

CNN 모델과 Convolution 기법 정리  (0) 2021.06.08
CNN 메모  (0) 2021.06.04
선행대수 용어 정리  (0) 2021.06.04
자동화가 가능한 부분은 무조건 존재한다.  (0) 2021.05.07
신경망 관련 내용 메모  (0) 2021.03.04
admin