마이크로소프트웨어 395호 데이터 탐험(Data Adventure)
안녕하세요,
버그를 찾아 헤메는 버그베어,
마이크로소프트웨어 조병승입니다.
2019년 1월 28일, 마이크로소프트웨어 395호 데이터 탐험(Data Adventure)편을 발행합니다.
특정 영역에 모여있는 데이터에서 군집 패턴을 찾는다. 확률과 통계를 기반으로 함수를 만든다. 데이터 사이언스와 엔지니어링은 머신러닝과 딥러닝으로 이어진 중간 관문을 굳건히 지키고 있다. 지금 우리가 수집하는 데이터만으로 이 함수를 만들 수 있을까? 이 함수에 오류는 없을까? 재현율 증명과 검증을 토대로 부족한 데이터를 채워야 한다. 데이터 수집, 정제, 탐사 분석, 모델링, 검증, 시각화 등 모든 단계를 허투루 여겨선 안 된다. 우리는 지금 쌓여가는 아파치 웹서버 로그에서 패턴을 찾을 수 있는가? 쌓인 로그는 충분한가? 데이터 사이언스와 엔지어링은 가설과 설계를 위한 끝없는 질문에서 시작한다. – 조병승 편집장
정제된 데이터가 있다면, 혁신할 수 없는 산업이 있을까? 이제 데이터의 중요성은 그만 말해도 될 것 같다. 이미 데이터에 커리어와 비즈니스를 맡기는 엔지니어가 많이 있다. 마소 395호 데이터 특집에서는 학계, 금융, 의료, 게임, 행정, 스포츠 등 언제나처럼 다양한 산업에서 사용되는 기술 이야기를 모았다. 주변에 적용된 데이터 기술을 확인하며 새로운 아이디어가 떠오를지도 모른다. 짜릿한 데이터 세계로 당신을 초대한다. – 오세용 기자
SCHEMA
S1. 데이터 사이언스, 타이디버스로 향하다 – 이광춘
S2. 데이터 분석가는 어떤 스킬셋을 가져야 하는가 – 서희
OPINIONS
O1. 일상을 기만하는 데이터와 거리 두기 – 김도균
O2. 금융업계에 부는 데이터 사이언스 바람 – 권용진
O3. 데이터 기반 의료를 향해 – 박찬익
O4. 데이터는 스포츠를 어떻게 바꿨는가 – 김인범
O5. 연습용 데이터 세트를 찾아라 – 오세용 기자
FUTURE
F1. 인문학도, 데이터 사이언티스트가 되다 – 유예진
F2. 데이터 분석가로서 첫 발을 내딛으며 – 김나현, 오희령
F3. 홍콩에서 보내는 편지: 놀고먹던 사람이 연구자로 살기까지 – 홍원의
TECHNOLOGY
T1. 데이터로 본 검색 서비스 – 윤창호, 조창래
T2. 엘라스틱 스택 기반 데이터 분석 – 조인석
T3. 데이터 엔지니어를 위한 아파치 임팔라 안내서 – 임상배
T4. AI 네트워크에서 개인 정보 보호와 보안 – 김민현
T5. 이미지 데이터 분석의 특징 시각화와 스타일 전이 – 김영민
WORKS
W1. 메르스맵을 되돌아보며 – 박순영
W2. 2018 빅콘테스트를 마치고 – 이은조, 장윤제
W3. 굿닥의 데이터 플랫폼 도입기 – 김택규
W4. 케라스팀이 들려주는 협업 그리고 머신러닝 이야기 – 조아라, 케라스팀
W5. 핵심 비즈니스를 혁신하는 데이터팀 이야기 – 김상우
APPLIED
A1. 파이썬으로 계좌 거래 목록 수집하기 – 이태화
A2. 파이썬으로 특정 키워드 사업 공고 알림 받기 – 심경섭
A3. 클라우드 서버리스 아키텍처로 실시간 검색어 분석하기 – 변규현
A4. Kepler.gl을 이용한 2017년 서울 내 인구이동 시각화 – 이영민
A5. 캐글 데이터를 비주얼 스튜디오 코드로 톺아보기 – 김영하
A6. 데이터 시각화의 올바른 차트 유형 고르기 – 배준오
RESEARCH
R1. 회귀 모형을 통한 프로모션 효과 분석, promotionImpact – 안태희, 엄혜민
R2. 자연어 처리와 언어 모델 – 최현영
R3. 게임 로그를 활용한 봇 분류 모델 – 강병수, 서상덕, 안진옥
R4. 반복 크롤링 작업 시 크론탭은 이제 그만, 아파치 에어플로우로 가자 – 배준현, 김도형
ETC
E1. 가치를 만드는 머신러닝 – 마이클 후스, 임현민
E2. 당신의 드라이빙 데이터는 얼마입니까 – 심상규, 아모랩스
E3. 데이터와 인문학 – 오세용 기자
내 꿈은 여전히 사람의 마음을 읽는 마법사다. 그리고 나는 데이터 속에 가치를 발굴하는 마법을 공부하고 있다. – 유예진
나는 분명 철두철미하게 상황을 고려했다고 생각했는데, 유저의 행동은 내 상상 이상으로 다양하고 참신했다. – 김나현, 오희령
프로젝트가 커지기 시작하면서 자연스럽게 엘라스틱 스택을 접하게 됐으며, 순식간에 마법 지팡이와도 같은 환상적인 오픈소스에 빠져들었다. – 조인석
조금 귀찮을 수는 있지만, 프로그램으로 만들어서 활용하면 ‘왜 여태 이걸 손으로 했지’라고 생각하게 되는 경우가 많다. – 이태화
에어플로우를 사용하면 전체 프로세스를 한눈에 쉽게 살펴볼 수 있을뿐 아니라, 각 프로세스의 단계별 진행 현황을 쉽게 확인할 수 있다. – 배준현, 김도형
데이터 과학자는 통계 데이터를 다루면서도 소프트웨어 역량을 통해 필요한 데이터를 직접 다루고 모델링 및 서비스를 할 수 있는 사람이라고 이야기할 수 있다. – 서희
인구이동 데이터는 필연적으로 출발지와 도착지가 있기에 항상 위치정보를 포함한다. 따라서 해당 데이터를 지도 위에 시각화할 수 있다면 훨씬 많은 것을 볼 수 있다. – 이영민
2018 빅콘테스트가 끝났다. ‘SHAP Value Analysis’나 ‘LIME’을 이용해 모델 해석을 시도한 팀도 있었다. 대다수가 학생으로 구성된 팀임에도 불구하고, 비교적 최근에 등장한 이런 최신 기법을 적극적으로 활용한 점은 무척 놀라웠다. – 이은조, 장윤제
프로그래밍을 잘 모른다고, 문제가 생긴다고 해서 너무 겁먹을 필요는 없을 것 같다. 대부분 개발자가 프로그램을 개발하는 것보다 문제를 수정하는 데 시간을 보낸다. – 심경섭
데이터와 정보 보호, 기술을 활용한 치료와 진단 그리고 예방까지, 그것이 의료 자체가 됐건, 연구가 됐던, 기술 개발이 됐건, 늘 중심에 사람을 둘 수 있기를 바란다. 선택이 아닌 필수로 말이다. – 박찬익
텐서플로 2.0에서는 여러 고수준 API로 인한 사용자 혼란을 줄이기 위해, 단일 API로 통합해 고급 기능을 제공하기로 했다. 그리고 단일 API로 ‘tf.keras’가 선정됐다. – 조아라, 케라스팀
사용자가 없으면 서비스도 없다. 사용자를 위한 서비스만이 장기적인 관점에서 가장 올바른 길임을 기억해야 할 것이다. – 윤창호, 조창래
서비스에서 만들어지는 데이터를 이해하려면 개발 쪽 지식만으로는 부족하다. 사업 방향이나 목적, 이유 등을 정확히 알고 있어야 한다. – 김택규
도메인을 검색해봤더니 놀랍게도 ‘mersmap.com’ 도메인을 구매할 수 있는 상태였고, 그 사실을 알자마자 바로 거래처와 미팅 중에 그 도메인을 결제했다. – 박순영
데이터 권한 비대칭은 지난 20여 년 동안 웹 서비스 발전으로 이어졌다. 하지만 데이터 권한 비대칭은 이제 과거 모델이 될 것이다. – 마이클 후스, 임현민