“모두가 데이터에 친숙해지는 날이 오길”…오늘코드 박조은
과거에는 데이터를 분석하고 결과내는 일은 전문가만 할 수 있는 일이었다. 하지만 데이터가 기업에게 소중한 자산이 되면서, 각종 직업군에서 데이터 분석 역량을 요구한다. 짧지만 알찬 콘텐츠로 사람들이 엑셀을 쓰듯 데이터 분석을 할 수 있게 도와주고 싶다는 유튜브 크리에이터가 있다. 10년동안 백엔드 개발자로 일하다 데이터 사이언티스트이자 유튜브 크리에이터가 된 박조은님을 만났다.
“처음에는 회사를 그만두고 1일 1커밋을 하면서 그날 공부한 내용을 모아 만든 영상을 올리려고 유튜브 채널 <오늘코드>를 만들었어요”
유튜브 채널 <오늘코드>는 곧 개설한지 만 2년이 된다. 2019년 10월 현재 구독자는 7,500명이다. 파이썬 자연어처리, 데이터 시각화, 공공 데이터 분석, 공식문서 튜토리얼 등을 주제로 총 125개 영상이 있다. 온라인 강의 플랫폼인 인프런(inflearn)에서도 영상을 볼 수 있다. 박조은님은 ‘뼈 문과(뼈 속까지 문과)를 위한 데이터 분석’을 주제로 오프라인 강의도 하고 있다.
유튜브 콘텐츠를 정하는 기준이 있나?
기준은 따로 없고 그때그때 관심 있는 것을 콘텐츠로 찍는다. 처음에는 머신러닝과 딥러닝 전반을 다뤄야겠다고 생각했다. 요즘에는 데이터 분석쪽을 다룬다. 구독자 피드백을 보고 특정 콘텐츠를 찍어달라는 요청이 들어오면 적극적으로 반영하고 있다. 데이터에서 어떤 내용을 추출할 건지와 사람들이 관심 두는 것이 무엇인지에 집중한다. 사용할 만한 공공 데이터는 많은데 어떻게 활용할지 모르겠다는 질문을 많이 받는다. 그래서 공공 데이터를 통해 신문 기사의 분석 내용을 똑같이 따라 해 본다든지 실생활과 밀접한 분석을 해보려고 한다.
인프런 유료 강의와 유튜브 콘텐츠는 동일한가?
모든 강의는 유튜브에 먼저 올린다. 사람들이 많이 보는 영상 중에 시리즈로 만들만 한 영상을 묶어서 인프런에 올린다. 시리즈를 인프런에 올린 후에는 해당 유튜브 영상을 비공개로 전환한다. 마치 웹툰 유료화 전략처럼, 조회 수가 많이 나오고 재밌어하는 영상을 유튜브에 먼저 공개한다. 유튜브에서 받은 피드백을 반영해서 수정한 영상을 인프런에 올린다. 유튜브는 한 번 영상을 올리면 수정을 못 하기 때문이다. 때로는 인프런에 올릴 영상을 다시 촬영하기도 한다. 인프런에는 수정 사항을 반영한 영상을 올린다.
영상을 찍기 위해 스크립트를 쓰거나 따로 준비를 하나?
영상을 찍으려고 따로 준비하지는 않는다. 스크립트는 전혀 쓰지 않는다. 없는 시간을 쪼개서 하다 보니 그렇다. 유튜브 영상은 15분 이내에 찍는다. 튜토리얼 영상은 편집도 거의 안 한다. 거의 영상 길이만큼 찍고 앞뒤만 자른다. 영상 길이가 짧아서 중간에 실수하면 다시 찍으면 된다. 처음에는 두 번째나 세 번째 영상을 썼는데, 요즘은 거의 두 번 안에 영상을 다 찍는다. 처음엔 영상을 찍기 전에, 동네 도서관에서 최대 대출 권수를 꽉 채울 만큼 책을 빌려 쌓아놓고 봤다. 시중에 있는 데이터 분석과 파이썬 관련 책은 거의 다 본 것 같다. 평소 틈새 시간에 휴대폰으로 공식 문서를 보거나 라이브러리를 찾아보면서 무슨 주제로 찍을지 생각하고 대충 시나리오까지 다 짠다. 아이들이 없는 시간에 동영상을 찍는다.
콘텐츠 중에서 생각보다 오래 걸렸던 프로젝트가 있나?
판다스 치트 시트(Pandas Cheat Sheet)를 같이 보는 영상이 있다. 두 장짜리 문서인데, 내가 수강생들한테 ‘이 두 장만 알면 판다스를 다 익힐 수 있다’고 말했다. 수강생들이 치트 시트를 보고 무슨 소린지 이해가 안 된다고 했다. 판다스 치트 시트를 설명하는 영상을 만들어야겠다고 결심하고 처음에는 아무 생각 없이 만들었다. 그러다 시리즈로 영상이 30개가 됐다.
청와대 국민청원 분석도 생각보다 오래 걸렸다. 그건 하다 보니까 좀 더 분석해보고 싶은 부분이 생겨서 오래 걸렸다. 시리즈 영상이 많은 건 영상 하나가 5~10분이기 때문이다. 영상이 10분이면 찍는 사람과 보는 사람 둘 모두에게 부담이 없다. 그게 전략이다.
예전에 칸 아카데미를 만든 살만 칸(Salman Khan) 인터뷰를 보고 그 사람이랑 나랑 전략이 비슷하다고 생각했다. 물론 살만 칸은 처음 유튜브를 시작했을 당시 올릴 수 있는 최대 영상 길이가 15분이었다고 한다. 그래서 그랬다지만 확실히 영상이 짧을 수록 부담이 적다. 유튜브에서 코딩을 콘텐츠로 하는 채널 전략이 다 비슷한 것 같다. 개발자 블로그 글은 따라 하다가 오류가 나면 막막한데 유튜브는 직접 하는 걸 볼 수 있으니까 좋다. 우리가 인터넷 강의 세대라 그런지 지금도 동영상으로 학습하는데 거부감이 없는 것 같다.
“신입 개발자 때부터 데이터베이스나 파일에 데이터를 쌓는 일을 해왔어요. 쌓인 데이터를 보고 인사이트를 얻는 것을 좋아했어요 ”
데이터 분석의 매력이 무엇인가?
데이터를 분석하면 ‘인사이트를 얻을 수 있다는 것’과 ‘그를 통해 새로운 것을 시도할 수 있는 것’이 매력적이다. 신입 개발자 때부터 데이터베이스나 파일에 데이터를 쌓는 일을 꾸준히 해왔다. 인사이트를 얻기 위해 많은 데이터를 쌓고 데이터를 보는 것을 좋아했다. 대시보드를 만들고 데이터를 추출해 회사 매출이나 게임 아이템의 거래량을 비교해보거나, 어느 퀘스트가 가장 인기 있는지를 분석했다. 호기심 많고 궁금한 게 많으면 핵심 정보를 직접 찾을 수 있는 것이 데이터 분석의 매력이다. 이디야는 스타벅스가 입지 분석을 미리 해놨기 때문에, 그에 맞춰서 항상 스타벅스 근처에 매장을 낸다는 가설이 있다. 사실 검증을 위해 데이터 크롤링을 할 수도 있지만, 정부 공공 데이터로도 충분히 해볼 수 있다. 이렇게 실제 데이터를 통해서 기존에 있던 가설을 검증할 수 있다는 점이 큰 매력이다.
왜 요즘 기업에서 데이터를 중요하게 여길까?
데이터는 기업에서 하는 중요한 의사결정 과정과 관련이 있다. 회사의 핵심 정보를 이용하면 앞으로 어디에 집중해야 할지 파악하기 쉽다. 기업 강의를 하러 가면, 어떤 기업에서는 ‘데이터는 우리의 먹거리다’라고 말한다. 모든 직군이 데이터를 배워야 한다고 말씀하시는 분도 있다. 강의를 하면, 개발자보다 디자인이나 마케팅 등 다양한 직업군에서 오시는 분이 많다. 예체능 분야에도 있다. 다들 데이터를 배우고 싶어 한다.
지메일(G-mail) 가입할 때 성별, 나이, 지역은 입력을 안 해도 구글은 다 알고 있다. 내 유튜브 채널을 보는 사람들의 연령대, 여성과 남성 비율, 지역 등 다양한 분석을 제공한다. 어떤 검색어를 통해 들어오고 어떤 채널을 통해서 들어오는지도 알 수 있다. 나도 유튜브 채널에서 제공하는 로그 분석을 매일 본다. 어떤 콘텐츠가 인기 있는지 확인하고 어느 영상을 유료화할지 고민한다.
국내 스포츠 구단에도 데이터 사이언티스트가 있다. 선수 기록을 다 데이터화하고, 선수별 강점과 약점을 기록한다. 선수마다 데이터를 분석해서 그에 맞는 운동 전략을 세운다. 예전에는 감독이 눈으로 보고 정했는데 이제 수치화해서 데이터로 남긴다. 야구나 축구 구단에서 모은 스포츠 데이터를 캐글에 공개하기도 한다. 또, 웹이나 모바일 서비스 회사는 엄청난 로그가 생긴다. 많이 팔리는 물건을 분석해서 프로모션을 기획할 때 이용할 수 있다. 표적화나 추천도 데이터 기반이다. 이메일이나 푸시 메시지 마케팅을 할 때, 그 고객에 잘 맞춘 쿠폰이나 제품을 제공하면 클릭 한 번 더 하게 만들 수 있다.
데이터 사이언티스트로서 좀 더 깊게 공부해보고 싶은 분야가 있나?
공부하고 싶은 건 넘친다. 기술적인 걸 공부하고 싶다기보다 어떤 데이터를 분석해야 실생활에서 문제를 해결할 수 있을지 생각한다. 삶에 의미가 되는 것을 분석하고 싶다. 언어나 툴에 상관없이 머신러닝이나 딥러닝을 이용해 문제를 해결하는데 집중한 콘텐츠를 만들고 싶다.
앞으로 데이터 분석의 전망은 어떨까?
전공이나 직군에 상관없이 엑셀을 쓰는 것처럼 데이터는 이제 기본 소양이 될 것이다. 엑셀은 여행 계획을 세울 때도 쓰지 않나. 데이터 분석도 똑같다. 내 소비 패턴을 분석하려고 엑셀을 쓰듯이 데이터를 쓰게 되지 않을까 생각한다. 지금도 은행 앱에서 자산, 빚 현황, 카드 결제 금액 등 직접 가계부를 쓰지 않아도 잘 정리된 데이터를 볼 수 있다. 물론 더 깊은 지식을 요구하는 인공지능이나 머신러닝은 전문성이 필요하지만, 데이터와 분석 그 자체는 이미 일상에서 많이 사용하고 있고 앞으로도 그럴 것 같다.
나는 비전공자가 프로그래밍을 배우고 싶다면 가장 먼저 파이썬과 판다스를 배우길 추천한다. 다양한 개발 생태계에서 이 두 가지로도 많은 것을 할 수 있기 때문이다. 요즘은 직업군에 상관없이 엑셀은 기본 소양처럼 다루지 않나. 판다스를 배우면 엑셀을 더 우아하게 쓸 수 있다.
“들에 핀 꽃도 이름을 불러줘야 특별해지는 것처럼 사소한 프로젝트에도 의미를 부여하고 이름을 붙여주세요”
데이터 공부를 시작하려는 사람들에게 해주고 싶은 말이 있다면?
무슨 프로젝트를 하든지 주제를 먼저 정했으면 좋겠다. 동기부여를 높이기 위해서는 무엇을 분석할지 의미를 부여하고 시작하는 게 좋다. 나는 프로젝트를 지도할 때 학생들에게 게시판 하나를 만들더라도 의미를 붙이라고 권한다. 책 리뷰를 올리는 게시판을 만들더라도, 그게 책 리뷰 앱으로 발전할 수도 있다. ‘게시판을 만들어봤다’가 아니라, ‘책 리뷰 시스템을 만들었다’ 또는 ‘책 리뷰 서비스다’라고 말하는 게 좋다. 그렇게 하면, ‘리뷰 서비스니까 별점을 넣어볼까?’ 또는 ‘서점으로 바로 가는 링크를 추가할까?’ 등의 고민을 계속 이어갈 수 있다. 그러면 구현 방법을 생각하면서 개발에 매일 작은 동기가 생긴다.
데이터를 분석할 때도 막연히 분석하면 도움이 안 될 수 있다. 공공 데이터는 웬만한 상권 정보가 다 있으니까 목표를 먼저 정하자. 예전에 ‘버거 지수’라는 것이 있었다. 도심 가에는 버거킹이나 맥도날드가 많고 지방 또는 버스 터미널로 가면 롯데리아가 많다는 가설을 분석해서 ‘버거 지수’를 만들었다. ‘버거 지수’로 도시 발전 수준을 볼 수 있다. 이런 예시를 종목만 바꿔서 분석해보는 것도 재밌을 것 같다. 이걸 분석하는 코드가 예전에 공개됐었다. 옛날 코드라 지금은 실행이 안 된다. 이 코드를 실행할 수 있게 고쳐보는 것도 재밌지 않을까.
“아무것도 하지 않으면 앞으로 할 일에 대한 생각이 없겠지만, 하루하루 열심히 하다 보면 계속 하고 싶은 일이 생겨요.”
2015년 회사 다닐 당시 인터뷰에서 꿈이 디지털 노마드라고 했다. 지금 와서 봤을 때 그 꿈을 어느 정도 이룬 것 같나?
많이 가까워진 것 같다. 디지털 노마드가 되는데 데이터 분석 일이나 지금 하는 유튜브 또는 온오프라인 강의가 적합한 것 같다. 실제로 노마드 코더스(Nomad Coders)라는 유튜브 채널도 있다.
앞으로 더 해보고 싶은 일이 있나? 요즘 유튜브 채널에 개발자 인터뷰 콘텐츠를 올리시는 것과 관련이 있을까?
처음에는 회사에 취직할 예정이었다. 그런데 유튜브를 하다 보니 이렇게 오래 하게 됐다. 요즘 올리는 인터뷰 콘텐츠도 재밌을 것 같아서 시작했다. 나는 오늘 최선을 다하자는 목표를 갖는다. 아무것도 하지 않으면 앞으로 할 일에 대한 생각이 없겠지만, 하루하루 열심히 하다 보면 계속 하고 싶은 일이 생긴다. 일일커밋도 그런 취지로 시작했다. 한 번에 큰 것을 만드는 것은 나한테 너무 어렵다고 생각한다. 그래서 유튜브 영상도 짧게 5분에서 10분 길이로 만드는 것이다. 또, 가까이 있는 롤 모델을 정하면 동기부여를 할 수 있다. 나는 항상 회사에서 한두 분의 영향을 꼭 받았다. 가까이 있는 사람을 롤 모델로 두고 매일 최선을 다하는 게 내 목표다.
이른 아침 정자역 스타벅스에서 만난 박조은님은 긍정 에너지가 가득했다.
박조은님은 주로 틈새 시간을 이용해 콘텐츠를 고민하고 항상 재밌는 일에 도전하고 계셨다.
무엇보다 데이터를 통해 세상을 바라보는 일을 매우 즐거워 하셨다.
박조은님은 “데이터와 프로그래밍 모두 공부로만 접근하기에는 어렵고 부족한 부분이 생기는 분야인 것 같다”며, “작은 프로젝트라도 직접 해보면서 어디에 사용할지 고민하는 것이 중요하다”고 일일 커밋을 추천했다.
박조은님 깃허브
> https://github.com/corazzon
유튜브 채널 <오늘코드>
> https://www.youtube.com/channel/UCLR3sD0KB_dWpvcsrLP0aUg