지금처럼 정보화 시대에서는 모든 사람이 스마트폰과 다양한 전자기기를 사용하면서 많은 흔적을 남기고 다양한 정보들이 빠르게 생성되고 지나가는 걸 반복하고 있습니다. 이런 정보들은 사실상 지나간 정보일 뿐입니다. 하지만 누군가가 '다음'을 위해 분석하고 정리해서 사용하기 쉽게 만들어준다면 이 또한 엄청난 자원이 될 수 있는데요. 바로 이런 역할을 할 인재들을 양성하기 위한 대회가 열렸습니다. 2018년 제16회 SAS 분석 챔피언십에 참가하여 금상을 받은 연세대학교 원주캠퍼스 학우들에게 더욱 자세한 이야기 들어보겠습니다.
Q. SAS 분석 챔피언십이라는 공모전에 대한 설명을 해주세요.
세계적인 비지니스 분석 소프트웨어 부문 리더인 통계 패키지 프로그램 SAS에서 사이언티스트로서 꿈나무들이 자신의 역량을 펼칠 수 있도록 매년 분석 챔피언십을 개최하고 있습니다. 이번 공모전의 목표는 공공데이터를 이용해 교통사고에 미치는 요인에 대해 분석하고 머신 러닝을 포함한 다양한 분업 알고리즘을 활용하여 교통사고 위험 구역 및 대형 사고를 예측하는 것이었습니다. 또한, 분석 결과를 토대로 교토우 안전을 위한 방안을 제시하면서 실제 비지니스나 정치계에 활용되고 있는 진정한 분석의 힘을 느끼기 위해서 이번 공모전을 주최한 것 같고요.
▲ SAS 분석 챔피언십에서 금상을 수상한 팀원들의 모습
Q. 이 공모전은 어떤 식으로 진행이 되나요?
먼저, 대회 과정을 간략히 설명해 드리자면 대회 신청을 하고, OT, 1차 분석계획서, 2차 분석 보고서 후에 남은 팀들이 3차에서 심사위원들에게 최종 분석 보고서를 발표하고 순위가 결정됩니다. 여름방학 전, 6월 20일에 공모전에 신청하게 됐고, 방학 시작즈음 7월에 강남 SAS 본사에서 SAS 대회 1차 OT를 진행했습니다. OT는 모든 팀에서 대표자 한 명이 나갑니다. 이렇게 1차 OT 과정 2주 후, 분석 보고서 심사 단계가 있습니다. 이 단계에서는 1차 OT에서 주어졌던 ▲ 간단한 샘플 데이터 분석 방법, ▲ 각 팀만의 방향, ▲ 머신러닝 방법 등으로 결과를 도출해낼지 간략하게 정리한 분석 보고서를 제출하면 1차 심사가 이루어지고, 그 심사를 통과한 팀만이 2차 OT를 들을 수 있는 자격이 주어집니다.
2차 OT는 대회에서 사용하는 SAS 툴에 대해서 설명하는 시간이었는데요. 1차와 마찬가지로 대표자만 참여하는 방식이고, SAS School이라는 이름으로 2차 OT가 건국대 실습실에서 진행됐습니다. 공모전의 주제가 교통사고인 만큼 쉽게 접할 수 있는 데이터가 아니기 때문에 그것(교통사고가 난 위도, 경도를 통해서 지도에 매핑)에 대해 알려주는 시간이 됐습니다.
2차 OT 기간이 끝나고, 방학이 끝나기 2주 전까지 2차 분석보고서를 내야 하는데, 처음에 주제에 관련돼서 데이터 탐색이 이뤄져야 하는데, 데이터 탐색 부분과 이를 통한 ▲ 인사이트 도출, ▲ 분석, ▲ 적용한 기법 등의 과정을 통해 얻은 결과로 교통사고 방지에 대한 우리 팀만의 해결방안과 구체적 사례들을 담아 2차 분석보고서로 냈습니다. 방학 끝날 무렵, 심사 결과가 납니다. 총 6개 팀이 2차 보고서를 통과를 했는데, 2학기가 시작하고 2주 후에 3차 분석 발표가 있었어요. 6팀 전원 SAS 본사에 가서 면접관 앞에서 발표하는 시간을 가졌습니다.
Q. 대회에 참가하신 이유를 여쭤봐도 될까요?
참가하게 된 동기는 아무래도 전공과 관련 있는 분야의 대회이고, 우리 학교에서 연속 4번 큰 상을 받아서 높아진 관심 때문인 것 같아요. 이번이 제16회 SAS 분석 챔피언십이었는데 정보통계학과에서 제13회 챔피언십부터 4년 연속 대상 2번, 금상 2번을 탔거든요. 그래서 학과 내에서는 이 공모전이 잘 알려져 있었습니다. 게다가 학과 학술 소모임 중에 YDMS (Yonsei Deta Mining School)가 있는데요. 이곳에서 13회 때부터 대회에 참가해서 상을 타왔고, 그런 선배들의 모습을 보고 후배들 또한 참가해야겠다는 동기가 많이 생긴 듯합니다. 저희도 그 소모임 소속이라 참가하게 됐습니다.
또다른 동기라고 한다면, 안재준 교수님이 들어오시면서 저희 소모임이 순수통계 (어떤 현상을 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자로 나타냄)에서 빅데이터 (기존의 데이터베이스로는 수집 저장 분석 따위를 수해하기가 어려울 만큼 많은 양의 데이터) 분석으로 넓혀지면서 데이터 관련 공부를 한 것도 참가 동기 중 하나입니다. 교수님의지도 아래에 저희는 챔피언십같은 실전에 부딪히며 전보다 깊이있는 데이터 마이닝 (대규모의 데이터베이스 안에서 일정한 규칙을 찾아내 데이터를 분석하는 일) 기법을 공부하기 위해 참여하게 됐습니다.
Q. 준비 과정에 대해 알려주세요.
저희는 소모임에서 학기 중에 매주 한 번씩 모여 머신 러닝을 공부하는 모임을 가지며 준비를 했습니다. 대회 기간은 6월 말부터 9월 초까지 약 두 달 반 정도 걸렸고요. 대회 과정에 대해서 말씀드리자면, 2차 본선을 시작하기 전 받은 샘플 데이터와 주제 정의서를 통해서 저희는 분석의 방향을 찾으려고 많이 노력했습니다. 비록 샘플 데이터이긴 하지만 주제 정의서를 꼼꼼히 읽으면서 올바른 주제를 파악해야 한다고 생각했고, 저희 팀은 그에 맞춰서 방향을 찾아냈습니다.
저희 팀의 분석 과정에 관해서 말씀드리자면, 직접 분석을 모델에 적용에서 결과를 도출하기까지의 시간이 너무 걸렸는데, 공모전이 끝난 후 회상해보니 세 명이 참가하면서 모두 의견이 달라 의견 충돌도 있었고, 좋은 의견이라고 생각해서 막상 시도를 해보면 분석이 불가능했던 상황도 있어서 시작점으로 돌아가기에 십상이었는데 서로 의견을 존중하고 합리적으로 의심하면서 결과 도출에 노력을 쏟았습니다. 그래서 결국엔 저희 팀만의 로직을 만들어냈고, 공모전에 최종 제출을 하면서 모든 과정이 마무리됐죠.
Q. 공모전을 진행에 있어서 필수로 해야 하는 것들이 있을까요?
제 생각엔 세 가지 정도가 있는 것 같습니다. 첫번째는 주제 정의서입니다. 주제 정의서는 심사위원들이 무엇을 원하는지 파악할 수 있는 가장 좋은 정답지에요. 어떤 문제에 부딪혀 정체되어 있을 때마다 이것을 다시 한번 읽어보면서 그 의미를 곱씹어 보면 완벽한 정답은 아니더라도 저희 팀만의 로직을 도출할 수 있었거든요.
두 번째는 합리적 의심입니다. 데이터 분석 과정에서 모델링은 누구나 할 수 있다고 생각해요. 하지만 논리적으로 타당한 모델을 구축하는 것은 상당히 어려운 일이라고 생각합니다. 대회의 중반이 지난 8월 중순까지도 밤낮으로 모여 서로 의견을 내고 점검하는 단계를 반복하며 분석에 대한 논리적인 비약과 당연히 맞는다고 여기고 넘어간 부분들까지도 세세하게 확인하면서 점검을 했습니다. 그래서 저희 팀만의 로직과 모델을 구축할 수 있었고요. 이러한 요인 덕분에 심사위원들께서 논리가 깔끔하다는 평을 들었던 것 같습니다.
세 번째는 팀원 간의 협력입니다. 아무리 잘하는 사람들을 모아놓아도 협력이 안 되면 진행을 할 수 없죠. 저희의 경우만 하더라도 피피티 능력, 코딩 능력, 아이디어 능력을 갖춘 친구들이 모여서 조화를 이루었기 때문에 좋은 결과를 도출할 수 있었다고 생각합니다.
▲ 제16회 SAS 분석 챔피언십 수상 당시의 모습
Q. 대회를 잘 진행할 수 있었던 팁은 있나요?
저희만의 팁이라면, 첫 번째로는 주제 정의서를 정말 꼼꼼히 읽어보는 것입니다. 예를 들어, 책을 읽더라도 제목이나 머리말 등에 중요한 의미가 함축되어있는데 그것들을 무시하고 바로 내용부터 파고든다면 정확한 목표 의식이 없어 헤맬 수 있습니다. 그리고 대회 특성상 심사 측에서 원하는 게 있을 수 있기 때문에 그들의 목적을 파악하기 위해서 그들이 낸 문제를 정확히 파악하는 게 포인트라고 생각합니다.
두 번째는 같은 컨디션 유지하기입니다. 대회가 시간을 넉넉히 주지 않다 보니 저희는 밤낮으로 만나야 했는데, 만날 때마다 각 팀원의 컨디션이 다르다면 노력을 쏟는 정도가 달라지고, 그게 갈등의 원인이 될 수 있습니다. 그래서 저희는 만날 때, 같은 컨디션으로 만나기 위해 대회를 준비하는 기간 동안에는 쉬는 시간과 같이 일하는 시간을 맞췄습니다. 그래서 저희는 만날때는 같은 컨디션으로 만나기 위해 자는 시간도 정해놓고 동시에 자는 등의 노력을 하면서 만날 때만큼은 모두 같은 컨디션으로 만나기를 목표로 생활했습니다.
세 번째는 대회 준비 중 틈틈히 최종 보고서를 기록하는 것입니다. 모든 과정이 끝난 후 적으면 적은 시간에 적어야 해서 꽤 번거롭거든요.
마지막으로, 생각나는 분석 관련 정보가 있으면 모두 적어놓는 것입니다. 공모전을 하다 보면 많은 생각을 메모하지 않아 놓치는 경우가 많습니다. 어떤 것이든지 생각을 모두 메모해놓고, 같이 의견을 취합하는 식으로 하면 좋을 것 같아요. 그래서 저희 같은 경우는 화이트보드판 앞에 앉아서 생각이 나는 대로 계속 정리해놓았습니다.
공모전을 마치고 나면, 아쉬운 게 정말 많이 남아요. 애매한 아이디어가 있어도 말해보기도 하고, 과감히 버리고 진행을 서두르기도 해야 합니다. 자신의 의견만 고집하지 말고요. 시간이 정말 촉박한 데 시간 낭비를 하는 것보다는 과감함을 가지는 게 중요한 것 같아요.
앞서 여러 가지를 말씀드렸지만, 가장 중요한 건 포기하지 않는 것으로 생각합니다. 목표를 향해 달려가다 보면 수많은 어려움을 겪게 되요. 저희도 그랬거든요. 너무 막막해서 공모전을 해야 하나 생각하지만, 같이 고생하는 팀원들을 생각하면서 포기하지 않으면 언젠가 길은 보일 것입니다. 포기하지 않으면 목표 지점에 와있는 당신을 볼 수 있을 거예요.
▲ 인터뷰중인 장인호(13∙통계) 학우와 최정윤(14∙통계) 학우
Q. 후배들에게 필요한 한마디 부탁합니다.
공모전 준비를 할 때 본인이 관심 있는 분야의 공모전이 있다면 무조건 참여했으면 좋겠습니다. 참여할 때 오리엔테이션을 가보는 것만으로도 많은 경험이 됩니다. 왜냐하면 우리 학교가 원주에 있지만 저희가 계속 원주에만 있을 것은 아닐 거로 생각해요. 그렇다면 공모전에 나가서 자기 뜻과 비슷한 길을 걷고 있는 사람들과 만나면서 그 사람들은 어떤 공부를 하고 있는지도 감각적으로 많이 느껴봐야 합니다. 시작만 하고 끝까지 못하더라도 시도를 했다는 경험 자체가 본인의 꿈에 한 발짝 다가갈 수 있게 도와줄 것입니다.
또한, 시작해서 중간까지 진행하다가 잘 안될 수도 있습니다. 하지만 하나씩 하나씩 어려움을 해결한다는 생각으로 앞으로 가다 보면 분명 끝을 볼 수 있어요. 이렇게 완주라는 경험을 한번 하게 되면 다른 공모전뿐 아니라 어떤 일을 하더라도 이 경험이 밑거름돼서 힘을 많이 얻을 수 있습니다. 저희가 공모전에 갔을 때, 저희 팀을 제외하고는 전부 다 수도권의 학생들이었어요. 그런데도 자신감 잃지 않고, 주눅 들지 않으려고 했고 결과적으로 2등이라는 좋은 성적도 거뒀다는 것을 몸소 증명했습니다. 자신감을 가지고 포기하지 않는 자세가 정말 중요하다고 생각합니다. 그럼 모두 다 좋은 결과가 있을 거라고 생각합니다.
평소엔 빅데이터라는 딱딱한 이름에 관심이 없어 이 분야에 무지했습니다. 이번에 이런 인터뷰를 할 기회를 빌려 빅데이터에 대해서 많이 찾아봤는데요. 지금의 디지털 시대에 없어선 안 될 분야이고, 이것만큼 사람들의 생활과 밀접한 분야는 없다고 생각이 들었습니다. 이번 대회에서 큰 상을 받으신 학우들이 훗날 멋진 데이터 분석가가 돼 저희의 생활 뒤에 남는 데이터들을 정리하고 더 나은 서비스를 제공하길 바랍니다. 덧붙여 지금의 생활을 이어나가는 동안 도움이 되었을 모든 직업 종사자분들에 대해 다시금 감사함을 생각해보게 됐습니다.