메뉴 건너뛰기

Inside HCS

2018.07.16

[현대카드·현대캐피탈에 이런 팀이] 글과 사진도 모두 데이터다∙∙∙Unstructured Data Tech팀

현대카드∙현대캐피탈 Digital본부에는 Unstructured Data Tech팀(이하 UDT팀)이 있습니다.
무언가 특수부대 이름 같기도 한 UDT팀. 데이터와 관련한 핵심적인 역할을 담당하고 있다고 하는데요.
도대체 어떤 일을 하고 있는 팀일까요? 지금 UDT팀을 만나보시죠.

(왼쪽 위부터 시계 방향) 박희근 책임엔지니어, 하임준 책임엔지니어, 이유진 엔지니어, 박상현 선임엔지니어, 박기림 수석엔지니어(팀장), 백성호 수석엔지니어, 심강섭 책임엔지니어, 이재안 선임엔지니어

Q. UDT(Unstructured Data Tech)팀? 난생 처음 보는 이름이네요. 팀 소개를 부탁 드려요.

A. 저희 팀은 비정형 데이터(Unstructured Data)를 다루는 기술(Tech)을 만드는 팀입니다. 최근 들어 대부분의 비즈니스에서 다양한 데이터를 통해 분석을 진행하고 그 결과를 사업에 반영해 고객들을 위한 서비스를 내놓는데요. 저희 팀은 그 과정에서 데이터를 분석하는 방법론을 제시합니다. 거대한 양의 데이터를 분석하는 기술을 저희 팀이 제공하는 것이죠.

Q. 팀 이름에도 들어있는 ‘Unstructured Data’, 즉 비정형 데이터는 무엇인가요?

A. 이 개념을 알기 위해서는 먼저 데이터의 종류에 대해 이해할 필요가 있는데요. 데이터는 크게 정형 데이터와 비정형 데이터로 나눠집니다. 전자는 형식이 갖춰진 데이터입니다. 미리 정의된 데이터 모델에 따라 데이터가 분류된 것들을 말하는 데요. 저희 회사가 가지고 있는 전통적인 결제 데이터가 대표적인 사례입니다. 누가, 언제, 어디에서, 얼마를 소비했는지에 대한 내용이죠. 반면, 비정형 데이터는 형태는 정해지지 않았지만 특별한 의미를 지니고 있을 것으로 판단되는 모든 데이터를 말합니다. 예를 들어, ‘100만 명의 고객이 7월 달에 어떤 방식으로 카드를 쓰더라’는 데이터는 특별한 형태가 없습니다. 데이터베이스에 잘 정리된 데이터가 아닌 웹 문서, 이메일, 소셜 데이터 등이 대표적이죠. 저희 팀에서 관심을 두는 데이터는 바로 이러한 비정형 데이터입니다.

Q. 보석으로 비유하자면 뭔가 정제되지 않은 원석 같다는 느낌이 드는데요. 그렇다면 비정형 데이터가 왜 중요한가요?

A. 비정형 데이터는 남녀노소 누구나 활용하고 있는 SNS 등에 게시된 다양한 동영상, 사진, 텍스트 외에도 도로, 지하철역 또는 길거리에서도 쉽게 볼 수 있는 무인감시카메라 등에서 발생하는 화상정보에 이르기까지 다양한 형태로 축적되고 있습니다. 이러한 것들을 분석하면 기업의 잠재 고객이 누구인지 파악하고 새로운 사업 기회를 창출할 수 있죠.

Q. 구체적으로 사례를 들어서 설명해주실 수 있나요?

A. 어떤 고객 A씨가 특정 가맹점에서 카드를 긁었습니다. 여기서 우리는 정형 데이터를 뽑아내 A씨가 어디서, 얼마를 소비했는지를 알 수가 있죠. 하지만 거기까지입니다. A씨가 ‘왜’ 카드를 긁었는지에 대해서는 알 수가 없습니다. 반면, 비정형 데이터가 있으면 정형 데이터만으로 파악할 수 없는 고객의 니즈(Needs)를 더 정확하게 파악할 수 있습니다. A씨가 SNS에 올렸던 사진이나 글귀 등 비정형 데이터를 분석해, A씨가 ‘특정 메뉴를 너무 좋아하기 때문에’ 해당 가맹점에서 카드를 긁었다는 사실을 알 수 있는 것이죠. 물론, 이 과정에서 고객 정보 활용에 대한 동의를 확보하는 게 필수적입니다.

Q. 실제로 비정형 데이터 분석을 통해 고객들에게 어떤 서비스를 제공할 수 있을까요?

A. 먼저, 고객 상담의 질을 높일 수 있어요. 저희 회사 상담원들은 상담 시 고객과의 대화 내용을 녹취해 텍스트로 보관하고 있는데요. 텍스트라는 비정형 데이터를 분석해 상담 고객에 대해 분석할 수 있게 됩니다. 상담원의 기억에 의존하지 않아도 고객에 대한 정보를 훨씬 더 수월하게 관리할 수 있죠.

저희가 마케팅을 하는 상품에 대한 반응도 분석할 수 있습니다. 예를 들면, '이번 슈퍼콘서트 예매와 관련한 긍정적인 반응들'과 같은 데이터를 확보하는 것이죠. 추후 이 데이터들을 또 다른 슈퍼콘서트를 기획하는 데 사용할 수 있는 거죠. 비정형 데이터는 고객의 감성적인 부분도 분석한다는 점에서 정형 데이터에는 없는 장점이 있습니다.

비정형 데이터의 활용 가치와 장점을 정형 데이터와 비교해 설명했지만, 두 가지 데이터는 함께 쓰일 때 더욱 가치가 높아집니다. 고객이 많이 찾는 가맹점은 정형 데이터 분석을 통해 알 수 있지만, 왜 많이 소비하는지는 비정형 데이터를 통해 알 수 있습니다. 반대로 비정형 데이터를 통해 인기 있는 가맹점을 추측할 수는 있지만, 사실 확인은 정형 데이터로 가능합니다. 만약 비정형 데이터 상으로 인기 있는 가맹점이 정형 데이터 분석에서 결제 금액이나 횟수가 적은 것으로 파악된다면, 이 가맹점은 광고 글을 많이 올리고 있을 있을 가능성이 있습니다. 이처럼 두 가지 데이터는 각각 중요하지만, 결합될 때 더 다양하고, 더 신뢰할 수 있는 분석을 제공할 수 있습니다.

Q. 실제로 UDT팀의 기술이 들어간 상품이나 서비스가 있나요?

A. 얼마 전 출시한 해외 패션사이트 검색 서비스 앱 PICO 아시죠? 거기에 저희 팀이 개발한 기술이 쓰였습니다. 크게 두 가지인데요. 첫째는 사용자들이 입력한 텍스트가 어떤 의미인지 분석하는 기술입니다. 입력한 텍스트에서 특정한 키워드를 뽑아내고 해당 키워드가 브랜드를 뜻하는 지 아니면 카테고리를 뜻하는 지 분류하는 작업을 하죠. 그 다음 검색 대상이 되는 패션 사이트에서도 해당 키워드 요소를 뽑아 매칭(matching) 시킵니다. 모든 검색 서비스에는 기본적으로 이런 기술이 필요한데요. 저희 팀의 기술이 여기에 녹아있죠.

PICO에서 특장점으로 내세우고 있는 '요즘 뜨는' '내게 맞는'과 같은 큐레이션 시스템에도 저희 팀의 기술이 적용됐습니다. 시스템에 들어가는 알고리즘을 분석가가 설계하고, 저희가 그것을 실체화시켜서 제공했죠.

Q. 엄청나게 중요한 역할을 하셨네요?

그런데 많이 티가 안 나죠. (웃음)

Q. 현대카드는 데이터 사이언스 컴퍼니를 지향하고 있잖아요. 데이터는 왜 중요한 걸까요?

A. 앞서 말씀 드린 것처럼 고객의 니즈를 좀 더 면밀하게 살필 수 있다는 것이 가장 큰 강점입니다. 고객을 좀 더 깊이 있게 이해하고 이를 바탕으로 기존 서비스를 개선하고, 새로운 서비스도 내놓을 수 있죠.

사업적인 판단을 할 때도 굉장히 효과적이에요. 데이터를 기반으로 판단을 하면 결과가 잘못되더라도 왜 잘못됐는지를 데이터에서 찾을 수가 있잖아요. 이런 과정이 여러 번 축적되고, 또 다른 데이터들이 업데이트되면서 경영상 실패 확률은 점점 더 낮아지죠. 결과적으로 데이터는 사업이 안정적으로 지속될 수 있도록 돕는다는 면에서 굉장히 중요합니다.

Q. 앞으로의 팀의 방향성이 궁금해요.

A. 저희 팀은 비정형 데이터를 가치 있게 만들 수 있는 분석 기술들을 지속적으로 개발해서 제공할 계획입니다. 올해 초에는 기술 특허 출원을 신청했는데요. 대량의 말뭉치로부터 추출해야 하는 키워드 영역을 학습한 모델을 생성하고, 별도의 형태소 분석 없이 의미 있는 키워드를 추출하는 기술에 대한 특허로, 현재 등록 진행 중입니다. 이 기술은 이미 PICO 서비스에 사용된 바 있죠. 비정형의 텍스트 데이터를 분석하는데 있어 가장 기초가 되는 기술이기 때문에 매우 의미 있다고 판단했습니다. 뿐만 아니라 기술 내재화를 통해 가공된 비정형 데이터들을 정형데이터와 함께 분석하여 시너지를 낼 수 있는 방법을 모색하고 있습니다.

Q. 마지막으로 하고 싶은 말이 있다면?

A. 기술이 구축되지 않은 상태에서 사업을 진행하다가, 갑작스럽게 기술이 필요한 상황이 닥치면 사업 추진에 지장을 주게 되잖아요. 기술을 구입하게 되면 비싼 비용을 지불해야 하기도 하고요. 저희 팀이 미리 준비해두면 미래에 있을 저희 회사의 데이터 관련 사업들도 원활하게 진행할 수 있지 않을까요? 단기적인 성과에 얽매이기보다 길게 보며 분주하게 움직이고 있습니다. 회사가 데이터 사이언스 컴퍼니를 선언한 만큼 저희 팀의 기술을 통해 회사가 업계에서 혁신을 선도해나갈 수 있게 노력할 생각입니다.

  • Email 보내기
  • 내용 Print