쉽게 접근 할 수있는 플랫폼

마지막 업데이트: 2022년 5월 15일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
Figure 13 | Datahub 파이프라인 Lineage 화면

k8s - 서비스

포트를 외부로 노출해 사용자들이 접근하거나, 다른 디플로이먼트의 포트들이 내부적으로 접근하려는 방법이 필요함.

서비스는 포드에 접근하기 위한 네트워크 규칙을 정의하는 오브젝트

  1. 여러개의 포드에 쉽게 접근할 수 있도록 고유한 도메인 이름 부여
  2. 여러 개의 포드에 접근할 때, 요청을 분산하는 로드밸런서 기능 수행
  3. 클라우드 플랫폼의 로드밸런서, 클러스터 노드의 포트등을 통해 포드를 외부로 노출

서비스 종류

종류설명
ClusterIp 타입쿠버네티스 내부에서만 포드들에 접근할 때 사용, 외부로 포드 노출 X
따라서 클러스터 내부에서만 사용되는 포드에 적합
NodePort 타입포드에 접근할 수 있는 포트를 클러스터의 모든노드에 동일하게 개방, 따라서 외부에서 접근할 수 있는 서비스 타입. 접근할 수 있는 포트는 랜덤으로 정해지지만, 특정 포트로 지정가능
LoadBalancer 타입로드밸런서를 동적으로 프로비저닝해 포드에 연결, NodePort 타입과 마찬가지로 외부에서 접근할 수 있는 서비스 타입, 일반적으로 AWS, GCP 등과 같은 클라우드 플랫폼환경에서만 사용가능.

실제 목적에 맞는 적절한 서비스 종류를 선택하는 것이 중요.

다음명령어로 서비스가 제대로 생성되었는지 확인가능

  • 포드 IP 를 확인한뒤 curl 로 HTTP 요청보내기

--restart : 컨테이너 재시작 정책 always , never , OnFailure 등 존재.

서비스종류 : ClusterIP

spec.selector: selector 항목은 이 서비스에서 어떠한 라벨을 가지는 포드에 접근할 수 있게 만들 것인지 확인

위 예시에서는 app: webserver 라는 라벨을 가지는 포드들의 쉽게 접근 할 수있는 플랫폼 집합에 접근할 수 있는 서비스를 생성

spec.ports.port : 서비스 IP에 접근할때 사용할 포트를 설정

spec.ports.targetPort: selector 항목에서 정의한 라벨에 의해 접근 대상이 된 포드들이 내부적으로 사용하고 있는 포트를 입력

spec.type : 이 서비스가 어떤 타입인지 나타내는 것, 서비스의 종류에는 ClusterIP , NodePort , LoadBalacer 등이 존재

  • 서비스 생성
  • 생성된 서비스 목록 확인
  • 요청 전송
  • 서비스에는 IP 뿐만 아니라 서비스 이름 그 자체로도 접근할 수 있습니다.

어플리케이션이 서비스나 포드를 쉽게 찾을 수 있도록 내부 DNS를 구동하고 있기때문에 가능.

접근과정 요약

  1. 서비스의 yaml 파일의 selector 항목을 연결할 selector 와 동일하게 정의
  2. yaml 파일의 targetPort 정의
  3. kubectl apply -f 명령어로 클러스터 ip 타입의 ip 할당
  4. 접속요청이 들어오면 service가 endpoint로 해당 요청 전달
  5. 포드접근 수행
  • 서비스 삭제 명령어

서비스 종류 : NodePort

  • NodePort 타입은 클러스터 외부에서도 접근 가능
  • 단, 모든 노드의 특정포트를 개방해 서비스에 접근하는 방식
  • yaml 작성
  • 서비스 확인

NodePort 타입의 서비스가 생성됐음을 알 수 있는데, PORT항목의 31139라는 숫자는 쉽게 접근 할 수있는 플랫폼 모든 노드에서 동일하게 접근할 수 있는 포트를 부여 받음을 의미

또한 nodeport 타입또한 ClusterIP가 부여되는 것을 볼 수 있는데, nodeport는 내부적으로 이용할 수 있는 clusterIP도 생성하면서, 외부에서도 접근가능하도록 할수 있음

default 옵션은 노드에서 개방되는 포트는 30000~32768 쉽게 접근 할 수있는 플랫폼 포트 중에 랜덤으로 선택됨

서비스종류 : LoadBalancer 타입

로드밸런서 타입은 일반적으로 AWS, GCP 등과 같은 클라우드 플랫폼 환경에서만 LoadBalancer 타입을 사용할 수 있습니다.

네이버 클라우드 플랫폼 또한 도커에 대한 로드밸런서를 지원하는듯 하나 현재 네이버 만 이용이 가능한 것으로 보임.

따라서 온프레미스 환경의 MetalLB 를 사용

  • 다만, 쿠버네티스가 직접 제공하는 기능이 아니기 때문에 유지보수가 지속적이지 않을 수도 있음.

트래픽의 분배를 결정하는 서비스 속성 : externalTrafficPolicy

  • LoadBalancer 타입의 서비스를 사용하면 외부로부터 들어온 요청은 노드 중 하나로 보내지며, 그 노드에서 다시 포드중 하나로 전달
  • 위와 같은 요청 전달 원리가 효율적이지 않을때가 있음.
    • A노드에 들어오는 요청이 B노드의 pod에 요청이 보내질때 등
    • 굳이 A 노드로 들어오는 요청을 B노드로 보낼 필요가 없음
    • 서비스 설정 확인
    • 로드 밸런서 타입 변경

    externalTrafficPolicy를 무조건 Local로 설정하는 것이 무조건 좋은 것은아님 예를들어, 각 노드에 포드가 고르지 않게 스케줄링 됐을때 요청이 고르게 분산되지 않을 수도 있기 때문입니다.

    [더구루=길소연 기자] 두산밥캣이 캐나다 이커머스 플랫폼에 진출, 소비자 온라인 주문·배송 편의성을 확대한다. 고객에게 더 나은 서비스를 제공하기 위한 것으로, 건설기계 선진시장인 북미 시장에서의 점유율을 확대한다.

    10일 업계에 따르면 두산밥캣 미국법인은 캐나다 고객들이 두산밥캣 장비를 쉽게 주문, 배송받을 수 있도록 전자상거래 플랫폼 '밥캣파츠닷컴(BobcatParts.com)'을 통해 엄선된 부품과 액세서리 등을 업로드한다.

    이에 따라 캐나다 고객은 해당 플랫폼에서 △밥캣 부품 △필터 △유체 △트랙 △타이어 △유지보수 키트 △버킷 △팔레트 포크 부착물을 주문할 수 있다. 또 99달러(약 11만원) 이상 주문 고객은 무료 배송 혜택을 받아볼 수 있다.

    애덤 콜린스(Adam Collins) 두산밥캣 북미 전략 영업 이사는 "캐나다 고객에게 전자상거래 옵션을 제공하게 된 것을 기쁘게 생각한다"며 "고품질의 정품 밥캣 부품에 쉽게 접근할 수 있는 건 소유자가 가동 시간과 최적의 생산성을 유지하는 데 매우 중요하다"고 밝혔다.

    이커머스 플랫폼을 통해 고객은 2만개 이상의 항목을 적시에 필요한 제품을 집으로 받아볼 수 있다. 또 새것과 같은 성능과 안정성을 제공하는 다양한 재생 부품을 제공한다.

    두산밥캣이 장비·부품 거래에 있어 전자상거래 플랫폼 시장에 진출한 건 코로나19 이후 온라인 주문이 늘어서다. 이에 두산밥캣은 다양한 장비를 쉽게 알리고, 고객은 보다 편리하게 제품을 쇼핑, 주문할 수 있게 전자상거래 플랫폼을 확대했다.

    애덤 콜린스 이사는 "두산밥캣은 고객에게 더 쉽게 접근 할 수있는 플랫폼 나은 서비스를 제공할 수 있는 새로운 방법을 찾고 있다"며 "온라인 주문은 편의성과 효율성을 제공할 뿐만 아니라 부품과 부착물의 가용성에 대한 실시간 보기를 제공한다"고 말했다.

    두산밥캣은 50여년간 북미 소형건설기계 시장 점유율 1위를 지켜오는 등 미국 내 인지도가 상당하다. 연간 4000억원 안팎의 영업이익을 올리는 등 꾸준한 실적으로 인정받고 있다.

    이민 한컴엔플럭스 대표가 광주 AI창업캠프에서 AI타임스와 인터뷰를 하고 있다.

    이민 한컴엔플럭스 대표가 광주 AI창업캠프에서 AI타임스와 인터뷰를 하고 있다.

    서울 도봉구에만 서울시의 60%가 넘는 양말 공장이 밀집돼 있다. 공장에서 발생하는 소음 때문에 저렴한 지하실로 공장들이 모여 들었다. 환풍기 설치도 거의 못해 미세 먼지 등으로 인한 근로자 건강 문제와 대기오염이 골칫거리였다. 도봉구는 기존의 방식이 아닌 스마트 플랫폼을 도입해 방대한 대기오염 물질을 분석하고 이에 맞는 정책과 예산을 지원해 이를 해결하고 있다.

    도봉구 양말공장의 대기환경 문제를 해결한 일등공신은 한컴엔플럭스가 개발한 공기질 관리 플랫폼이다. 공장 내부에 사물인터넷(IoT)센서를 설치하고 플랫폼으로 연결 받아 15종의 가스를 인공지능(AI)으로 실시간 분석해 구청에서 선제 조치를 할 수 있도록 했다. 미세먼지와 이산화탄소 농도를 공장과 구청에서 지켜볼 수 있어 맞춤형 지원과 대처가 가능하다.

    이와같이 한컴엔플럭스는 도시의 여러 문제를 스마트한 기술을 이용해 데이터화하고 플랫폼으로 연결해 해결하는 스마트 도시 사업에 참여해왔다. 방범·교통·안전·생활·재난 등 도시의 주요 핵심정보를 수집 및 분석해 도시 전역의 통합 관제를 돕는다. 최근에는 스마트 시니어 헬스케어 서비스와 관광 스마트 서비스 플랫폼 구축도 진행하고 있다. 지자체 스마트시티 사업에 참여할 수 있는 ‘스마트시티 통합 플랫폼(TTA)’ 인증도 창업 첫해인 2018년에 완료했다.

    이민 한컴엔플럭스 대표는 스마트 시티의 전신인 유시티(Ubiquitous City, 센서 네트워크를 도심에 설치해 언제 어디서나 컴퓨팅 서비스를 이용할 수 있는 체계를 갖춘 도시) 개발자로 일을 시작해 유시티 분야 박사학위를 취득했다. 2018년 엔플럭스를 창업해 6개월 만에 기술을 인정받아 한컴그룹의 투자를 받았다.

    이러한 경험을 토대로 한컴엔플럭스는 최근 한컴그룹을 벗어나 광주에서 새로운 도약을 꿈꾸고 있다. 이 대표는 “광주에서 시민들이 체감할 수 있는 스마트한 도시를 만드는 AI‧IoT기반 스마트플랫폼을 구축하는 게 목표”라고 포부를 밝혔다. 이민 대표를 만나 법인을 설립하고 광주행을 선택하게 된 이유와 앞으로의 목표 등을 들어봤다.

    이민 대표가 한컴 엔플럭스에 대해 소개하고 있다. 엔플럭스는 AI·IoT 기반 스마트 통합 플랫폼을 가지고 스마트 도시 사업을 진행하고 있는 회사이다.

    이민 대표가 한컴 엔플럭스에 대해 소개하고 있다. 엔플럭스는 AI·IoT 기반 스마트 통합 플랫폼을 가지고 스마트 도시 사업을 진행하고 있는 회사이다.

    Q. 한컴엔플럭스는 어떤 기업인가.

    스마트 시티 분야를 데이터로 접근하고 있는 회사다. IoT‧블록체인‧AI 등 첨단 기술을 활용해 교통, 환경 등 도시 전반의 데이터를 쉽게 해 모으고 관리‧분석‧예측을 할 수 있는 플랫폼을 가지고 있다.

    Q. 창업계기는 무엇인가.

    유시티 1호 도시가 화성 동탄이다. 유시티(Ubiquitous City) 유비쿼터스는 어디에나 존재한다는 뜻이다. 센서 네트워크를 도심에 어떻게 잘 넣어서 통합 시스템을 만들고 사회안전망을 구축하는 것이 유시티의 목적이었다. 15년 전부터 개발자로 일을 하면서 사회생활을 했고 유시티 분야 박사학위를 취득했다. 유시티에서 AI‧IoT로 더 똑똑한 도시를 만들 수 있게 되면서 스마트 시티로 전환됐다. 스마트시티, 유시티 전문가로 생활을 해오긴 했지만 한계가 있었고, 두 개 정도 회사를 거쳐 지금의 엔플럭스를 창업했다. 창업 후 6개월만에 한글과컴퓨터 그룹에 투자를 받아 계열사로 편입이 됐었다. 나름 기술을 인정받았다고 생각을 한다. 최근 한글과 컴퓨터를 나와 새로운 도약을 꿈꾸고 있다.

    이민 대표는 한컴엔플럭스에서 진행했던 지자체 사업들을 소개하고 있다. 지자체 현안 문제를 해결하는 스마트 플랫폼 구축을 비롯해 지금까지 20여건의 스마트 플랫폼을 활용한 사업을 진행했다.

    이민 대표는 한컴엔플럭스에서 진행했던 지자체 사업들을 소개하고 있다. 지자체 현안 문제를 해결하는 스마트 플랫폼 구축을 비롯해 지금까지 20여건의 스마트 플랫폼을 활용한 사업을 진행했다.

    Q. 한컴엔플럭스 스마트 플랫폼을 도입한 사례를 소개하자면.

    서울시 녹색교통통행관리플랫폼 구축을 했던 스마트 교통 시스템이 있다. 서울시 사대문 오가는 차량들을 인식하는 카메라를 두고 카메라로 인식되는 차량들을 수집을 한 다음에 국토교통부에서 차량번호를 조회하여 환경 저해 차량인지를 구별해 낸다. 이 플랫폼을 이용하면 사대문 안은 청정지역으로 유지할 수 있게 된다.

    현재 기획하고 있는 플랫폼은 관광에 대한 데이터를 통합해 여러 서비스를 제공하는 플랫폼이다. 데이터분석 결과에서 파생된 상품도 만들어낼 수 도 있고, 관광객들이 왔을 때 좋은 동선을 제공해 줄 수 있다. 페이시스템을 도입해서 하나의 모바일 결제 시스템을 이용해 어느 곳에 가서도 결재할 수 있게 한다거나 응용을 해서 쓸 수 있는 사례가 만들어지고 있다. 예를 들어 지역 화폐의 경우 그 지역 화폐를 못 쓰는 외부 사람들이 신용카드와 연동해서 쓸 수 있는 방법을 제공하거나 응용 사례를 쓰고 있다.

    이민 대표가 한컴엔플럭스의 스마트 통합 플랫폼 핵심 기술에 대해 설명하고 있다. 이 플랫폼은 모든 센서에 연결을 가능하고 비전문가가 쉽게 접근할 수 있도록 소프트웨어 화면 구성이 돼 있다.

    Q. 핵심 기술을 소개한다면.

    저희 플랫폼에는 AI와 IoT기술이 주가 되고 있다. 플랫폼은 데이터를 쉽게 모을 수 있어야 된다. 이에 IoT관점에서 쉽게 데이터를 만들 수 있는 계층을 만들어 놨다. 또 커넥션 레이어라는 것을 갖추고 있어 일종의 시스템들을 쉽게 붙일 수 있는 기술을 가지고 있다. 옛날에는 실제 프로그래머들이 앉아서 코딩을 해야 하는 기술들을 일반관리자도 컴퓨터 화면상에서 연결을 할 수 있는 기술을 개발했다. 플랫폼을 통해 모아진 데이터만 있다면 비전문가도 쉽게 AI를 접근해서 쓸 수 있다.

    데이터라는 게 누구나 외부에서 쉽게 쓸 수 있어야 하는 데 대부분 시스템은 한번 데이터를 구축해 놓으면 누군가 퍼가기가 쉽지 않다. 오픈API나 메시지 형태로 제 3자 개발사들이 연합해서 데이터를 가져갈 수 있도록 구조화 했다.

    Q. IHE 인증을 받았다고 들었다. 어떤 인증인가.

    우리나라에는 잘 알려져 있지 않은 인증이다. IHE(Intergrating the Healthcare Enterprise)라고 국제 기구가 있다. 헬스케어를 하는 회사들을 통합해놓고 의료정보를 상호교환할 수 있게 해주는 인증이다.

    한컴엔플럭스가 자체 개발한 시니어 케어 돌봄 서비스 플랫폼 시스템 구조. (자료=한컴엔플럭스 제공).

    한컴엔플럭스가 자체 개발한 시니어 케어 돌봄 서비스 플랫폼 시스템 구조. (자료=한컴엔플럭스 제공).

    Q. 시니어 케어 돌봄 서비스 플랫폼을 구축한 것으로 알고 있다. 관련 사업에 대한 추진 현황과 성과를 듣고 싶다.

    수집된 생체데이터를 AI로 분석해서 맞춤형 운동을 제공해주 서비스다. 디지털전환 (DT, Digital Transformation)정부 과제로 시니어 케어 노인 돌봄 서비스 AI플랫폼을 기획과제를 수행했었다. 기획과제로 시스템으로 개발까지는 하지 않았는데 자체 투자를 해서 AI시스템까지 개발 완료를 해놓은 상태다. 노인분들에게 센서장치로 밴드를 착용시켜 일상생활에서 생체 데이터를 수집한다. 지자체 또는 주간보호센터와 연계해서 시스템을 확산시키고 있다.

    Q. 광주에 법인설립을 결심하게 된 이유를 듣고 싶다.

    지자체의 플랫폼 사업으로 경험을 많이 키웠다. 최근 한글과 컴퓨터 그룹에서 나오게 되면서 지역의 주요 거점을 어디로 둬야 할지 전략적인 고민을 많이 했다. 광주시가 AI 국가특구로 지정되면서 눈에 띄었고, 광주과학기술원(GIST)과 전남대병원이 비즈니스 네트워크 범위 안에 들어오게 됐다. 더불어 광주시가 갖고 있는 AI 열정이 느껴져 결심하게 됐다. 데이터 플랫폼 사업을 인공지능과 IoT기반으로 하고 있는 회사다 보니 협력이 중요하다. 여러 업체들과 같이 상생하면서 클 수 있는 시작점이 됐으면 좋겠다.

    이민 한컴엔플럭스 대표가 광주에 들어서는 데이터 센터에 대해 데이터를 모으는 플랫폼 역할을 강화해야한다고 설명하고 있다. 이 대표는 인프라 구축에 앞서 시민들에게 어떤 체감형 서비스를 제공할 것인지 먼저 고민해봐야 한다고 충고했다.

    이민 한컴엔플럭스 대표가 광주에 들어서는 데이터 센터에 대해 데이터를 모으는 플랫폼 역할을 강화해야한다고 설명하고 있다. 이 대표는 인프라 구축에 앞서 시민들에게 어떤 체감형 서비스를 제공할 것인지 먼저 고민해봐야 한다고 충고했다.

    Q. 광주에 국내 최대 규모에 데이터센터가 구축된다. 어떻게 운영됐으면 좋겠나.

    광주의 데이터센터는 인프라 측면에서는 굉장한 장점 중에 하나이기도 하지만 실은 우려되는 점이기도 하다. 데이터센터는 인프라 중심으로 구축되면 쉽게 접근 할 수있는 플랫폼 쉽게 접근 할 수있는 플랫폼 역할을 제대로 하기 어려운데 현재 구조는 그런 점이 없지 않아 있어 아쉽다. 데이터를 모으는 플랫폼의 역할이 어떻게 보면 간과되어 있다는 생각이 들었다. 그 부분이 보안이 된다면 더 좋아질 것 같다.

    해외사례를 보면 데이터센터라는 거창한 것을 만드는 사례도 있다. 근데 그것보다는 데이터를 어떻게 모은 후에 시민들에게 어떤 체감형 서비스를 줄 것인가를 먼저 고민을 하고 그 데이터량이 커지면 데이터센터를 만든다. 광주시 같은 경우는 물론 병행으로 가고 있긴 하지만 체감형 서비스가 뭔지에 대한 정의가 조금 늦는다. 그런 상태에서 아주 많은 돈을 들여 센터부터 만들고 있기 때문에 약간 엇박자가 나고 있는 상황이라는 생각이 든다. 이런 점이 감안이 되면 더 좋은 결과물이 나올 것으로 생각된다. 사람들이 활용할 수 있는 서비스를 어떻게 구축하는 것은 상당히 어려운 문제고 시간이 걸리는 문제다. 그런 부분이 같이 고려되면 좋겠다.

    Q. 데이터 사업에 대한 좋은 방향은 무엇이라고 생각하는가.

    데이터센터의 용량이 크더라도 도시 데이터를 다 모으려면 못 넣는다. 그럼 반대로 모아야 되는 데이터만 저장을 하겠다는 방향으로 바뀌어야 된다. 무조건 용량만 늘리지 않더라도 의미 있는 데이터를 가지고 있을 수 있다. 중앙에 올려서 저장하는 클라우드 방식이 아니라 엣지 컴퓨팅을 통해서 필터링 된 데이터만 올리겠다는 전략과 구조개선이 필요하다.

    광주광역시 동구 금남로 유오빌딩에 위치한 광주AI창업캠프 1호에 엔플럭스 사무실을 두고 있다. 이민 대표는 내년 7월 ‘AI창업캠프 2호’가 개관하면 사무실을 이전할 계획이다.

    광주광역시 동구 금남로 유오빌딩에 위치한 쉽게 접근 할 수있는 플랫폼 광주AI창업캠프 1호에 한컴엔플럭스 사무실을 두고 있다. 이민 대표는 내년 7월 ‘AI창업캠프 2호’가 개관하면 사무실을 이전할 계획이다.

    Q. 광주에서 어떤 사업을 발굴하고 있나.

    광주에서 특화해서 하려고 하는 사업은 AI 음성처리 분야와 헬스케어 분야 데이터를 수집해서 AI로 분석하는 것에 주력하려고 한다. 헬스케어분야의 경우 GIST와 협업을 해서 기획하고 있다. 전남대병원과 AI학습데이터 구축 사업을 준비하고 있다. AI학습데이터를 구축하려면 기반이 되는 데이터가 상당히 많이 필요하다. 예를 들어 교통 신호체계를 바꾼다고 하면 AI시스템을 만들어서 내일부터 적용해가 아니라 일년 정도의 교통 패턴 정보를 갖고 있고 그걸 분석해서 거기서 AI가 이럴 땐 이렇게 하면 되는 구나라는 상황별 결론을 만들어 내야한다.

    이민 한컴엔플럭스 대표는

    이민 한컴엔플럭스 대표는 "시민들이 체감할 수 있는 시스템으로 광주를 스마트 도시로 만들어 가고 싶다"며 "회사 이름을 건 AI특화 타운을 만드는 게 장기적인 꿈"이라고 밝혔다.

    Q. AI중심도시 광주에 바라는 점은 무엇인가.

    여러가지 지원을 받으면서 입주를 하게 되는 것도 참 좋은 지원이지만 막상 사람을 뽑아놓고 운영을 해야하는 데 사업이 없다면 회사가 운영되지 않는다. 광주시가 좀 더 주도권을 잡고 이 사업을 진행했으면 하는 이유다. 정부 눈치나 정부의 로드맵 보단 예산을 좀 더 직접적으로 가지고 집행할 수 있는 권한을 시가 갖는다면 입주해 있는 기업들이 더 적극적으로 비즈니스 활동을 쉽게 접근 할 수있는 플랫폼 할 수 있다.

    작은 회사다 보니깐 지원이 절실하다. 어느 회사나 마찬가지겠지만 과연 어떤 노력을 하면 어떤 혜택이 올 건지가 명확하지 않다보니 어떨 때는 쉽게 접근조차 못하고 있다. 그래서 좀 더 사례가 많아지고 가이드가 충실 했으면 좋겠다는 생각이 든다. 가이드라는 것은 공고문 내듯이 이러한 분야 지원해보세요가 끝이 아니라 예를 들어 ‘어떤 조건을 만족하면 어떤 사업을 할 수 있다’라는 것이 명확하게 있으면 기업들이 노력을 할 수 있다. 그런 가이드가 제시됐으면 좋겠다. 규모는 상관없다. A라는 사업에 특화돼 진행할 수 있게 됐으면 좋겠다는 생각이다.

    Q. 앞으로의 목표는.

    전남대병원과 준비하고 있는 AI학습데이터 구축을 시작으로 여러가지 사업을 준비하고 제안할 예정이다. 장기적인 꿈은 한컴엔플럭스의 이름을 건 AI타운을 만드는 것이다. 시민들이 체감할 수 있는 시스템을 갖는 도시를 만들어 나가고 싶다. 광주광역시 전체를 대상이 아닌 몇 군데를 지정해 AI특화 스마트 도시를 구축하고 싶다.

    현 ㈜한컴엔플럭스 대표이사

    현 국토부 스마트시티 혁신성장동력 자문위원

    현 정보통신산업진흥원 평가위원

    한컴엔플럭스는 스마트 도시에 특화된 플랫폼 기술을 가지고 있는 회사이다. 최근 한컴그룹을 나와 광주에서 새로운 도약을 꿈꾸고 있다. 광주시가 AI중심도시를 표방하고 있지만 아직까지 시민들이 체감할 수 있는 AI는 찾아보기 힘들다. AI 기반 스마트 도시 구축은 시민들의 AI 체감도을 높이고 일상생활을 풍요롭게 하는 방법 중 하나이다. 확실한 쉽게 접근 할 수있는 플랫폼 기업지원 가이드라인 제공 등 광주시의 리더십이 필요한 시점이다.

    뱅크샐러드 Data Discovery Platform의 시작

    안녕하세요, 뱅크샐러드 Data Foundation의 Data Engineering팀 Data Engineer Jensen입니다.

    뱅크샐러드의 데이터 파운데이션 조직은 데이터 기반 의사결정을 위해 존재하기에, 데이터 파운데이션의 미션은 뱅크샐러드의 제품과 데이터의 ecosystem을 만드는 것입니다.

    제품과 데이터의 Ecosystem

    Figure 1 | 제품과 데이터의 Ecosystem

    🌏 제품과 데이터의 Ecosystem은 무엇인가요?

    Ecosystem은 복잡한 네트워크 또는 상호 연결된 시스템입니다.

    뱅크샐러드의 제품과 데이터의 Ecosystem을 만든다는 것은 뱅크샐러드 제품에서 발생하는 모든 데이터들을 수집 및 분석하여 뱅크샐러드 제품에 지속적으로 Impact를 하는 cycle을 의미합니다. 이러한 긍정적인 cycle을 크고 단단하게 만들기 위해서는 전 구성원들이 제품의 모든 데이터를 쉽고 편리하게 접근하며 분석할 수 있는 플랫품을 제공해야 합니다. 이미 저희 Data Engineering팀에서는 뱅크샐러드 모든 데이터를 분석 환경에서 확인할 수 있도록 단단한 데이터 파이프라인을 구축했습니다.

    😧 제품과 데이터의 Ecosystem의 Pain Point가 무엇인가요?

    데이터를 분석하려면 보통 목적과 가설이 있어야 합니다. 매출 지표를 만들고 싶으면 매출과 관련된 모든 테이블을 알아보고선 집계하고 대시보드를 만듭니다. 아니면 어떤 가설이 있는데 가설을 증명하기 위해서는 데이터를 확인해야 하고, 그러기 위해서는 분석 환경에서 어떤 데이터가 있는지, 확인하고 싶은 테이블이 어떤 의미를 가지고 있는지부터 이해해야 합니다. SQL이 능숙하지 않은 구성원에게 SQL이라는 것도 큰 장벽인데 각 도메인 쉽게 접근 할 수있는 플랫폼 테이블의 맥락까지 스스로 찾아보거나 분석팀에 찾아가서 물어봐야 된다면 시간도 많이 걸리고 lean하게 확인할 수 있는 업무가 불필요하게 크게 커져 버릴 수 있습니다. 그렇기 때문에 저희 팀이 전구성원에게 쉽고 편리하게 분석 환경 데이터를 접근하는 플랫폼을 제공하지만 쉽게 쉽게 접근 할 수있는 플랫폼 편리하게 분석할 수 있는 환경을 제공하지 못했습니다.

    뱅크샐러드 분석 환경에는 수많은 데이터가 있고, 이 데이터들이 어떠한 형태로든 계속 변경되고 있어서 매번 sync하는데 번거로움이 있습니다. 게다가 분석 환경에 있는 모든 데이터의 knowledge가 데이터 파운데이션에 있기 때문에, 그동안 뱅크샐러드 전구성원이 원하는 데이터를 찾기 위해서는 slack 채널에 자문을 하는 방법을 택할 수 밖에 없었습니다. 그리고 BI툴 사용자 입장에서 분석 환경에 테이블과 컬럼들이 너무 많아 어디서부터 어떻게 원하는 데이터를 찾아야 되는지 모르는 문제가 있습니다.

    분석 Pain Point

    Figure 2 | 분석 Pain Point

    분석 환경 BI Tool에 처음 들어온 구성원 vs 분석 환경 BI Tool에서 데이터를 많이 분석해본 구성원

    뱅크샐러드 Data Engineering팀은 단단한 데이터 파이프라인만 구축하고 관리하는 팀이 아닙니다. 저희는 뱅크샐러드 전구성원에게 뱅크샐러드 제품에 데이터 기반 impact를 할 수 있는 환경을 제공하는 팀입니다. 뱅크샐러드 데이터와 BI툴을 제공하는 일이 저희 팀 업무의 Foundation입니다. 그 다음 단계는 구성원에게 뱅크샐러드 데이터와 친밀하게 만드는 것입니다.

    그러므로 2021년 3분기부터 전 구성원에게 쉽고 편리하게 사용할 수 있는 분석 환경을 제공하기 위한 Data Discovery Platform의 구축과 배포를 시작했습니다.

    🚀 Data Discovery Platform이 무엇인가요?

    Data Discovery Platform은 분석 환경에 있는 모든 데이터를 편하고 쉽게 검색하고, 빠르게 이해할 수 있는 플랫폼입니다. 분석 환경에 어떤 테이블이 있는지와 함께, 그 테이블의 metadata도 볼 수 있는 것뿐만 아니라 테이블을 생성하는 책임자, 관련된 문서들과 어떤 대시보드의 지표에 활용하고 있는지, 어떤 대시보드나 Feature에 적용되어 있는지까지 관리할 수 있는 데이터 중앙 플랫품입니다.

    ✨ Data Discovery Platform 기대하는 주요한 기능

    분석 환경 모든 테이블의 최신 명세

    분석 환경에 어떤 테이블들이 있나요? 혹시 분석 환경에 이런 정보가 있나요? 제가 XXX 찾고 싶은데 분석 환경에서 확인할 있는지 궁금합니다.

    분석 환경에 어떤 테이블이 있고 어떤 컬럼들이 있는지 그리고 각각 어떤 의미를 가지 있는지 쉽게 검색창으로 검색하여 확인할 수 있는 기능이 전구성원에게 많이 유용한 기능이라고 생각합니다.

    분석 환경 모든 테이블의 최신 통계와 샘플 데이터

    분석 환경에 XXX 테이블이 어떻게 되어 있는 지 확인할 수 있나요? XXX 테이블은 언제 업데이트가 되었나요? XXX테이블의 샘플 데이터가 있어요? XXX 테이블의 XX 컬럼이 NULL/min/max 값이 얼마나 있어요?

    분석하기 전에 필요한 테이블들의 통계 정보를 쉽게 Data Discovery Platform에서 확인할 수 있는 점도 전구성원에게 중요한 기능이라고 생각합니다. 분석하려고 하는 테이블을 쿼리를 실행하지 않아도 테이블의 통계정보와 샘플 데이터로 파악할 수 있어서 더 빠르고 정확하게 쿼리를 실행할 수 있을 거라고 생각합니다.

    현재 분석 환경 모든 테이블들의 여정

    XX 지표가 어떤 테이블들로 만들었나요? 전사지표 중에 비슷한 지표를 검색해서 참조하고 싶습니다. XXX 마트 테이블이 어떤 의미이고 어떤 테이블로 만들었나요?

    Data Discovery Platform으로 분석할 테이블들의 여정을 빠르고 편하게 파악하여 분석할 수 있는 기능은 전구성원에게 편하게 데이터 분석할 수 있게 가이드를 할 수 있을 거라고 생각합니다. 분석하는 사람에게 분석하고 있는 테이블들이 어디서 수집한 테이블인지, 어떻게 가공해서 적재하는 지에 대해서도 한 플랫폼으로 확인할 수 있어서 전구성원에게 여럿 채널로 물어볼 필요없이 빠르게 분석할 수 있을 거러고 생각합니다.

    📚 Open Source Data Discovery Platform 조사 및 데모

    저희 팀이 1주일 동안 수많은 Data Discovery Platform Open Source를 다 한번 조사하고 PoC(Proof of Concept)했습니다. 최종적으로 Linkedin 에서 만든 Open Source Datahub와 Lyft 에서 만든 Open Source Amundsen의 데모를 배포하고선 구성원에게 오픈하고 투표를 받았습니다. 결과적으로 Datahub가 85%로 이겼습니다.

    Datahub 선택된 이유 중에 제일 큰 이유는 사용자에게 친숙하게 느껴질 수 있는 장점입니다. 다른 플랫폼도 비슷한 기능들이 있습니다만 DataHub의 UI가 개발 외 직군에게도 쉽게 활용할 수 있다는 점이 있어서 Datahub이 압도적으로 이겼다고 생각합니다.

    Datahub 데모 피드백

    Figure 6 | Datahub 데모 피드백

    저희는 데이터 분석 환경 용도로 별도로 구축된 k8s를 사용하고 있어 Datahub Helm을 참조하며 배포했습니다. 예시로 Datahub Demo 사이트를 참조하시면 Datahub를 확인할 수가 있습니다.

    뱅크샐러드의 Data Discovery Platform Architecture는 아래 그림과 같습니다.

    Datahub Architecture

    Figure 7 | Datahub Architecture

    Datahub Ingestion은 이름과 같이 Data를 수집하고 Datahub에 있는 Datahub serving 단계에서 ingest, 수집한 데이터를 섭취하는 뜻입니다.

    예를 들어, MySQL에 있는 모든 테이블들의 메타정보를 다 수집하여 Datahub UI에 보여 주고 싶으면 Recipe(레시피)를 작성해야 됩니다.

    보통 요리를 할때 Recipe(레시피)를 참고하면서 따라하는 경우가 많습니다. Data Discovery의 Recipe도 마찬가지입니다.

    어디서부터 메타데이터를 수집해야 되며 어떻게 가공하고 마지막에 어디서 보내는지에 대헤서 yaml 로 선언할 수 있습니다.

    MySQL to DataHub의 Ingestion 예시:

    저희 Datahub ingestion은 Airflow DAG으로 관리하고 있습니다.Airflow DAG으로 만들어서 분석 환경에 있는 모든 테이블의 metadata 정보들이 Datahub에 ingest합니다. Ingest한 후에 Datahub으로 결과를 확인할 수가 있습니다.

    Datahub에 Ingestion이 완료된 예시를 가져왔습니다. ap-northeast-2에 있는 AWS Glue 테이블들이 ingest되어 datahub-rest 로 보냅니다.

    Main 페이지에서 유저 라는 키워드를 검색해보면 유저와 관련된 모든 정보를 결과로 나옵니다.

    Datahub 메인 화면

    Figure 8 | Datahub 메인 화면

    검색 결과로 temp.test_jensen 라는 테이블이 나왔고 매칭된 필드도 간략하게 확인할 수 있습니다. 이 예시에서는 Matches column description 송금 타켓 유저 여부 ex) true, false 로 확인할 수가 있습니다.

    Datahub 검색 결과

    Figure 9 | Datahub 검색 결과

    데모 페이지에서도 예시를 하나 가져왔습니다. 여기서 테이블의 이름 , 명세 , 명세의 정의 , 오너 , 태그 , 설명 등을 모두 확인할 수 있습니다.

    Datahub Demo 페이지

    Figure 10 | Datahub Demo 페이지

    여기까지는 Datahub의 기본적인 기능입니다.

    Datahub SQL Profile

    기본적인 기능 외에 Datahub에서 제일 중요한 feature는 SQL Profile이라고 생각합니다. 각 테이블의 컬럼들의 통계 정보를 확인할 수 있으며 쿼리를 하지 않아도 테이블 row 수, 샘플 데이터 등을 조회 하는 것이 가능합니다.

    Datahub Stats 화면

    Figure 11 | Datahub Stats 화면

    이 외에도 소개하고 싶은 Datahub feature는 Lineage기능입니다. Lineage는 쉽게 접근 할 수있는 플랫폼 테이블의 여정을 연결하여 tracing할 수 있습니다. 데모 페이지에 있는 예시로 county_14d 테이블을 통해 생성한 3개의 테이블이 있습니다. 현재 county_28d , county_14d_history , state_14d 테이블들이 county_14d 로 부터 만들어진 테이블들입니다. 이러한 정보들을 Lineage 에서 확인 가능합니다.

    Datahub 테이블 Lineage 화면

    Figure 12 | Datahub 테이블 Lineage 화면

    그리고 만약에 Airflow로 pipeline을 관리하고 있다면 Airflow와 Datahub을 연결 및 설정한 후에 Airflow에서 어떤 데이터로 부터 어떤 task를 통해 어떤 데이터를 만들었고 그리고 그 다음 task가 무엇인지에 대해서도 확인 가능합니다.

    Datahub 파이프라인 Lineage 화면

    Figure 13 | Datahub 파이프라인 Lineage 화면

    뱅크샐러드에서 다양한 데이터들이 많습니다. 금융 데이터부터 보험, 건강, 카드, 등등이 있는데 이제 뱅크샐러드 전구성원이 Data Discovery Platform으로 검색할 수 있습니다. 그리고 향후에 더 많은 Metadata를 Datahub에 ingest하고 추가할 예정입니다. 분석 환경 데이터의 여정을 확인할 수 있으면서 관련된 대시보드와 지표 정의를 확인할 수 있고 Feature에 반영되어 있는 Feature 테이블들이 어떤 테이블이 있는지 어떤 ML 모델로 관리하고 만들었는지에 대한 metadata를 추가하는 업무들은 Data Engineering팀의 숙제입니다.

    뱅크샐러드 제품과 데이터의 ecosystem에 있는 상호 연결된 시스템을 Data Discovery Platform로 표현할 수 있도록 더 많은 노력을 기울이려고 합니다.

    쉽게 접근 할 수있는 플랫폼

    ⓒ데일리포스트=이미지 제공/LG유플러스

    [데일리포스트=김정은 기자] LG유플러스가 OTT 콘텐츠 사용 편의성 제고를 위해 온라인 동영상 서비스(OTT) 통합 포털 스타트업 ‘키노라이츠’와 협력하기로 했다.

    LG유플러스는 키노라이츠와 ‘OTT 활성화를 위한 솔루션 협력 업무협약(MOU)’을 체결했다고 6일 밝혔다. 서울 용산구 소재 LG유플러스 사옥에서 진행된 협약식에는 LG유플러스 정수헌 컨슈머부문장(부사장)과 키노라이츠 양준영 대표 등이 참석했다.

    LG유플러스는 지난달 ‘유니온투자파트너스’, ‘카카오벤처스’, ‘신한캐피탈’과 함께 약 25억원 규모의 키노라이츠 지분투자를 단행했다. 이 중 LG유플러스의 투자액은 약 10억원이다. 최근 다양한 OTT 플랫폼의 등장으로 콘텐츠가 방대해진 상황에서 보다 쉽게 자사 서비스에 접근할 수 있도록 투자를 결정했다고 LG유플러스는 설명했다.

    이번 업무협약을 통해 LG유플러스는 키노라이츠의 콘텐츠 추천, 주간 랭킹 등 솔루션과 자사 서비스를 연계해 고객 편의성을 높일 수 있는 방안을 모색할 예정이다. 또한 키노라이츠 솔루션을 고도화할 수 있도록 다방면에서 협력을 진행한다는 방침이다.

    키노라이츠는 OTT 쉽게 접근 할 수있는 플랫폼 관련 통합검색, 콘텐츠 탐색 및 추천 서비스를 제공하는 모바일 앱 서비스로 지난해 말 기준 누적 다운로드가 30만건을 돌파했다. 고객은 보고싶은 콘텐츠를 키노라이츠에서 검색하면 콘텐츠 정보와 함께 해당 콘텐츠를 감상할 수 있는 OTT 플랫폼을 한 번에 볼 수 있다.

    LG유플러스 정수헌 컨슈머부문장(부사장)은 “키노라이츠 지분투자와 업무협약을 통해 멀티 OTT 시청 환경에서도 고객이 보다 편하게 콘텐츠에 접근할 수 있는 계기를 마련했다”며 “LG유플러스가 OTT를 가장 편하게 볼 수 있는 통신사라는 인식을 고객들에게 심어줄 수 있도록 노력하겠다.”고 말했다.

    키노라이츠 양준영 대표는 “차별화된 콘텐츠 경쟁력을 위해 적극적으로 투자하고 있는 LG유플러스와 제휴할 수 있어 기쁘게 생각한다“며 “소비자들이 콘텐츠 감상 전후 반드시 사용하는 통합 포털 서비스로 자리매김해 나가겠다”고 밝혔다.


0 개 댓글

답장을 남겨주세요