본문 바로가기

SIT서울기술연구원

연구정보 시민의 안전과 삶의 질 향상에서 서울기술연구원이 앞장서겠습니다.

('20년 연구과제) 서울 대도시권 데이터 사이언스 체계 구축방안

김준철, 김태현, 이지애, 권민지 2021.05.27 192

서울 대도시권 데이터 사이언스 체계 구축방안


연구책임:
김준철 수석연구원


연구진:
김태현 선임연구위원
이지애 전임연구원
권민지 전임연구원


연구내용(요약):
도시 빅데이터 기반 서울 대도시권 진단과 체계적 관리를 위해 인공지능 분석을 지원할 수 있는 표준화된 도시문제 해결형 데이터 사이언스 체계 구축


[스마트시티 분야의 데이터 사이언스 플랫폼 구축사례 분석을 통한 시사점 도출]
서울시 대도시권 도시데이터를 이해할 수 있는 정보로 관리·활용하기 위한 체계화된 분석시스템의 필요와 다양한 빅데이터를 체계적으로 관리하고 분석하여 정책방향 및 방법, 행정개선, 연구 및 산학협력 방안 등 다양한 분야에서의 실질적이고 효율적인 정책수립에 효과적으로 활용하기 위해 5개의 해외사례를 조사하였고, 국내에서는 정부에서 구축한 빅데이터 기술기반 공통플랫폼 현황을 분석하였다. 데이터 사이언스 플랫폼은 경제·정책·사회 문화 등 국가별, 도시별 지정학적 특징에 따라 매우 다양하게 활용되고 있으며, 플랫폼을 통해 도시 집중화로 인한 도시현안을 해결하여 시민들의 삶의 질을 높이고 도시의 지속가능성을 확보하는데 초점을 가지고 있다. 데이터 사이언스 플랫폼 개념에 대한 접근은 다양하지만 정보인프라 구축 측면에서 문제해결 및 수요자 중심으로 변화되며 4차 산업혁명 시대 인공지능 및 빅데이터 기술을 활용하여 데이터 분석기반 정책연구 혁신 프로세스 조성을 위한 인프라 구축에 대한 요구사항이 지배적이다.

수많은 빅데이터 플랫폼과 기술이 상존하고 있으나, 플랫폼의 목적과 비전에 따라 적용 기술, 툴, 시스템 인프라 등의 환경이 구성되어야 하며, 도시문제 해결이란 본 과제와 연관해서 볼 때, 특히 일반적인 시민 서비스나 행정 서비스용 빅데이터와 달리 NOAA 등의 중요 포인트와 같이, 분석결과의 신뢰성과 전문성을 확보하고 제공하기 위한 적용기술, 운영방안 등을 적극 고려해야 한다. 스마트시티의 트랜드이기도 한 ‘협업’이란 아젠다는 기술, 플랫폼에도 여전히 중요한 키워드로 부각되고 있으며, 특히 실생활의 문제 해결은 단일분야, 단일 지식이 아닌 다양한 협력, 공공 연구가 필요하다. 도시문제를 해결하고자 다양한 기관의 데이터를 수집, 처리, 분석, 공유하기 위해 단순한 데이터 분석 이외에 데이터의 활용에 관한 종합적인 컨설팅과 조정까지 수행하는 ‘데이터 큐레이터’로서 역할이 중요하다고 할 수 있으며, 해외사례 모두 공공기관별로 생성되는 상이한 형태의 데이터를 수집하고 통일된 형태의 데이터로 처리하는 절차를 수행하고 있으며, 해당 절차의 효율을 높이기 위해 자동화 시스템의 중요성을 시사하는 바가 크다.


[서울시 데이터 거버넌스 및 서울기술연구원 현황조사분석을 통한 쟁점 파악]
연구원 현황분석은 업무분석·과제별 특성·활용기술 분석·과제별 특성별 이슈사항을 파악하고 정보화 지원 측면은 통합, 공동연구 플랫폼 관점에서 인프라 및 환경조성에 대한 고려사항을 조사·분석하였다. 과제별 프로젝트 생성 및 자원 배정 부재, 자원관리 부재로 효율성 저하로 인한 중복 자원, 공통화 부재 등 예산 중복 및 비용 낭비, 단독 및 협업 과제 등 다양한 과제유형, 데이터 입력에 대한 휴먼오류 및 중복작업 발생, 과제관리 체계와 분석자원 개별운영, 연구과제 생애주기(life-cycle) 측면 개별운영으로 관리항목이 증가, 시스템 인프라 및 인적 자원 낭비 등 다양한 이슈들이 도출되었다.

서울의 도시문제 해결을 위한 데이터 거버넌스(서울시-서울시립대-서울기술연구원-디지털재단-서울연구원) MOU 체결에 따른 서울기술연구원의 역할과 비전을 고려, 4차 산업혁명 시대 인공지능 및 빅데이터 기술을 활용하여 데이터 분석기반 연구 혁신 프로세스 조성을 위한 맞춤형 연구지원 플랫폼 구축에 대한 요구사항이 지배적이다, 특히, 최신기술을 활용한 지능형 분석환경의 필요성이 파악되었으며, 연구원 현황조사분석 결과 정형·비정형의 다양한 데이터를 수집·처리·분석·관리하기 위한 데이터 체계와 더불어 메타데이터의 관리방안 역시 데이터의 체계적 관리를 위한 서울기술연구원의 필수사항으로 도출되었다.

통합, 연계, 공동 활용이란 특성(플랫폼 목적)에 맞는 기술과 인프라 적용 기술, 시스템 인프라 등의 환경 구성, 도시 및 실생활 과제, 문제 해결을 위한 과제 중심, 협업 기반 빅데이터 분석의 정책 활용, 빅데이터 연구 분석과 조직, 서비스 목적에 맞는 환경 구성, 데이터 통합 및 관리 방안 수립 및 데이터 자체의 관리, 운영적 요건(보안, 개인정보보호 등)이 공통분모로 도출되었다. 특히 최신기술을 활용한 머신러닝 등 인공지능 기반의 (빅)데이터 분석을 위한 분석환경 구축 도입이 중요한 시사점으로 파악되었다.


[오픈소스 기반 최신기술을 활용한 지속·확장 가능한 인공지능 및 빅데이터 분석환경을 고려한 클라우드 기반 데이터 사이언스 플랫폼 적용]
국내외 사례조사분석 및 서울기술연구원 현황분석 결과를 종합하여 연구원 과제 특성과 향후 지속가능한 빅데이터 분석환경을 고려한 플랫폼 설계를 도출하였다. 연구원 사용자 특성을 고려한 전문 분석도구 및 분석환경, 연구 분야 특성을 고려한 전문성 및 기술 선도를 고려한 최신기술 활용, 협업 및 공유를 위한 수집-인수-연계 등의 유형별 기술을 고려한 연구과제, 연구업무를 고려한 과제와 분석프로젝트(분석 과제) 연계가 가능한 구조 등의 요구가 도출되었다.

주요 글로벌 기술방향으로 오픈소스 소프트웨어를 활용하여 Python 또는 R과 같은 언어를 이용한 인메모리 기반 분석, 실시간 데이터 처리·분석, 예측 및 고급통계분석, 인터랙티브 시각화 적용 추세를 고려하여, 최신 인공지능 기술 활용이 가능한 오픈소스와의 연계성을 반영하여 목표시스템을 구성하였다. 목표시스템 설계안의 검증을 위한 인공지능 및 빅데이터 기반 분석 환경의 시범구축과 검증절차를 통해 서울기술연구원 연구환경에 최적화된 맞춤형 아키텍처 구성으로 클라우드 기반의 IaaS(Infrastructure as a Service), CaaS(Container as a Service), PaaS(Platform as a Service)가 도출되었다.


[도시문제 해결형 데이터 사이언스 모델 정의, 데이터 사이언스 파일럿 시스템 구축]
다양한 기관에서 생성되는 정보를 가장 용이하게 연결할 수 있도록 수집 및 적재되는 모든 데이터는 공간정보를 기반으로 융합시키는 것을 기본으로 하고 있다. 데이터 수요 기관에 데이터를 제공하는 경우 제공받은 기관에서 생성되는 데이터는 공유하도록 하여 데이터 공유의 선순환 환경을 구축한다. 데이터 분석을 통한 도시문제 해결 방안은 실제 해당 문제를 해결하고자 하는 ‘실무자’의 의견을 반영하고, 공공기관 간의 유연한 협업을 위해 데이터 분석지원기관은 데이터 공유 및 개방에 대한 정책적 지원과 행정적, 제도적 기반을 갖추고 있다. GrowSmarter의 경우 필수 도시 활동을 위한 데이터 패턴 수집·분석을 위해 12가지 솔루션과 관련된 데이터 허브를 구축, 분석한 데이터를 비즈니스 모델에 따라 거래하도록 한 점은 국내 스마트시티 관련 프로젝트의 지속가능성을 확보하기 위해 참고할 필요가 있다. 데이터 사이언스 플랫폼 개념에 대한 접근은 다양하지만 정보인프라 구축 측면에서 문제 해결 및 수요자 중심으로 변화하고 있으며, 데이터 활용을 활성화하기 위하여 개방·공유 및 상호연계를 통한 새로운 가치 창출 유도와 차세대 웹의 형태인 시맨틱웹 구현을 위한 핵심기술(RDF, SPARQL 등) 개발이 필요할 수 있다.

데이터 사이언스 플랫폼 설계 검증을 위해 목표시스템 최종설계 결과로부터 연구원 과제 특성과 향후 데이터 사이언스 연구환경을 고려한 시범운영을 위한 파일럿 시스템을 구축하였다. 서울기술연구원의 연구환경에 최적화된 데이터 사이언스 플랫폼 목표모델아키텍처인 프라이빗 클라우드 기반의 IaaS(Infrastructure as a Service), CaaS(Container as a Service), PaaS(Platform as a Service) 기능 등을 실제 R&D과제 4개를 적용하여 실질적인 검증수행을 목적으로 하였다.


[데이터 사이언스 파일럿 시스템 시범운영을 통한 목표모델 사전 검증]
서울 대도시권 데이터 사이언스 플랫폼은 도시문제인 안전, 재난, 방재 등에 활용될 수 있다. 본 연구에서 구축된 파일럿 시스템의 데이터 사이언스 플랫폼을 활용한 분야별 4개의 연구 주제를 선정하여 케이스 스터디를 성공적으로 수행하였다. 첫째, 서울시의 도시문제와 이슈를 도출하기 위해 대량의 뉴스기사를 수집하여 머신러닝을 기반으로 20개의 도시문제를 도출하였고, 이 중 국가 경제와 국민의 삶에 큰 영향을 미치는 주택 문제와 관련된 세부 10가지 이슈 분류를 수행하고 날짜별 감성 분석을 수행하여 거시경제지표와 함께 딥러닝 모델 기반의 주택매매가격지수를 예측하는 연구결과를 도출하였다. 둘째, 2020년 태풍 재해와 관련된 뉴스기사의 재난재해 정보를 실시간 크롤링하여 딥러닝 기반 자연어처리 기술을 활용하여 지식그래프를 구축하였다. 이를 통해, 태풍 등 재난재해시 효율적 의사결정 지원을 위한 상황정보를 시공간 측면에서 동적으로 시각화하는 기술을 개발하였다. 셋째, 데이터 사이언스 플랫폼의 협업 환경 구축 검증을 위해 국제공동연구를 서울기술연구원, 독일 막스플랑크연구소와 POSTECH 산업경영공학과 그리고 서울시 빅데이터담당관과 함께, 스케일링 연구를 통해 서울과 같은 도시별 주요 산업의 발전 방향과 지역 간 격차, 첨단 산업 위주의 대도시와 전통 산업 위주의 소도시 간 심화되는 경제적 양극화 등의 도시문제에 대한 근본적인 이해를 설명하고자 ‘한국의 도시 경제 구조와 도시 집중화 현상의 이해’라는 주제로 도시 스케일링(Urban scaling) 연구를 성공적으로 완료하였다. 마지막으로, ‘데이터 사이언스 기반 한강교량 지능형 CCTV 선별관제 적용방안’에서는 투신자살 시도자의 골든타임 구조를 위해 5년간의 투신자살시도 현황 데이터의 분석 및 딥러닝 기반의 투신패턴 탐지·예측 기술개발을 통한 선별관제체계를 고도화하고 GPU 고성능 영상처리를 필요로하는 연구를 플랫폼을 활용하여 지속적으로 진행중이다.


[데이터 사이언스 체계 운영 및 활성 극대화를 통한 지속적인 연구성과 창출 기대]
본 연구를 통해 도출된 데이터 사이언스 플랫폼 및 체계 구축방안은 연구데이터의 수집부터 관리뿐만 아니라, 산출된 연구의 결과물까지 지속적인 갱신 및 수정을 통해 실무에 신속히 적용할 수 있는 확장형 오픈소스 기반 플랫폼으로, 정형 및 비정형 데이터/메타데이터 관리방안 및 지능형 데이터 분석이 가능하도록 설계되었다. 따라서 공통적으로 사용되는 데이터의 체계적 관리를 통해 다양한 연구에 활용되어 지속적인 연구성과 창출 기대가 매우 크다. 아울러, 서울시 빅데이터 캠퍼스 분원을 설치하여 전용회선을 통한 빅데이터 효율적 연계방안을 적용하였으며, 빅데이터 기반조성, 공공데이터 개방, 데이터 분석 정책지원 사업추진과 관련한 서울시 정보화 전략계획과 연계하여 도시문제 해결 및 시정 적용 업무 지원에도 역할이 기대된다. 특히, 서울시, 서울연구원, 서울시립대학교, 디지털재단과 함께 데이터 거버넌스를 통해 서울 대도시권 도시문제와 최신기술 기반의 해결책을 마련하기 위한 협업이 가능한 데이터 사이언스 플랫폼의 실질적인 인프라 설계 및 시범구축을 완료함에도 큰 의의가 있다. 향후 데이터 사이언스 체계 운영 및 활성화를 통해 서울 대도시권의 도시문제에 대한 신속한 협업연구 및 효율적인 의사결정을 지원의 목표 달성과 다양한 연구성과 창출이 기대된다.