빅웨이브에이아이 기술블로그

오징어 게임에도 인공지능이? - 비디오 인스턴스 세그멘테이션(Video Instance Segmentation) 본문

기술 블로그

오징어 게임에도 인공지능이? - 비디오 인스턴스 세그멘테이션(Video Instance Segmentation)

빅웨이브 이현상 2021. 10. 19. 11:47

안녕하세요! 빅웨이브에이아이의 박정환입니다

 

지난 포스팅에서는 메타 러닝 대해서 소개드렸습니다.

 

<혹시나 못보신 분들을 위한 링크 메타 러닝(Few Shot Task) - 적은 데이터로도 성능은 강력하게!>

 

여러분들은 오징어게임을 보셨나요?

 

저는 얼마 전에 처음 보고 하루만에 완주 해버렸답니다.

 

 

오징어 게임은 현실의 삶이 힘든 사람들이 목숨을 건 게임을 통해서 최종 우승자는 456억을 얻을 수 있다는 내용의 드라마입니다.

 

삶의 가치와 돈에 대한 철학적인 메시지, 참신한 스토리 구성이 굉장히 흥미로웠습니다.

 

재밌게 보고 있는 와중 제가 알고있는 인공지능 기술이 등장하여 더욱 재밌었는데요,

 

오늘은 이 인공지능 기술에 대해서 소개드리고자 합니다.

 

인공지능에 관심있으신 분들은 벌써 눈치채셨을지 모르겠습니다!

 

어떤 장면에서 무슨 알고리즘이 적용되었는지 궁금하시죠?

 

무궁화 꽃이 피었습니다

 

위의 사진은 무궁화 꽃이 피었습니다 게임에서 술래 로봇이 사람들의 움직임을 자동으로 감지하는 장면입니다.

 

굉장히 잔인하고 기괴한 장면이라 무서웠지만, 이 장면에서 저는 무언가 떠올랐습니다.

 

바로 비디오 인스턴스 세그멘테이션(Video Instance Segmentation) 기술인데요,

 

이 기술은 사물의 움직임을 추적할 수 있기 때문에 자율 주행, CCTV, 로봇, 방위 산업 등의 분야에서 활발하게 연구되고 있습니다.

 

자, 그래서! 이번 포스팅은 이 비디오 인스턴스 세그멘테이션이 무엇인지 알아보도록 하겠습니다.

 

비디오 인스턴스 세그멘테이션은 컴퓨터 비전의 연구 분야 중 하나 입니다.

 

컴퓨터 비전이란 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습시키는 인공지능을 말합니다.

 

컴퓨터 비전의 발전

 

카메라가 내장된 모바일 기기의 등장으로 이미지 및 비디오 데이터의 수가 급격하게 증가했습니다.

 

컴퓨터 하드웨어의 발전 및 보급화로 인하여 사람들이 컴퓨터 비전에 접근하기 쉬워졌습니다.

 

딥러닝과 같은 인공지능의 발전으로 인해서 그 발전속도는 더 빨라지고 있습니다.

 

객체 식별 및 분류 정확도가 10년 만에 50%에서 99%까지 상승했으며 사람보다 더 빠르게 감지하여 반응을 한다고 합니다.

 

 

비디오 인스턴스 세그멘테이션의 목표는 동영상의 인스턴스를 동시에 감지, 분할 및 추적하는 것입니다.

 

비디오 인스턴스 세그멘테이션을 알기 전 알아야할 개념들에 대해서 간단하게 알아보겠습니다.

 

세그멘테이션(Segmentation)의 사전적 의미는 분할이죠?

 

경영학에서 자주 쓰이는 시장 세분화(Market Segmentation)도 있고 심리학에서는 심리적 세분화(Psychographic Segmentation)이 있습니다.

 

다양한 분야에서 세그멘테이션은 조금씩 다른 의미로 사용이 되고 있는데요,

 

컴퓨터 비전 분야에서 세그멘테이션(Segmentation)이란 이미지에서 픽셀 단위로 객체를 추출하는 방법입니다.

 

이미지에서 개체가 있는 위치, 해당 개체의 모양, 어떤 픽셀이 어떤 객체에 속하는지 등을 알고싶을 때 이미지를 분할하여 이미지의 각 픽셀에 레이블을 부여하는 것입니다.

 

즉, 이미지 픽셀 하나하나의 클래스를 예측하는 방식입니다.

 

세그멘테이션의 종류

 

시멘틱 세그멘테이션(Semantic Segmentation)

 

시멘틱(Semantic)은 '의미의, 의미론적인' 이라는 뜻입니다.

 

시멘틱 세그멘테이션은 이미지 내에 있는 객체들을 의미 있는 단위로 분할해내는 것을 말합니다.

 

단순히 사진을 보고 분류하는 것에 그치지 않고 그 장면을 완벽하게 이해해야하는 높은 수준의 문제입니다.

 

자율주행에서부터 최근 캐글에 있던 '해상에서 선박 찾기'까지 적용분야가 무궁무진합니다.

 

다른 컴퓨터 비전 문제들과 마찬가지로 CNN을 적용해서 많은 발전을 이루고 있습니다.

 

 

인스턴스 세그멘테이션(Instance Segmentation)

 

객체를 소프트웨어에 실체화 하면 그것을 인스턴스(Instance)라고 부릅니다.

 

시멘틱 세그멘테이션의 목적은 이미지에 있는 모든 픽셀을 해당하는 클래스로 분류하는 것입니다.

 

인스턴스 세그멘테이션 역시 목적이 같습니다.

 

하지만 시멘틱 세그멘테이션은 같은 클래스의 인스턴스를 구별하지는 않습니다.

 

반면에 인스턴스 세그멘테이션은 인스턴스를 따로 구별한다는 점에서 차이가 있습니다.

 

인스턴스 세그멘테이션은 픽셀 분할과 동시에 객체별 분류가 이루어지기 때문에 한차원 높은 수준의 기술입니다.

 

직관적으로 생각해봐도 단순하게 영역을 구분하는 것보다 사물을 일일이 구분하는 것이 더 어렵겠죠?

 

아래 그림을 보시면 한번에 이해가 되실겁니다.

 

좌 : 인스턴스 세그멘테이션 , 우 : 시멘틱 세그멘테이션

 

비디오 인스턴스 세그멘테이션(Video Instance Segmentation)

 

비디오 인스턴스 세그멘테이션은 인스턴스 세그멘테이션이 영상 데이터에 적용이 되었다고 할 수 있습니다.

 

다시 오징어 게임으로 돌아가 볼까요?

 

넷플릭스 오징어게임에서의 비디오 인스턴스 세그멘테이션

 

술래 로봇이 참가자(클래스) 개개인(인스턴스)의 모습을 전부 인식하고 있는 모습을 볼 수 있습니다.

 

(물론 센서 기반의 다른 기술이 적용되었을 수도 있습니다만 재미로만 봐주세요 ㅎㅎ)

 

인스턴스를 구분하지 못하면 사람이 뭉쳐있을 때 움직임을 추적할 수 없겠죠?

 

무궁화 꽃이 피었습니다 게임은 술래 로봇이 뒤를 돌아보는 시간에 비디오 인스턴스 세그멘테이션을 활용하여 참가자들의 움직임이 감지되면 탈락 처리를 하는 시스템입니다.

 

그런데 여기서 흥미로운 점은 위의 사진을 자세히 살펴보시면 바로 '그림자'도 로봇이 인식하고 있다는 점입니다.

 

잘가라 250번...

 

술래 로봇이 그림자까지 보고 있었다는 사실은 극중 스토리에도 영향을 줄 수 있는 부분인데요,

 

극중에서 상우는 앞에 가리는 사람이 있으면 로봇이 감지를 못한다는 사실을 눈치챘습니다.

 

그래서 우리의 주인공인 기훈에게도 이에 대해 조언을 해주었죠.

 

그런데 제대로 비디오 인스턴스 세그멘테이션으로 그림자까지 감지했다면 뒤에서 움직여도 그림자가 움직이기 때문에 탐지가 될 수 있습니다.

 

극중의 스토리에 대한 몇가지 가설을 생각해봤습니다.

 

1. 그림자를 인식할 수 있지만 사람들의 그림자들이 겹쳐서 로봇이 인식하지 못했다.

 

2. 그림자의 움직임까지는 로봇이 인식하지 못한다.

 

3. 그림자의 움직임까지 세밀하게 인식할 수 있지만 게임의 난이도가 너무 높아질 것을 우려하여 시스템 로직을 따로 부여했다.

 

4. 사실 그림자의 움직임까지는 제작진이 생각하지 못했다(설정 오류).

 

이렇게 4가지 정도로 정리가 됩니다.

 

참가자들이 로봇의 카메라에 안보인다고 뒤에서 큰 동작을 했을 경우 그림자의 움직임이 탐지되어 죽었을지도 모른다는 생각이 드네요.

 

마무리

 

이번 포스팅은 전세계적으로 인기를 끌고 있는 드라마 오징어게임에서의 인공지능 기술을 알아보았습니다.

 

컴퓨터 비전은 다른 인공지능 분야가 그렇듯 다양한 산업 내 다양한 태스크에 적용이 될 수 있습니다.

 

물론 오징어게임처럼 안좋은 일에도 말이죠.

 

무궁화꽃이 피었습니다 로봇과 같이 실시간 영상에서 객체 추적 기술을 구현하는 것은 매우 어려운 일입니다.

 

하지만 컴퓨터 비전 기술은 점점 발전하고 있고 현재 기술로도 사람의 움직임을 탐지하는 것은 어느정도 가능합니다.

 

오징어게임을 워낙 재밌게 봐서 이번 포스팅은 아주 즐겁게 썼네요.

 

다른 기술에 대한 자유로운 의견도 언제든지 환영합니다!

 

감사합니다 '_' !!

 

 

 

참고 자료

https://www.superb-ai.com/ko-blog/everything-about-computer-vision-data

Yang, Linjie, Yuchen Fan, and Ning Xu. "Video instance segmentation." 
Proceedings of the IEEE/CVF International Conference on Computer Vision
. 2019.

https://www.sas.com/ko_kr/insights/analytics/computer-vision.html#todaysworld

영상 분석에서의 AI 머신 러닝 및 딥 러닝 기반의 분석을 위한 고려사항

 

 

 

 

Comments