본문 바로가기

기술 블로그

Pose Estimation 에 대하여 #2
작성일 2024.09.09

회귀 기반 접근법 

 

포즈 추정 분야에서 획기적인 전환점이 된 DeepPose(Toshev and Szegedy, 2014)는 포즈 추정 문제를 CNN 기반의 관절 회귀 태스크로 재정의했습니다. 이 연구에서는 아래 에서 도식화된 바와 같이, 포즈 추정의 정확도를 단계적으로 향상시키기 위해 캐스케이드 회귀기 구조를 채택했습니다. 특히 이 접근법은 occlusion 상황에서도 전체론적 관점에서 포즈를 추론할 수 있는 능력을 보여주었습니다. 


트랜스포머 아키텍처의 등장 이후, 다수의 연구자들이 이를 포즈 추정에 적용하기 시작했습니다. 트랜스포머의 어텐션 메커니즘은 정확한 포즈 추정에 필수적인 장거리 의존성과 전역적 특징을 효과적으로 포착할 수 있는 능력을 제공했습니다. 특히, TFPose(Mao et al., 2021)는 회귀 기반 방식으로 트랜스포머를 포즈 추정 프레임워크에 최초로 도입했으며, PRTR(Li et al., 2021)은 캐스케이딩 트랜스포머를 활용한 2단계 엔드-투-엔드 회귀 기반 프레임워크를 제안하여 회귀 기반 방법론 중 최고 성능을 달성했습니다. Mao et al.(2022)은 Poseur 모델을 통해 포즈 추정을 시퀀스 예측 문제로 재정의하는 혁신적 접근을 시도했습니다. 

 

그러나 이러한 직접 회귀 방법들은 고정밀 시나리오에서 한계점을 노출합니다. 이는 RGB 이미지에서 (x, y) 좌표로의 매핑 과정의 복잡성에서 기인하며, 이는 학습 과정에 불필요한 복잡도를 부여하고 모델의 일반화 능력을 저해할 수 있습니다. 예를 들어, 다중 모달 출력 상황, 즉 유효한 관절이 공간상 서로 다른 위치에 나타나는 경우, 직접 회귀 방식은 이를 효과적으로 처리하지 못할 수 있습니다. 단일 회귀 입력에 대해 단일 출력만을 생성해야 한다는 제약은 네트워크가 미세한 오차를 표현하는 능력을 제한하며, 이는 결과적으로 과적합(overfitting)으로 이어질 수 있습니다. 

 

히트맵 기반 접근법

 

 

히트맵은 포괄적인 공간 정보를 제공하는 능력으로 인해 상당한 주목을 받았으며, 특히 합성곱 신경망(CNN) 학습에 있어 매우 중요한 역할을 하게 되었습니다. 이는 포즈 추정을 위한 CNN 아키텍처 개발에 대한 관심을 크게 증가시켰습니다.

 

Jain et al.(2014)은 독립적인 이진 신체 부위 분류를 위해 다중 CNN을 학습시키는 선구적인 접근법을 제시했습니다. 각 네트워크가 특정 특징에 전념하도록 함으로써, 네트워크 출력을 유효한 구성의 더 작은 클래스로 효과적으로 제한하여 전반적인 성능을 향상시켰습니다. 

 

그래픽 모델 사용을 피하기 위해, Wei et al.(2016)은 Convolutional Pose Machines를 도입하여 그래픽 모델을 명시적으로 채택하지 않고도 장거리 공간 관계를 학습할 수 있게 했습니다. Hu and Ramanan(2016)은 다단계 예측에 사용될 수 있는 아키텍처를 제안하고, 상향식 및 하향식 계산 부분과 반복 간의 가중치를 연결했습니다.

 

Newell et al.(2016)이 제안한 Stacked Hourglass Network(SHN)는 단일 인물 포즈 추정에 혁신을 가져왔습니다. SHN은 연속적인 풀링과 업샘플링 단계를 활용하여 최종 예측 세트를 생성하며, 그 효과성을 입증했습니다.


 

Chu et al.(2017)은 CNN을 포즈 추정에 통합하고, 이를 다중 컨텍스트 주의 메커니즘으로 강화했습니다. 이 동적 메커니즘은 자율적으로 컨텍스트 표현을 학습하고 추론하여 모델의 초점을 관심 영역으로 유도합니다.

마지막으로, Yang et al.(2017)은 CNN의 스케일 불변성을 강화하기 위해 Pyramid Residual Module(PRMs)을 고안했습니다. PRMs은 특징 피라미드를 효과적으로 학습하며, 이는 정밀한 포즈 추정에 매우 중요한 역할을 합니다.

이러한 히트맵 기반 접근법들은 포즈 추정 분야에 상당한 진전을 가져왔으며, 특히 공간 정보의 효과적인 활용과 CNN 구조의 최적화를 통해 정확도와 견고성을 크게 향상시켰습니다.


 

첨부파일