본문 바로가기

기술 블로그

Pose Estimation 에 대하여 #4
작성일 2024.09.13

회귀 기반 방법은 포즈 추정 작업에서 속도 면에서 장점이 있지만 정확도 면에서는 단점이 있습니다. 반면, 히트맵 기반 방법은 히트맵 likelihood를 추정함으로써 공간 정보를 명시적으로 학습할 수 있어 높은 정확도를 달성할 수 있습니다.

그러나 히트맵 기반 방법은 양자화 오류 문제라는 오랜 과제에 직면해 있습니다. 이는 연속적인 좌표 값을 이산화된 축소 히트맵으로 매핑하는 과정에서 발생합니다. 

 

이를 이해하기 위해 간단한 예를 들어보겠습니다.

 

1. 실제 세계와 디지털 세계의 차이: 실제 세계에서 사람의 관절 위치는 연속적인 공간상의 어느 지점에나 있을 수 있습니다. 예를 들어, 손가락 끝이 정확히 (10.7, 15.3)cm 지점에 있을 수 있습니다.

2. 히트맵으로의 변환: 하지만 컴퓨터가 이 정보를 처리할 때는 이미지를 픽셀 단위의 격자로 나누어 표현합니다. 이 과정에서 연속적인 위치 정보가 이산화(離散化)됩니다.

3. 정보의 손실: 예를 들어, 32x32 크기의 히트맵을 사용한다고 가정해봅시다. 이 경우 실제 이미지의 각 위치는 32x32 격자의 가장 가까운 셀에 맵핑됩니다. 이 과정에서 원래의 정확한 위치 정보가 일부 손실됩니다.

4. 오차의 발생:결과적으로, (10.7, 15.3)cm 위치가 (11, 15)cm에 해당하는 히트맵 셀로 반올림될 수 있습니다. 이렇게 되면 약간의 오차가 발생하게 됩니다.

5. 문제의 영향:이러한 작은 오차들이 누적되면, 특히 정밀한 포즈 추정이 필요한 경우(예: 손가락 동작 인식) 문제가 될 수 있습니다.

 

이 문제를 해결하기 위해 Li et al.(2022)은 Simple Coordinate Classification(SimCC) 방법을 제안했습니다. 이 방법은 포즈 추정을 수평 및 수직 좌표에 대한 두 가지 분류 작업으로 공식화합니다. 

 


 

양자화 오류 개선에도 불구하고, 히트맵 추정은 예외적으로 높은 계산 비용을 요구하여 전처리 작업 속도가 느려집니다. 따라서, 히트맵 기반 방법과 회귀 기반 방법의 장점을 어떻게 결합할 것인가는 여전히 도전적인 문제로 남아 있습니다.

일부 연구(Li et al., 2021; Ye et al., 2023)는 히트맵 기반 모델에서 회귀 기반 모델로 지식을 전이함으로써 이 문제를 해결하려고 시도했습니다. 그러나 회귀 모델과 히트맵 모델의 출력 공간이 다르기 때문에, 히트맵과 벡터 간의 직접적인 지식 전이는 정보 손실을 초래할 수 있습니다.

이러한 문제를 해결하기 위해 DistilPose(Ye et al., 2023)가 제안되었습니다(Fig. 5 참조). 이 방법은 토큰 증류 인코더와 시뮬레이션된 히트맵을 통해 히트맵 기반 교사 모델의 지식을 회귀 기반 학생 모델로 전이합니다.

 


 

 

 

이러한 최신 접근법들은 포즈 추정의 정확도와 효율성을 동시에 개선하려는 노력을 보여주며, 특히 지식 증류와 같은 첨단 기술을 활용하여 히트맵 기반 방법의 정확성과 회귀 기반 방법의 효율성을 결합하려는 시도를 하고 있습니다. 이는 포즈 추정 분야에서 향후 연구 방향을 제시하는 중요한 진전이라고 할 수 있습니다.

첨부파일