인간 표현 모델링은 크게 운동학적 모델, 평면 모델, 체적 모델의 세 가지 접근 방식으로 분류됩니다. 운동학적 모델은 관절 위치와 사지 방향을 이용해 인체의 골격 구조를 정밀하게 표현합니다.
평면 모델은 2D 기하학적 형태를 사용해 신체의 외형을 근사화하며, 체적 모델은 3D 메시 데이터를 활용해 인체의 입체적 형상을 상세히 재현합니다.
대부분은 운동학적 모델에 초점을 맞추고 나가고 있습니다.
자세 추정은 단일 이미지 또는 비디오 프레임에서 관절의 공간적 좌표를 추론하는 과정입니다. 자세 추적은 이를 시간 도메인으로 확장하여, 연속된 프레임에서 각 개체의 자세 변화를 일관성 있게 추적합니다.
최근 Choudhury et al. (2023)의 연구에서는 개체의 볼륨 추적을 선행한 후 자세를 추정하는 접근법을 제안했는데, 이는 자세 추정과 추적 간의 양방향 상호작용 가능성을 시사합니다.
자세 기반 행동 인식은 추적된 자세 시퀀스를 입력으로 받아 해당 행동을 분류하는 작업입니다. 이는 시계열 데이터 분석과 패턴 인식의 복합적 적용이 요구되는 고난도 과제입니다.
자세 추정 기술은 일반적으로 2D와 3D 접근법으로 구분됩니다. 2D 자세 추정은 RGB 이미지나 비디오에서 각 관절의 x, y 좌표를 추정하는
반면, 3D 자세 추정은 x, y, z 좌표를 모두 추정하여 깊이 정보까지 포함합니다. 3D 추정은 보다 풍부한 정보를 제공하지만, 계산 복잡도가 높고 특수한 센서나 다중 시점 데이터가 요구되는 경우가 많습니다.
2D 자세 추정 기술은 크게 단일 인물 자세 추정과 다중 인물 자세 추정으로 분류됩니다. 이는 다시 네트워크 입력 형태에 따라 이미지 기반과 비디오 기반으로 세분화됩니다.
이미지 기반 단일 인물 자세 추정(Single-Person Pose Esimation:SPPE)에서는 추정 과정에 앞서 대상 인물의 위치와 대략적인 스케일 또는 바운딩 박스가 주어집니다.
초기 연구들은 Pictorial Structures 프레임워크를 채택했습니다. 이 방식은 객체를 변형 가능한 구성으로 배열된 부분들의 집합으로 표현하며, 각 부분은 이미지에서 매칭되는 Appearance 템플릿입니다.
반면, 딥러닝 기반 방법들은 인체 부위의 키포인트 위치를 직접 추정하는 것을 목표로 합니다. 이미지 기반 단일 인물 자세 추정을 위해 두 가지 주요 프레임워크가 사용됩니다
- 직접 회귀 방식(Regression-Based Approch): 이미지 특징으로부터 키포인트를 직접 예측합니다.
- 히트맵 기반 방식(Heatmap-based apporach): 우선 히트맵을 생성한 후, 이를 바탕으로 키포인트 위치를 추론합니다.
위 그림은 이미지 기반 2D SPPE의 일반적인 프레임워크를 도식화하여 보여주며, 이 두 가지 주요 접근 방식을 함께 제시하고 있습니다.
이러한 방법론의 발전은 컴퓨터 비전 분야에서 중요한 진전을 이루어냈습니다. 특히 딥러닝의 도입으로 자세 추정의 정확도와 효율성이 크게 향상되었습니다.
앞으로는 복잡한 포즈나 가려짐이 있는 상황에서의 성능 개선, 실시간 처리 능력 향상, 그리고 적은 양의 학습 데이터로도 효과적인 모델을 구축할 수 있는 방법 등이 주요 과제가 될 것으로 전망됩니다.
--------------------------------------------------------------
1) Pictorial Structures 프레임워크 란? :