논문 리뷰

Mobility VLA - Google DeepMind (23.07.10)

gjun_99 2025. 3. 11. 16:54
728x90

해당 논문 리뷰를 보고 나의 생각을 정리해본다.

 

멀티모달 명령어 : 처음에 멀티모달 multimodal 이라는 단어가 어색했다. 논문을 읽으면서 대충 이해가 됐지만, Multimodal 이란 여다중 모드, 즉 여러 가지 유형의 입력을 동시에 처리한다는 뜻을 가졌다.

 

VLA : Vision - Language - Action

 

해당 연구에서 VLM을 중점적으로 다뤘는데, VLM을 통해 복잡한 명령어를 통해 추론하고 판단하며, 이를 내비게이션으로 이어가는 기술을 보여주었다.

 

VLM의 출력을 로봇 동작으로 변화하는데 위상그래프 Topological Graph 유용했다고 하는데 무슨 의미인지 잘 모르겠다.

 

논문 pdf : https://arxiv.org/abs/2407.07775