최근의 멀티 모달 모델들은 텍스트와 이미지를 토큰의 연속으로 처리하나, 이러한 다른 데이터 유형을 나타내기 위해 분리된 손실 함수를 사용해 학습합니다. 최근의 연구는 이 손실 함수를 통일시키는 작업을 수행하였습니다.
마이크로소프트의 Wenhui Wang, Hangbo Bao, Li Dong 등은 대량의 이미지, 텍스트, 그리고 쌍으로 된 이미지-텍스트 데이터로 사전학습된 트랜스포머인 BEiT-V3를 소개하였습니다. 이 모델은 여러 가지 비전-언어 작업에서 새로운 최고 기록을 세웠습니다. 이 연구는 초기의 BEiT와 BEiT v2를 업데이트하였습니다.
연구자들이 'Multiway'라고 부르는 MoME 트랜스포머는 이미지, 텍스트, 그리고 텍스트-이미지 쌍을 처리하면서 각각의 데이터 유형에 대해 다른 완전연결 계층을 사용하나, 모든 데이터에 대해 동일한 셀프 어텐션 레이어들을 사용합니다. 이 아키텍처를 제안한 저자들은 텍스트와 이미지 데이터에 대해 다른 작업과 손실 함수를 사용하여 학습하였습니다. 하지만, 모든 데이터 유형에 대해 단일 작업과 손실 함수를 사용하여 사전 학습하면, 특히 데이터의 마스크 부분을 생성하는 것이 가능하게 됩니다. 이를 통해 셀프 어텐션 레이어들이 데이터 유형 간의 공통 패턴을 학습하고, 유사한 이미지와 텍스트에 대해 유사한 임베딩을 생성합니다.
BEiT-V3는 19억 개의 파라미터를 가진 MoME 트랜스포머입니다.
연구자들은 15백만장의 ImageNet-21k 이미지, 160GB의 인터넷 텍스트, 그리고 대략 38백만 쌍의 이미지-텍스트 쌍(데이터셋의 조합)를 포함한 COCO에서 임의로 마스킹된 입력 토큰을 재생성하도록 모델을 사전 학습하였습니다. 이들은 묘사에 기반한 이미지 내의 객체를 식별하는 것(NLVR2) 같은 5개의 비전-언어 작업과, ImageNet 분류 및 COCO 객체 탐지 및 세분화와 같은 4개의 비전 작업을 위해 모델을 미세하게 조정하였습니다.
그 결과 BEiT-V3는 모든 9개의 작업에서 기초 모델을 능가하였습니다. ImageNet에서는 89.6%의 최고 1위 정확도를 달성하여, 이전의 최고 기록인 89%를 FD-CLIP이 달성한 것을 능가하였습니다. NLVR2에서는 92.6%의 정확도를 보였으며, 다음으로 좋은 모델인 CoCa는 87%를 달성하였습니다.
우리는 이 연구에서 주목해야 할 점이 있습니다. 바로 때때로 뛰어난 성능은 검증된 기술들의 조합에서 나온다는 거죠. BEiT-3는 (a) MoME 아키텍처, (b) 마스킹된 사전 학습, 그리고 (c) 대량의 데이터의 이을 최대한 활용합니다.
만약 이전의 비전-언어 모델들이 더 이상 사용되지 않는다면, 그것은 BEiT의 공이라고 할 수 있을 것입니다.
AI·빅데이터에 대해 조금 더 알고 싶다면, 천재IT교육센터 빅데이터 개발자 과정! (여기 클릭)