A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning. Peta International Journal of Social Science and Humanity, [S. l.], v. 5, n. 1, p. 1–14, 2026. DOI: 10.59088/7m3hce68. Disponível em: https://peta-research.com/PetaJournals/index.php/PIJSSH/article/view/93. Acesso em: 3 jul. 2026.