“A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning”. Peta International Journal of Social Science and Humanity 5, no. 1 (March 25, 2026): 1–14. Accessed July 3, 2026. https://peta-research.com/PetaJournals/index.php/PIJSSH/article/view/93.