“A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning” (2026) Peta International Journal of Social Science and Humanity, 5(1), pp. 1–14. doi:10.59088/7m3hce68.