“A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning”. 2026. Peta International Journal of Social Science and Humanity 5 (1): 1-14. https://doi.org/10.59088/7m3hce68.