A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning. (2026). Peta International Journal of Social Science and Humanity, 5(1), 1-14. https://doi.org/10.59088/7m3hce68