[1]

2026. A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning. Peta International Journal of Social Science and Humanity. 5, 1 (Mar. 2026), 1–14. DOI:https://doi.org/10.59088/7m3hce68.