(1)

A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning. PIJSSH 2026, 5 (1), 1-14. https://doi.org/10.59088/7m3hce68.