A Unified Multimodal Framework for Joint Visual Question Answering and Image Captioning. PIJSSH [Internet]. 2026 Mar. 25 [cited 2026 Jul. 3];5(1):1-14. Available from: https://peta-research.com/PetaJournals/index.php/PIJSSH/article/view/93