Multimodal Benchmarks, Visual Task Transfer, and 3D Object Generation
MP3•Главная эпизода
Manage episode 433131400 series 3568650
Контент предоставлен PocketPod. Весь контент подкастов, включая эпизоды, графику и описания подкастов, загружается и предоставляется непосредственно компанией PocketPod или ее партнером по платформе подкастов. Если вы считаете, что кто-то использует вашу работу, защищенную авторским правом, без вашего разрешения, вы можете выполнить процедуру, описанную здесь https://ru.player.fm/legal.
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models LLaVA-OneVision: Easy Visual Task Transfer An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Diffusion Models as Data Mining Tools
…
continue reading
70 эпизодов