AutoFigure-Edit: Generating Editable Scientific Illustration
AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.
6468 papers
AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.
Dit artikel introduceert een hybride model dat Few-Shot Learning combineert met Explainable AI om plantenziekten bij maïs, rijst en tarwe ook bij beperkte data nauwkeurig te diagnosticeren en transparante inzichten te bieden.
Dit paper introduceert PRPO, een trainingsmethode die conflicten tussen beloningssignalen en data oplost, en MCDR-Bench, een objectieve evaluatiebenchmark, om de diepe analysecapaciteiten van LVLMs voor diagrammen systematisch te verbeteren.
Het paper introduceert MultiGen, een diffusion game engine die door het gebruik van een persistente externe geheugenmodule en een decompositie in geheugen, observatie en dynamiek, gebruikers directe controle over de wereldstructuur biedt en consistente multiplayer-interacties mogelijk maakt.
Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.
Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.
Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.
Dit artikel introduceert een innovatieve 3D-beeldvormingsmethode die Structure-from-Motion-technieken en segmentatiealgoritmen combineert om met mobiele apparaten aggregaatstapels in het veld te reconstrueren en te analyseren voor kwaliteitsborging.
Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.
Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.
Dit artikel introduceert een nieuw, onbewaakt leerframework dat convolutiefilters en neurale netwerken gebruikt om ruisige ionenstraalbeelden te reconstrueeren en zo de resolutie van straalhalo's aanzienlijk verbetert zonder trainingsdata.
Dit onderzoek toont aan dat TerraMind, een multimodale geospatiale foundation model, zonder hyperspectrale vooropleiding middels bandselectie gematigd kan worden aangepast voor downstream-taken, maar benadrukt dat native spectrale tokenisatie noodzakelijk is voor optimale prestaties.
Dit artikel introduceert een robuust one-shot detectieframework voor badmintonsloten voor mobiele robots, inclusief een nieuw dataset en een semi-automatische annotatiepijplijn, dat een YOLOv8-netwerk optimaliseert voor real-time prestaties in dynamische, egocentrische perspectieven.
Dit artikel introduceert Soft Equivariance Regularization (SER), een plug-in regularisatiemethode die invariance en equivariantie in zelftoezichtend leren ontkoppelt door equivariantie op een tussenlaag af te dwingen, wat leidt tot verbeterde prestaties op ImageNet en robuustheid tegen geometrische verstoringen zonder extra voorspellingskoppen.
Deze studie introduceert HARP, een deep learning-framework dat inter-scanner variabiliteit in diffusion MRI-data effectief harmoniseert door uitsluiting op een phantom te trainen, waardoor de noodzaak voor complexe, gemaakte in-vivo multi-site cohorten wordt weggenomen.
Dit paper introduceert een methode waarbij oogvolgingsdata wordt gebruikt als supervisie voor medische vision-language modellen, waardoor deze menselijke visuele redeneerprocessen nabootsen en prestaties op radiologische taken verbeteren.
Deze studie toont aan dat asymmetrische kennisdistillatie van een grote Vision Transformer naar kleine CNN's leidt tot een ernstige dimensionale ineenstorting die de robuustheid tegen ruis fundamenteel ondermijnt, waarbij alleen extreme capaciteitsbeperkingen als robuust laagdoorlaatfilter fungeren.
Dit paper introduceert gRef-CW, het eerste dataset voor generaliseerde visuele grounding in de landbouw, en Weed-VG, een modulair framework dat de bestaande kloof tussen taal en visuele objecten in veldbeelden overbrugt door multi-label hiërarchische scoring en interpolatie-gedreven regressie.
Dit artikel introduceert SIQA, een nieuw raamwerk voor het beoordelen van de kwaliteit van wetenschappelijke afbeeldingen dat zowel perceptieve als wetenschappelijke dimensies omvat, en onthult dat multimodale modellen weliswaar consistent kunnen scoren, maar vaak tekortschieten in werkelijk wetenschappelijk begrip.
Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.