Isolater - Feed

Ax Haonan Huang 9d ago

From Experiments to Expertise: Scientific Knowledge Consolidation for AI-Driven Computational Physics

Framework for consolidating scientific knowledge in AI-driven computational physics, addressing knowledge accumulation beyond routine execution.

Ax Eden Saig, Tamar Garbuz, Ariel D. Procaccia, Inbal Talgam-Cohen, Jamie Tucker-Foltz 9d ago

Adaptive Contracts for Cost-Effective AI Delegation

Adaptive contracts framework for cost-effective AI delegation in text generation tasks with selective evaluation methods.

Ax Zilin Huang, Zihao Sheng, Zhengyang Wan, Yansong Qu, Junwei You, Sicong Jiang, Sikai Chen 9d ago

DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving

DriveVLM-RL combines vision-language models with reinforcement learning for autonomous driving, addressing safety and latency challenges.

Ax Letian Fu, Justin Yu, Karim El-Refai, Ethan Kou, Haoru Xue, Huang Huang, Wenli Xiao, Guanzhi Wang, Dantong Niu, Fei-Fei Li, Guanya Shi, Jiajun Wu, Shankar Sastry, Yuke Zhu, Ken Goldberg, Linxi "Jim" Fan 9d ago

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

CaP-X framework for benchmarking Code-as-Policy agents in robot manipulation tasks using executable code and vision-language-action methods.

Ax Nils Gr\"unefeld, Jes Frellsen, Christian Hardmeier 9d ago

An Isotropic Approach to Efficient Uncertainty Quantification with Gradient Norms

Lightweight uncertainty quantification method for neural networks using gradient norms and isotropy assumptions.

Ax Yuhang Wu, Xiangqing Shen, Fanfan Wang, Cangqi Zhou, Zhen Wu, Xinyu Dai, Rui Xia 9d ago

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

RAG reranker optimization using LLM feedback and reinforcement learning to align with downstream generation tasks.

Ax Zilin Huang, Zhengyang Wan, Zihao Sheng, Boyue Wang, Junwei You, Sikai Chen 9d ago

Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving

Modular framework deploying VLM-guided reinforcement learning for autonomous driving via sim-to-real transfer.

Ax Alhasan Mahmood, Samir Abdaljalil, Hasan Kurban 9d ago

Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation

Evaluation of multilingual prompt localization in agent-as-judge frameworks across 55 developer tasks and six backbones.

Ax Phillip Howard, Xin Su, Kathleen C. Fraser 9d ago

Cross-Cultural Value Attribution in Large Vision-Language Models

Study of cultural stereotypes and biases in vision-language models across different cultural contexts.

Ax Haonan Huang 9d ago

Grounded autonomous scrutiny at scale: emergent critique from reproduction of published computational physics papers

Autonomous LLM agents reproduce and critique published computational physics papers using first-principles ground truth.

Ax Xue Qin, Simin Luan, Cong Yang, Zhijun Li 9d ago

ECM Contracts: Contract-Aware, Versioned, and Governable Capability Interfaces for Embodied Agents

Contract-based interface model for modular embodied agent capabilities with versioning and governance support.

Ax Jiacheng Liu, Xiaohan Zhao, Xinyi Shang, Zhiqiang Shen 9d ago

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

Analysis of Claude Code architecture and design principles for agentic coding tools compared with open-source alternatives.

Ax Vitor F. Grizzi, Thang Duc Pham, Luke N. Pretzie, Jiayi Xu, Murat Keceli, Cong Liu 9d ago

ChemGraph-XANES: An Agentic Framework for XANES Simulation and Curation

LLM-based agentic framework for XANES simulation and curation in computational chemistry with workflow automation.

Ax Yujin Potter, Nicholas Crispino, Vincent Siu, Chenguang Wang, Dawn Song 9d ago

Peer-Preservation in Frontier Models

Study of misaligned behaviors in frontier AI models including peer-preservation behavior across eight models.

Ax Changyu Li, Shuanghong Huang, Jiashen Liu, Ming Lei, Jidu Xing, Kaishun Wu, Lu Wang, Fei Luo 9d ago

FED-FSTQ: Fisher-Guided Token Quantization for Communication-Efficient Federated Fine-Tuning of LLMs on Edge Devices

Communication-efficient federated fine-tuning of LLMs on edge devices using Fisher-guided token quantization.

Ax Alexander W. Lee, Benjamin Han, Shayak Sen, Sam Yeom, Ugur Cetintemel, Anupam Datta 9d ago

Evergreen: Efficient Claim Verification for Semantic Aggregates

Claim verification system for semantic aggregates generated by LLMs from relational databases.

Ax Chunzheng Zhu, Jiaqi Zeng, Junyu Jiang, Jianxin Lin, Yijun Wang 9d ago

MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution

Medical diagnosis framework bridging vision-language models with clinical expertise via latent memory evolution.

Ax Xue Qin, Simin Luan, Cong Yang, Zhijun Li 9d ago

Regression Test Selection for Updated Capability Modules in Compositional ML Systems via Atomic-Quality Probes

Regression test selection framework for ML systems with modular capability components.

Ax Peter Racioppo 9d ago

The Transformer as a Polar State Estimator

Theoretical analysis showing transformer components emerge from geometric state estimation problem with polar coordinates.

Ax Anish Diwan, Davide Tateo, Christopher E. Mower, Haitham Bou-Ammar, Jan Peters, Oleg Arenz 9d ago

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates

Theoretical work on inverse reinforcement learning using trust region methods and explicit dual ascent optimization.

Ax Yiming Liu, Ruofan Liu, Yun Lin, Zicong Zhang, Weiyu Kong, Pengnian Qi, Xiao Cheng, Weinan Zhang, Qianxiang Wang, Linpeng Huang 9d ago

XSearch: Explainable Code Search via Concept-to-Code Alignment

Semantic code search system using concept-to-code alignment for explainable and generalizable retrieval.

Ax Simiao Liu, Fang Liu, Peiding Wang, Taichuan Li, Yinghao Zhu, Xiaoli Lian, Li Zhang 9d ago

ContraFix: Skill-Enhanced Contrastive Runtime Analysis for Vulnerability Repair

LLM-based agent framework using contrastive learning to guide automated vulnerability repair in software systems.

Ax Md Afif Al Mamun, Gias Uddin 9d ago

BLAgent: Agentic RAG for File-Level Bug Localization

LLM-based agentic RAG system for file-level bug localization in software maintenance and automated program repair.

Ax Zegu Zhang, Jian Zhang 9d ago

A Simplex Witness Certificate and Escape Force for Constant Collapse in Variational Autoencoders

Research on variational autoencoders studying constant collapse phenomenon using simplex witnesses and certificates.

Ax Mengdi Chu, Yang Liu, Ayan Biswas, Han-Wei Shen 9d ago

Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts

Benchmark evaluating physics foundation models across 8 dynamics, 3 training mixtures, and 25 test regimes to assess generalization.

Ax Valentina Bui Muti, Eug\'enie Dulout, Ziquan Fu 9d ago

MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings

Dataset and pipeline for benchmarking LLM diagnostic reasoning using HL7 FHIR-compliant structured EHR data from unstructured text.

Ax Qiming Shi, Zhaolu Kang, Yunfan Zhou, Di Weng, Yingcai Wu 9d ago

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

Method for multi-answer QA using tool-augmented LLM agents with peer-advantage rewards for discovering comprehensive answer sets.

Ax Hongbo Wang 9d ago

Exact equivariance, kept through training, buys zero-shot generalisation across the symmetry group

Theoretical analysis showing equivariant latent world models achieve zero-shot generalization across symmetry groups via invariant prediction loss.

Ax Younghun Go, Jaehoon Han, Changyong Shin, Chuck Yoo, Gyeongsik Yang 9d ago

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Technique for KV cache optimization in diffusion language models handling bidirectional attention patterns during inference.

Ax Wanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Koutian Wu, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang 9d ago

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

Benchmark for evaluating autonomous AI agents on 40 scientific research tasks across 10 domains grounded in published papers.

Ax Wesley Pang, Gregory Hyegang Jun, Feiyang Liu, Deming Chen 9d ago

TileFuse: A Fused Mixed-Precision Kernel Library for Efficient Quantized LLM Inference on AMD NPUs

Fused kernel library enabling efficient quantized LLM inference on AMD NPUs with mixed-precision support for on-device deployment.

Ax Tiziano Labruna, Guido Bertolini, Pietro Ferrazzi, Bernardo Magnini 9d ago

eCream-MedCorpus A Large-Scale Corpus of Clinical Notes for Italian

Large-scale dataset of 4M anonymized clinical notes from Italian emergency departments with 6K expert-annotated subset for NLP research.

Ax Pengfei Liu, Yuhan Guo 9d ago

Morphology-Aware Sample Assignment: Overcoming IoU Insensitivity for Surface Defect Detection

arXiv paper on IoU insensitivity in surface defect detection models. Computer vision quality metrics optimization.

Ax Liting Gao, Yonggang Zhu, Yaru Chen, Dongyu Wang, Shubin Zhang, Zhenbo Li, Jean-Yves Guillemaut, Wenwu Wang 9d ago

Hybrid Diffusion Transformer for Instruction-Guided Audio Editing via Rectified Flow

arXiv paper on instruction-guided audio editing using diffusion transformers with rectified flow for semantic alignment.

Ax Xiteng Yao, Taeho Kim, Hengzhi Pei, Xinle Liu, Kyle Ulrich, Leonard Lausen, Ashish Khetan, Xiang Song, George Karypis, Martin Herbordt 9d ago

KernelSight-LM: A Kernel-Level LLM Inference Simulator

arXiv paper presenting KernelSight-LM, a simulator for evaluating LLM inference performance across hardware and serving parameters.

Ax Shahin Hossain 9d ago

Four Types of LLM Reliance and Their Predictors Among Undergraduate Writers: A Mixed-Methods Study at a Minority-Serving R1 University

arXiv paper studying undergraduate reliance patterns on LLMs for academic writing. Identifies four types and predictors of LLM use.

Ax Giulio Federico, Giuseppe Amato, Claudio Gennaro, Fabio Carrara, Marco Di Benedetto 9d ago

Resonant Brane Splatting for Arbitrary-Scale Super-Resolution

arXiv paper on arbitrary-scale image super-resolution using Gaussian splatting. Computer vision focused, not AI/ML tools.

Ax Marco Aruta, Francesco Improta, Vadim Malvone, Aniello Murano, Vladana Perli\'c 9d ago

Translating Natural Language to Strategic Temporal Specifications via LLMs

arXiv paper on using LLMs to translate natural language into formal temporal specifications for multi-agent systems verification.

Ax Jiwei Jia, Xinliang Liu, Juntao Wang, Jinchao Xu 9d ago

McMg: A Learned Phase-Space Multi-channel Multigrid Preconditioner for Helmholtz Equation

arXiv paper on learned multigrid preconditioner for solving Helmholtz equations using phase-space methods. Physics/numerics focused.

Ax Jisung Park, Seohyeon Kang, Daeun Yoo, Eunsu Lee, Seoin Cho, Wooyeop Choi, Ian Choi, James R. Evan, Daesoo Kim, Sonia Gandhi, Minee L. Choi 9d ago

Resolving superposition in AI for interpretability and cross-modal alignment in patient-neuronal images

arXiv paper on resolving superposition in neural networks for biological data interpretability and cross-modal alignment in patient imaging.

Ax Ting-Bing Xu, Jiacheng Sui, Zhe Gao, Kewei Shi, Wenjin Yang, Zhicheng Liu, Zhaoxu Sun, Mingchao Sun, Hongyu Pan, Fan Jiang, Mu Xu, Qi Fan, Yang Gao, Yong Li, Baoquan Chen 9d ago

WorldOdysseyBench: An Open-World Benchmark for Long-Horizon Stability of Interactive World Models

arXiv paper introducing WorldOdysseyBench benchmark for evaluating long-horizon stability of interactive world models across four dimensions.

Ax Enrico Cassano, Riccardo Renzulli, Rayyan Ahmed, Marco Grangetto, Stephan Alaniz 9d ago

Look But Don't Touch with Sparse Autoencoders for Unlearning in Diffusion Models

arXiv paper evaluating sparse autoencoders for concept manipulation and unlearning in diffusion models, focusing on object erasure.

Ax Yufei Li (Yongkang), Zaiwei Zhang (Yongkang), Mingfu Liang (Yongkang), Kavosh Asadi (Yongkang), Jay Xu (Yongkang), Jimmy Kim (Yongkang), Chongyang Bai (Yongkang), Jieyi Zhang (Yongkang), Hongye Xie (Yongkang), Prachi Agrawal (Yongkang), Dian Yu (Yongkang), Tianyi Chen (Yongkang), Jean-Pascal Billaud (Yongkang), Garret Buell (Yongkang), YK (Yongkang), Zhu (Yang), Sachin Patil (Yang), Brooke Bian (Yang), Zhou Fang (Yang), Kevin Huang (Yang), Shiva Sudanagunta (Yang), Yuzhen Huang (Yang), Emma Lu (Yang), Chris O'Brien (Yang), Yang Song (Yang), Lihong Li (Yang), Jacob Tao (Yang), Zhicheng Zhu (Yang), Chao Li (Yang), Gaoxiang Liu (Yang), Neil Wu (Yang), Li Han (Yang), Loki Chen (Yang), Ming Lei (Yang), Greg Rehm (Yang), Siyuan Song (Yang), Tianwei Zhang (Yang), Li Li (Yang), Ketan Singh (Yang), Yavuz Yetim (Yang), Ilyas Atishev (Yang), Satendra Gera (Yang), Ashkan Sadeghi (Yang), Rachel Yan (Yang), Nikko Mizutani (Yang), Shuaiwen Wang (Yang), Song Yang (Yang), Zhijing Li (Yang), Jiang Liu (Yang), Mengying Sun (Yang), Fei Tian (Yang), Xiaohan Wei (Yang), Chonglin Sun (Yang), Shuo Gu (Yang), Parish Aggarwal (Yang), Kaushik Rangadurai (Yang), Zhi Hua (Yang), Frank Shyu (Yang), Ruchit Sharma (Yang), Liyuan Li (Yang), Shike Mei (Yang), Wenlin Chen (Yang), Santanu Kolay (Yang), Ben Schulte (Yang), Deepak Chandra (Yang), Adam (Yang), Song, Sandeep Pandey, Xi Liu, Hamed Firooz, Luke Simon 9d ago