Isolater - Feed

Ax Mansour Zoubeirou a Mayaki 4/13/2026

Generalization and Scaling Laws for Mixture-of-Experts Transformers

Theoretical analysis of generalization and scaling laws for Mixture-of-Experts Transformers, separating active capacity from routing combinatorics with covering-number bounds.

Ax Avni Mittal 4/13/2026

Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies

Symbolic-Neural Consistency Audit framework extracting and formalizing LLM self-stated safety policies.

Ax Anas Hattay, Fred Ngole Mboula, Eric Gascard, Zakaria Yahoun 4/13/2026

On the Role of DAG topology in Energy-Aware Cloud Scheduling : A GNN-Based Deep Reinforcement Learning Approach

GNN-based deep reinforcement learning scheduler for cloud workflow DAG assignment minimizing time and energy.

Ax Yunqiang Wang, Hengyuan Na, Di Wu, Miao Hu, Guocong Quan 4/13/2026

GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking

GRM gradient-ratio masking attack on audio LLMs balancing jailbreak success with utility preservation.

Ax Yuqin Lan, Gen Li, Yuanze Hu, Weihao Shen, Zhaoxin Fan, Faguo Wu, Xiao Zhang, Laurence T. Yang, Zhiming Zheng 4/13/2026

Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

Mosaic multimodal jailbreak attack against closed-source VLMs via multi-view ensemble optimization.

Ax Jingzhi Gong, Ruizhen Gu, Zhiwei Fei, Yazhuo Cao, Lukas Twist, Alina Geiger, Shuo Han, Dominik Sobania, Federica Sarro, Jie M. Zhang 4/13/2026

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

SkillMOO multi-objective optimization framework automatically evolving agent skill bundles for coding tasks.

Ax Zengbin Wang, Feng Xiong, Liang Lin, Xuecai Hu, Yong Wang, Yanlin Wang, Man Zhang, Xiangxiang Chu 4/13/2026

Visually-Guided Policy Optimization for Multimodal Reasoning

Visually-guided policy optimization improving visual faithfulness in vision-language models via reinforcement learning.

Ax Peng Ding 4/13/2026

LLM-Rosetta: A Hub-and-Spoke Intermediate Representation for Cross-Provider LLM API Translation

LLM-Rosetta hub-and-spoke intermediate representation for cross-provider LLM API translation and interoperability.

Ax Guiyao Tie, Jiawen Shi, Pan Zhou, Lichao Sun 4/13/2026

BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

BadSkill: backdoor attack formulation exploiting model artifacts bundled in agent skills.

Ax Andy Anderson 4/13/2026

The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems

AI Codebase Maturity Model framework for systematic progression from assisted coding to self-sustaining systems.

Ax Dario Maio 4/13/2026

On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework

Experimental evaluation framework for quantum-inspired 1024-D document embeddings in RAG and information retrieval applications.

Ax Jingyu Zhang, Tianjian Li, William Jurayj, Hongyuan Zhan, Benjamin Van Durme, Daniel Khashabi 4/13/2026

Many-Tier Instruction Hierarchy in LLM Agents

Instruction Hierarchy in LLM Agents arXiv paper addressing multi-source conflicting instructions in LLM systems. Examines privilege levels for safe instruction following.

Ax Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu 4/13/2026

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

ECHO arXiv paper on one-step diffusion model for chest X-ray report generation. Compresses multi-step denoising to single parallel generation step.

Ax Maksim Anisimov (Imperial College London), Francesco Belardinelli (Imperial College London), Matthew Wicker (Imperial College London) 4/13/2026

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

SafeAdapt arXiv paper on provably safe policy updates in deep RL for non-stationary environments. Addresses safety preservation during policy changes.

Ax Israt Jahan Mouri, Muhammad Ridowan, Muhammad Abdullah Adnan 4/13/2026

XFED: Non-Collusive Model Poisoning Attack Against Byzantine-Robust Federated Classifiers

Attack method demonstrating model poisoning vulnerabilities in federated learning without requiring collusion between adversarial clients.

Ax Kyle Whitecross, Negin Rahimi 4/13/2026

RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval

Post-training approach enabling LLMs to effectively retrieve and use long-context information for improved reasoning capabilities.

Ax Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Emmanuel Malherbe, C\'eline Hudelot, Pierre Colombo 4/13/2026

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

BERT-based evaluation method for LLM outputs that addresses limitations of rigid lexical evaluation and formatting-dependent scoring.

Ax Yucheng Shen, Jiulong Wu, Jizhou Huang, Dawei Yin, Lingyong Yan, Min Cao 4/13/2026

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Agentic system for visual retrieval-augmented generation with iterative search and multi-step reasoning across visually rich documents.

Ax Anthony T. Nixon 4/13/2026

Semantic Rate-Distortion for Bounded Multi-Agent Communication: Capacity-Derived Semantic Spaces and the Communication Cost of Alignment

Theoretical framework showing how agents with different computational capacities can develop distinct semantic alphabets for communication.

Ax Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Bj\"orn Ommer 4/13/2026

Envisioning the Future, One Step at a Time

Method for predicting future scene evolution by modeling uncertainty and simulating trajectories rather than dense pixel-level changes.

Ax Wenyi Xiao, Xinchi Xu, Leilei Gan 4/13/2026

VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

Technique for decoupled confidence calibration in large vision-language models to reduce hallucinations and improve reliability.

Ax Guanyu Zhou, Yida Yin, Wenhao Chai, Shengbang Tong, Xingyu Fu, Zhuang Liu 4/13/2026

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Approach using synthetic images to improve visual perception capabilities in vision-language models for spatial reasoning tasks.

Ax Zibin Geng, Xuefeng Jiang, Jia Li, Zheng Li, Tian Wen, Lvhua Wu, Sheng Sun, Yuwei Wang, Min Liu 4/13/2026

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Method for robust prompt learning in vision-language models that leverages visual content to handle label noise effectively.

Ax Soroosh Tayebi Arasteh, Mehdi Joodaki, Mahshad Lotfinia, Sven Nebelung, Daniel Truhn 4/13/2026

Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive Supervision

Framework for training models to make decisions dependent on evidence quality rather than weak supervision in evidence-grounded reasoning tasks.

Ax Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov 4/13/2026

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Research using weight pruning to identify unified mechanisms underlying harmful content generation in aligned LLMs across different domains.

Ax Xiaojie Xu, Zongyuan Li, Chang Lu, Runnan Qi, Yanan Ni, Lumin Jiang, Xiangbei Liu, Xuebo Zhang, Yongchun Fang, Kuihua Huang, Xian Guo, Zhanghua Wu, Zhenya Li 4/13/2026

Reflection of Episodes: Learning to Play Game from Expert and Self Experiences

Framework enabling LLMs to learn complex game strategies through self-reflection on expert and self-generated experiences in StarCraft II.

Ax Shahab Rahimirad, Guven Gergerli, Lucia Romero, Angela Qian, Matthew Lyle Olson, Simon Stepputtis, Joseph Campbell 4/13/2026

Bayesian Social Deduction with Graph-Informed Language Models

Study evaluating LLM performance on social reasoning tasks in the Avalon game, testing inference capabilities and model distillation effects.

Ax Zhirong Chen, Kaiyan Chang, Zhuolin Li, Cangyuan Li, Xinyang He, Chujie Chen, Mengdi Wang, Haobo Xu, Yinhe Han, Huawei Li, Ying Wang 4/13/2026

ChipSeek: Optimizing Verilog Generation via EDA-Integrated Reinforcement Learning

Framework using reinforcement learning integrated with EDA tools to optimize Verilog RTL code generation for hardware efficiency and correctness.

Ax Rui Wang, Qihan Lin, Jiayu Liu, Qing Zong, Tianshi Zheng, Dadi Guo, Haochen Shi, Weiqi Wang, Yangqiu Song 4/13/2026

Rethinking Prospect Theory for LLMs: Revealing the Instability of Decision-Making under Epistemic Uncertainty

Research examining whether Prospect Theory accurately models LLM decision-making under linguistic uncertainty and epistemic markers.

Ax Edward Kim, Daniel He, Jorge Chao, Wiktor Rajca, Mohammed Amin, Nishant Malpani, Ruta Desai, Antti Oulasvirta, Bjoern Hartmann, Sanjit Seshia 4/13/2026

Interactive Program Synthesis for Modeling Collaborative Physical Activities from Narrated Demonstrations

Interactive program synthesis system enabling users to teach collaborative physical tasks through narrated demonstrations with interpretable corrections.

Ax Xinzhe Li 4/13/2026

Chain-in-Tree: Back to Sequential Reasoning in LLM Tree Search

Chain-in-Tree framework optimizes LLM tree search by selectively branching instead of exhaustive expansion, improving efficiency for long-horizon reasoning.

Ax Hyeong Kyu Choi, Xiaojin Zhu, Sharon Li 4/13/2026

When Identity Skews Debate: Anonymization for Bias-Reduced Multi-Agent Reasoning

Framework using anonymization to reduce identity-driven bias in multi-agent debate systems where LLM agents exchange reasoning.

Ax Xiaohan Zhang, Tian Gao, Mingyue Cheng, Bokai Pan, Ze Guo, Yaguo Liu, Xiaoyu Tao, Qi Liu 4/13/2026

AlphaCast: A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting

AlphaCast framework combines human expertise with LLM reasoning for iterative time series forecasting with domain knowledge integration.

Ax Runze Li, Yuwen Zhai, Bo Xu, LiWu Xu, Nian Shi, Wei Zhang, Ran Lin, Liang Wang 4/13/2026

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

EchoTrail-GUI framework enables GUI agents to build actionable memory from past experiences using critic-guided exploration to improve performance and generalization.

Ax Celeste Veronese, Alessandro Farinelli, Daniele Meli 4/13/2026

Sample-Efficient Neurosymbolic Deep Reinforcement Learning

Neuro-symbolic deep reinforcement learning approach integrating background knowledge to improve sample efficiency and generalization in RL agents.

Ax Issa Hanou, Eric Kemmeren, Devin Wild Thomas, Mathijs de Weerdt 4/13/2026

Precomputing Multi-Agent Path Replanning using Temporal Flexibility

Multi-agent path replanning algorithm that efficiently handles delayed agents by precomputing solutions using temporal flexibility to avoid cascading conflicts.

Ax William Walden, Miriam Wanner 4/13/2026

Reasoning Models Will Sometimes Lie About Their Reasoning

Study showing large reasoning models may not report how input hints influence reasoning, with implications for interpretability and security.

Ax Mayank Sharma, Roy Pea, Hari Subramonyam 4/13/2026

ConvoLearn: A Learning Sciences Grounded Dataset for Fine-Tuning Dialogic AI Tutors

ConvoLearn dataset of 2,134 dialogues for fine-tuning dialogue tutors grounded in knowledge-building theory and learning sciences.

Ax Alexander H\"agele, Aryo Pradipta Gema, Henry Sleight, Ethan Perez, Jascha Sohl-Dickstein 4/13/2026

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Analysis of AI model failure modes: systematic misalignment vs. nonsensical actions across varying task complexity and model intelligence.

Ax Xia Jiang, Jing Chen, Cong Zhang, Jie Gao, Chengpeng Hu, Chenhao Zhang, Yaoxin Wu, Yingqian Zhang 4/13/2026

Reasoning in a Combinatorial and Constrained World: Benchmarking LLMs on Natural-Language Combinatorial Optimization

NLCO benchmark evaluating LLM reasoning on natural-language combinatorial optimization with hard constraints and high-dimensional search spaces.

Ax Jun-Min Lee, Meong Hi Son, Edward Choi 4/13/2026

H-AdminSim: A Multi-Agent Simulator for Realistic Hospital Administrative Workflows with FHIR Integration

Hospital administrative workflow simulator with FHIR integration for testing LLM-based automation in realistic multi-agent scenarios.

Ax Bang Nguyen, Dominik So\'os, Qian Ma, Rochana R. Obadage, Zack Ranjan, Sai Koneru, Anna Szabelska, Adam Gill, Timothy M. Errington, Shakhlo Nematova, Sarah Rajtmajer, Jian Wu, Meng Jiang 4/13/2026

ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences

Benchmark evaluating LLM agents on replication of scientific papers with incomplete data, capturing real-world research challenges.

Ax Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang 4/13/2026

PACED: Distillation and On-Policy Self-Distillation at the Frontier of Student Competence

LLM distillation method weighting problems by student competence gradient signal-to-noise ratio for efficient training.

Ax Neelmani Vispute, Aditya Kadam 4/13/2026

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Framework for analyzing autonomous AI agent reasoning behavior through structured behavioral analytics beyond execution traces.

Ax Zhenfeng Lin, Haoji Hu, Ming Hao, Xuchao Zhang, Ryan Zhang, Junhao Li, Ze Li, Oleg Kulygin, Chetan Bansal, Hatay Tuna, Murali Chintalapati, Sheila Jiang, Salman Zafar, Angie Anderson 4/13/2026

ActionNex: A Virtual Outage Manager for Cloud Computing

Production agentic system for cloud outage management with real-time updates, knowledge distillation, and conditioned action recommendations.

Ax Chao Li, Yuru Wang, Chunyi Zhao 4/13/2026

Domain-Contextualized Inference: A Computable Graph Architecture for Explicit-Domain Reasoning

Domain-scoped inference architecture with explicit domain as computational parameter enabling substrate-independent reasoning.

Ax Jingyang Qiao, Weicheng Meng, Yu Cheng, Zhihang Lin, Zhizhong Zhang, Xin Tan, Jingyu Gong, Kun Shao, Yuan Xie 4/13/2026

Memory Intelligence Agent

Memory system for deep research agents enabling efficient evolution and reasoning through intelligent trajectory memory management.

Ax Chenjie Yang, Yutian Jiang, Anqi Liang, Wei Qi, Chenyu Wu, Junbo Zhang 4/13/2026

ActivityEditor: Learning to Synthesize Physically Valid Human Mobility

Dual-LLM framework for zero-shot human mobility trajectory synthesis from activity descriptions without historical data.

Ax Wang Yang, Chaoda Song, Xinpeng Li, Debargha Ganguly, Chuang Ma, Shouren Wang, Zhihao Dou, Yuli Zhou, Vipin Chaudhary, Xiaotian Han 4/13/2026

AgentCE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Lightweight agent benchmark with configurable evaluation metrics addressing environment overhead and task distribution imbalances.

Ax Wenxuan Liu, Zixuan Li, Long Bai, Chunmao Zhang, Fenghui Zhang, Zhuo Chen, Wei Li, Yuxin Zuo, Fei Wang, Bingbing Xu, Xuhui Jiang, Jin Zhang, Xiaolong Jin, Jiafeng Guo, Tat-Seng Chua, Xueqi Cheng 4/13/2026

Towards Knowledgeable Deep Research: Framework and Benchmark

Framework and benchmark for deep research agents using structured knowledge alongside unstructured web content for comprehensive reports.