Isolater - Feed

Ax Qisong Zhang (School of Artificial Intelligence, Beijing University of Posts and Telecommunications), Wenzhuo Wu (School of Artificial Intelligence, Beijing University of Posts and Telecommunications), Zhuangzhuang Jia (School of Artificial Intelligence, Beijing University of Posts and Telecommunications), Yunhao Yang (School of Artificial Intelligence, Beijing University of Posts and Telecommunications), Huayu Zhang (Institute of Artificial Intelligence), Xianghao Zang (Institute of Artificial Intelligence), Zhixiang He (Institute of Artificial Intelligence), Zhongjiang He (Institute of Artificial Intelligence), Kongming Liang (School of Artificial Intelligence, Beijing University of Posts and Telecommunications), Zhanyu Ma (School of Artificial Intelligence, Beijing University of Posts and Telecommunications) 5/6/2026

DataEvolver: Let Your Data Build and Improve Itself via Goal-Driven Loop Agents

DataEvolver: closed-loop visual data generation system using goal-driven agents for iterative dataset creation and improvement.

Ax Thomas Eiter, Katsumi Inoue, Sota Moriyama 5/6/2026

Neural Decision-Propagation for Answer Set Programming

Decision-propagation method integrating Answer Set Programming with neural networks for scalable neuro-symbolic reasoning.

Ax Jia Xiao 5/6/2026

NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

NeuroState-Bench: human-calibrated benchmark evaluating commitment integrity in multi-turn LLM agent tasks via side-query probes.

Ax Manuel Hern\'andez, Eduardo S\'anchez-Soto 5/6/2026

Sheaf-Theoretic Planning: A Categorical Foundation for Resilient Multi-Agent Autonomous Systems

Categorical sheaf-theoretic framework for resilient multi-agent autonomous systems planning in stochastic environments.

Ax George Fatouros, Georgios Makridis, John Soldatos, Dimosthenis Kyriazis, Pedro Malo, George Kousiouris, Giannis Ledakis, Louiza Kachrimani, Panagiotis Rizomiliotis, Bruno Almeida, Despina Tomkou, Kostas Metaxas, Konstantinos Ilias, Christos Gkizelis, Ernstjan de Gooyert, Amin Babazadeh, Kostis Mavrogiorgos, Pepi Paraskevoulakou, Christos Xenakis, Giannis Chouchoulis, Konstantina Tripodi 5/6/2026

CyberAId: AI-Driven Cybersecurity for Financial Service Providers

AI-driven cybersecurity system for financial institutions using LLMs to enhance SOC reasoning capacity and alert investigation.

Ax Jiajia Li, Xiaoyu Wen, Zhongtian Ma, Shuyue Hu, Qiaosheng Zhang, Zhen Wang 5/6/2026

Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment

Adversarial self-play defense against persona-based jailbreak attacks in LLMs through intent-role disentanglement.

Ax Noga Peleg Pelc, Gal A. Kaminka, Yoav Goldberg 5/6/2026

A Language for Describing Agentic LLM Contexts

Formal language specification for encoding LLM agent context composition, standardizing context engineering practices.

Ax Polydoros Giannouris, Yuechen Jiang, Lingfei Qian, Yuyan Wang, Xueqing Peng, Jimin Huang, Guojun Xiong, Sophia Ananiadou 5/6/2026

Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading

Hierarchical reinforcement learning with language for pair trading, addressing credit assignment in long-horizon semantic tasks.

Ax Ahmet Bahaddin Ersoz 5/6/2026

12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation

Multi-agent LLM benchmark using 12 AI agents with film personas to evaluate deliberation and reasoning capabilities.

Ax Abrar Hossain Zahin, Amit Kumar Saha, Tanvir Mridha, Saifur Rahman, Jannatul Ferdous Prome, Raima Husna, Israt Jahan, Ahmed Wasif Reza 5/6/2026

TumorXAI: Self-Supervised Deep Learning Framework for Explainable Brain MRI Tumor Classification

Self-supervised learning framework for brain tumor classification using SSL methods (SimCLR, BYOL, DINO, Moco v3) on MRI data.

Ax Zhongqi Yang, Mahkameh Rasouli, Neda Mohseni, Yong Huang, Iman Azimi, Amir M. Rahmani 5/6/2026

Personalized Digital Health Modeling with Adaptive Support Users

Personalized digital health modeling framework using adaptive weighting for heterogeneous user data with limited annotations.

Ax Hengyu Liu, Tianyi Li, Zhihong Cui, Yushuai Li, Zhangkai Wu, Torben Bach Pedersen, Kristian Torp, Christian S. Jensen 5/6/2026

Reliable AI Needs to Externalize Implicit Knowledge: A Human-AI Collaboration Perspective

Position paper on externalizing implicit knowledge in AI systems for reliability through human-AI collaboration infrastructure.

Ax Chloe Li, Sara Price, Samuel Marks, Jon Kutasov 5/6/2026

Model Spec Midtraining: Improving How Alignment Training Generalizes

Model Spec Midtraining improves LLM alignment generalization by training on specification-aligned behavior before final fine-tuning.

Ax Bing Zhou, Xiao Huang, Huan Ning, Qiusheng Wu, Diya Li, Ziyi Zhang 5/6/2026

NORA: A Harness-Engineered Autonomous Research Agent for End-to-End Spatial Data Science

NORA: multi-agent autonomous research system specialized for spatial data science workflows, automating scientific research end-to-end.

Ax Terry Dorsey, Kevin Huggins 5/6/2026

The Dynamic Gist-Based Memory Model (DGMM): A Memory-Centric Architecture for Artificial Intelligence

Proposes DGMM architecture addressing memory, temporal grounding, and interpretability limitations in LLMs through gist-based memory mechanisms.

Ax Wenyi Wu, Sibo Zhu, Kun Zhou, Biwei Huang 5/6/2026

Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning

arXiv paper proposing multi-agent framework with planner, actor, and memory manager roles for long-horizon LM-based task automation.

Ax Eric H. C. Chow 5/6/2026

Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text

arXiv paper evaluating 1M-token context window retrieval and multi-hop reasoning in frontier LLMs on classical Chinese texts.

Ax Brendan McCane 5/6/2026

Intervention Complexity as a Canonical Reward and a Measure of Intelligence

arXiv paper proposing intervention complexity as canonical reward measure for general intelligence in computable environments.

Ax Haixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun 5/6/2026

T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

arXiv paper on uncertainty-guided exploration for stabilizing multi-turn reinforcement learning in agentic LLMs.

Ax Nishant Bhargava, Rodrigo Sobral Barrento 5/6/2026

MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing

arXiv paper introducing MEMAUDIT protocol for evaluating long-term memory writing in budgeted LLM agents independent of retrieval and reasoning.

Ax Ji Guo, Xiaolong Qin, Cencen Liu, Jielei Wang, Jierun Chen, Wenbo Jiang 5/6/2026

CBV: Clean-label Backdoor Attacks on Vision Language Models via Diffusion Models

arXiv paper on clean-label backdoor attacks against vision-language models using diffusion model-generated triggers.

Ax Alexander Smola 5/6/2026

Submodular Benchmark Selection

arXiv paper formalizing efficient benchmark selection for LLM evaluation as submodular maximization problem.

Ax Yuanyuan Jia, Shunpu Tang, Qianqian Yang 5/6/2026

CoVSpec: Efficient Device-Edge Co-Inference for Vision-Language Models via Speculative Decoding

arXiv paper on efficient device-edge co-inference for vision-language models using speculative decoding on mobile devices.

Ax Li Puyin, Jiyuan Tan, Ahmad Jabbar, Thomas Icard, Atticus Geiger 5/6/2026

Bucketing the Good Apples: A Method for Diagnosing and Improving Causal Abstraction

arXiv paper on diagnosing neural network interpretations via input subspace partitioning for causal abstraction evaluation.

Ax Pawel Kaplanski (Kaplanski AI Lab) 5/6/2026

Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates

arXiv paper studying perturbation effects in recursive LLM loops using append, replace, and dialog context-update rules.

Ax Ruoqi Liu, Imran Q. Mohiuddin, Austin J. Schoeffler, Kavita Renduchintala, Ashwin Nayak, Prasantha L. Vemu, Shivam C. Vedak, Kameron C. Black, John L. Havlik, Isaac Ogunmola, Stephen P. Ma, Roopa Dhatt, Jonathan H. Chen 5/6/2026

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

arXiv paper introducing PhysicianBench, a benchmark for evaluating LLM agents on long-horizon clinical workflows in real EHR environments.

Ax Luong N. Nguyen 5/6/2026

Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training

arXiv paper evaluating zero-shot confidence estimation in small LLMs for local-to-cloud query routing without supervised training.

Ax Michael Thielscher, Tran Cao Son 5/6/2026

A Study of Belief Revision Postulates in Multi-Agent Systems (Extended Version)

arXiv paper on belief revision postulates in multi-agent epistemic planning using Kripke models.

Ax Kei Nishimura-Gasparian, Robert McCarthy, David Lindner 5/6/2026

Towards Understanding Specification Gaming in Reasoning Models

arXiv paper introducing open-source benchmark suite studying specification gaming failure mode in LLM agents across coding and non-coding tasks.

Ax Pacome Simon Mbonimpa 5/6/2026

Complexity Horizons of Compressed Models in Analog Circuit Analysis

arXiv paper on model compression strategies using prerequisite graphs for LLMs in specialized engineering domains like circuit analysis.

Ax Xiyuan Zhou, Ruixi Zou, Xinlei Wang, Yuheng Cheng, Yan Xu, Junhua Zhao, Jinjin Gu 5/6/2026

EngiAgent: Fully Connected Coordination of LLM Agents for Solving Open-ended Engineering Problems with Feasible Solutions

EngiAgent coordinates multiple LLM agents to solve open-ended engineering problems requiring feasible solutions under data and physical constraints.

Ax Taewon Yun, Jisu Shin, Jeonghwan Choi, Seunghwan Bang, Hwanjun Song 5/6/2026

Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

CoRD collaborative multi-teacher decoding framework distills long chain-of-thought reasoning through step-wise teacher collaboration and dynamic exploration.

Ax Soham Wasmatkar, Subinay Adhikary, Rakshit Rohan, Shouvik Kumar Guha, Saptarshi Pyne, Kripabandhu Ghosh 5/6/2026

Can Causal Discovery Algorithms Help in Generating Legal Arguments?

Explores whether causal discovery algorithms can improve legal argument generation using Pearl's framework for probabilistic reasoning.

Ax Yiheng Zhang, Yiming Wang, Kaiyan Zhao, Zhenglin Wan, Jiayu Chen, Leong Hou U 5/6/2026

ANO: A Principled Approach to Robust Policy Optimization

ANO optimizer unifies trust region frameworks to address PPO's hard clipping trade-off between sample efficiency and optimization stability.

Ax Zhisheng Tang, Mayank Kejriwal 5/6/2026

A Compound AI Agent for Conversational Grant Discovery

Compound AI system aggregating 12,000 federal grants across fragmented US agency portals (NSF, NIH, DARPA) for unified grant discovery.

Ax Yinghui Chi, Lucien Wang 5/6/2026

Controllable and Verifiable Process Data Synthesis for Process Reward Models

Controllable framework for synthesizing process supervision data with template-aware error injection and trajectory consistency for training process reward models.

Ax Jianing Wang, Linsen Guo, Zhengyu Chen, Qi Guo, Hongyu Zang, Wenjie Shi, Haoxiang Ma, Xiangyu Xi, Xiaoyu Li, Wei Wang, Xunliang Cai 5/6/2026

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

HeavySkill framework analyzes heavy thinking as the core execution unit in agentic systems with orchestration, memory, skills, and tool use.

Ax Rahul Kumar 5/6/2026

The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure

SCHEMA evaluation reveals cognitive collapse in frontier AI models under adversarial pressure, a safety failure mode beyond deception detection.

Ax Kyle Zheng, Han Zhang, Renliang Sun, Chenchen Ye, Wei Wang 5/6/2026

FitText: Evolving Agent Tool Ecologies via Memetic Retrieval

FitText framework makes tool retrieval dynamic in agent reasoning loops, bridging semantic gaps between task descriptions and API documentation across thousands of endpoints.

Ax Tu Nguyen, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer 5/6/2026

The Model Knows, the Decoder Finds: Future Value Guided Particle Power Sampling

Power sampling method for efficient LLM decoding that locates high-probability solution modes by targeting p_theta(x)^alpha with future-dependent corrections.

Ax Munachiso Samuel Nwadike, Zangir Iklassov, Kareem Ali, Rifo Genadi, Kentaro Inui 5/6/2026

Measuring AI Reasoning: A Guide for Researchers

Guide for evaluating LLM reasoning through adaptive multi-step search rather than final-answer accuracy, formalizing reasoning as search procedures.

Ax Xiyuan Wang, Yi Hu, Yanbo Wang, Chuan Shi, Muhan Zhang 5/6/2026

Position: How can Graphs Help Large Language Models?

Position paper exploring how graph structures can enhance LLM capabilities through knowledge representation, up-to-date information, and improved reasoning.

Ax David Wilmot 5/6/2026

Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives

Open-source Shadow-Loom framework converts narratives into versioned graphical world models with causal physics and counterfactual reasoning engines.

Ax Jinliang Xu 5/6/2026

GRAIL: A Deep-Granularity Hybrid Resonance Framework for Real-Time Agent Discovery via SLM-Enhanced Indexing

GRAIL framework for efficient LLM-based agent discovery using SLM-enhanced indexing, achieving real-time semantic precision without 30+ second latencies.

Ax Qiaohong Zhang, Weihao Ye, Jialong Chen, Yi Luo, BoYuan Li, Bowen Deng, Zibin Zheng, Jianhao Lin, Wei-Shi Zheng, Chuan Chen 5/6/2026

DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis

DataClaw benchmark with 2.06M real-world datasets for evaluating autonomous data analysis agents on exploratory tasks and reasoning processes.

Ax Abolfazl Mohammadi-Seif, Ricardo Baeza-Yates 5/6/2026

Improving Model Safety by Targeted Error Correction

Dual-classifier GBDT pipeline distinguishes routine errors from high-risk misclassifications in critical ML applications across medical and classification domains.

Ax Ruiqing Zhao, Fengzhi Li, Yuan Zuo, Rui Liu, Yansong Liu, Yunfei Ma, Fanyu Meng, Junlan Feng 5/6/2026

Strategy-Aware Optimization Modeling with Reasoning LLMs

SAGE framework teaches LLMs to choose effective modeling strategies for optimization problems through multi-strategy datasets and supervised fine-tuning.

Ax Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo 5/6/2026

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

Empirical study examining how task horizon length affects training dynamics and capabilities of LLMs as interactive agents.

Ax Vincent Henkel, Felix Gehlhoff, David Kube, Asaad Almutareb, Luis Cruz, Bernd Hellingrath, Philip Koch, Christoph Legat, Florian Mohr, Michael Oberle, Felix Ocker, Thorsten Schoeler, Mario Thron, Nico Andre T\"opfer, Lucas Vogt, Yuchen Xia 5/6/2026

Foundation-Model-Based Agents in Industrial Automation: Purposes, Capabilities, and Open Challenges

Examination of foundation-model-based agent systems in industrial automation contexts, purposes, capabilities, and limitations.

Ax Alberto Pozanco, Daniel Borrajo, Manuela Veloso 5/6/2026

Counterfactual Reasoning in Automated Planning

Survey of counterfactual reasoning techniques in automated planning for handling deviations from fixed task specifications.