Isolater - Feed

Ax Zan Kai Chong, Hiroyuki Ohsaki, Bryan Ng 5/5/2026

Compiling Deterministic Structure into SLM Harnesses

Semantic Gradient Descent framework compiles agentic workflows into discrete execution plans (DAG topologies, prompts, code) for efficient small language model deployment.

Ax Damiano Fornasiere, Mirko Bronzi, Spencer Kitts, Alessandro Palmas, Yoshua Bengio, Oliver Richardson 5/5/2026

Language models recognize dropout and Gaussian noise applied to their activations

arXiv research: Language models can detect, localize and verbalize activation perturbations like dropout and Gaussian noise.

Ax Behnaz Ranjbar, Kirankumar Raveendiran, Sudeep Pasricha, Samarjit Chakraborty, Cecilia Carbonelli, Akash Kumar 5/5/2026

Autonomous Systems Dependability in the era of AI: Design Challenges in Safety, Security, Reliability and Certification

Design challenges for safety-critical autonomous systems integrating AI components, covering safety, security, reliability, and certification across abstraction layers.

Ax Alex Petrov, Alexander Gusak, Denis Mukha, Dima Korolev 5/5/2026

From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction

Schema-aware memory architecture for AI agents enabling exact fact storage, state tracking, updates, and structured retrieval beyond text embeddings.

Ax Hanane Nour Moussa, Yifei Li, Zhuoyang Li, Yankai Yang, Cheng Tang, Tianshu Zhang, Nesreen K. Ahmed, Ali Payani, Ziru Chen, Huan Sun 5/5/2026

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

D3-Gym dataset with 565 verifiable tasks from real scientific repositories for evaluating LLM and agent capabilities in data-driven discovery.

Ax Yujun Wu, Dongxu Zhang, Xinchen Li, Jinhang Xu, Yiling Duan, Yumou Liu, Jiabao Pan, Qiyuan Zhu, Xuanhe Zhou, Jingxuan Wei, Siyuan Li, Jintao Chen, Conghui He, Cheng Tan 5/5/2026

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

Research infrastructure mapping methodological evolution in AI as a graph structure to support AI-driven research agents accessing scientific knowledge.

Ax Simeon Allmendinger, Domenique Zipperling, Lukas Struppek, Niklas K\"uhl 5/5/2026

CollaFuse: Collaborative Diffusion Models

Collaborative diffusion models for synthetic image generation addressing data availability, computational requirements, and privacy challenges.

Ax Dylan Bouchard 5/5/2026

Bring Your Own Prompts: Use-Case-Specific Bias and Fairness Evaluation for LLMs

Decision framework for systematic evaluation of bias and fairness in LLMs across different deployment contexts and use cases.

Ax Washim Uddin Mondal, Vaneet Aggarwal 5/5/2026

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs

Algorithm for learning constrained MDPs using parameterized policies with entropy and quadratic regularizers, achieving last-iterate convergence.

Ax Cameron Yetman 5/5/2026

Representation in large language models

Theoretical paper examining how large language models form internal representations, bridging disagreement between LLM optimists and pessimists.

Ax Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu 5/5/2026

Exploring the System 1 Thinking Capability of Large Reasoning Models

Analysis of system 1 thinking capability in large reasoning models, evaluating intuitive responses with minimal tokens for efficiency and difficulty awareness.

Ax Luca Castri, Gloria Beraldo, Nicola Bellotto 5/5/2026

Causality-enhanced Decision-Making for Autonomous Mobile Robots in Dynamic Environments

Research on causal inference for autonomous mobile robots in dynamic environments, modeling human behavior and interactions.

Ax Ziyuan Zhang, Darcy Wang, Ningyuan Chen, Rodrigo Mansur, Vahid Sarhangian 5/5/2026

Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments

Study comparing exploration-exploitation tradeoffs in LLMs versus humans using multi-armed bandit experiments for sequential decision-making.

Ax Jatin Gupta, Akhil Sharma, Saransh Singhania, Ali Imam Abidi 5/5/2026

Lightweight Domain Adaptation of a Large Language Model for Legal Assistance in the Indian Context

Legal Assist AI: Lightweight domain-adapted framework for providing legal assistance in Indian context using efficient LLM fine-tuning.

Ax Zexi Liu, Jingyi Chai, Xinyu Zhu, Shuo Tang, Rui Ye, Bo Zhang, Lei Bai, Siheng Chen 5/5/2026

ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

ML-Agent: Framework reinforcing LLM agents for autonomous machine learning engineering, moving beyond prompt-based paradigms for better generalization.

Ax Kundan Krishna, Joseph Y Cheng, Charles Maalouf, Leon A Gatys 5/5/2026

Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment

Disentangled Safety Adapters: Framework decoupling safety computations from base models using lightweight adapters for efficient guardrails and flexible alignment.

Ax Jiacong Wang, Zijian Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao 5/5/2026

VGR: Visual Grounded Reasoning

VGR: Framework for visual grounded chain-of-thought reasoning that performs reasoning in visual space rather than pure language, for complex visual tasks.

Ax Lehan He, Zeren Chen, Zhe Zhang, Xiang Gao, Lu Sheng 5/5/2026

Effective LLM Code Refinement via Property-Oriented and Structurally Minimal Feedback

Method for refining LLM-generated code through property-oriented, minimal feedback instead of test quantity, improving functional correctness.

Ax Rahul Ramachandran, Ali Garjani, Roman Bachmann, Andrei Atanov, O\u{g}uzhan Fatih Kar, Amir Zamir 5/5/2026

How Well Does GPT-4o Understand Vision? Evaluating Multimodal Foundation Models on Standard Computer Vision Tasks

Benchmark comparing multimodal foundation models (GPT-4o, Gemini, Claude, Qwen, Llama) on standard computer vision tasks beyond question answering.

Ax Yiran Wu, Mauricio Velazco, Andrew Zhao, Manuel Ra\'ul Mel\'endez Luj\'an, Srisuma Movva, Yogesh K Roy, Quang Nguyen, Roberto Rodriguez, Qingyun Wu, Michael Albada, Julia Kiseleva, Anand Mudgerikar 5/5/2026

ExCyTIn-Bench: Evaluating LLM agents on Cyber Threat Investigation

ExCyTIn-Bench: First benchmark for evaluating LLM agents on autonomous cyber threat investigation using multi-hop evidence chains from security logs.

Ax Zhaomin Wu, Mingzhe Du, See-Kiong Ng, Bingsheng He 5/5/2026

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

Study investigating intentional deception in LLMs on benign prompts without explicit hidden objectives, assessing trustworthiness for decision-making tasks.

Ax Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta 5/5/2026

InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information

InterChart benchmark evaluating vision-language models on reasoning across multiple related charts for scientific, financial, and policy analysis tasks.

Ax Arshia Akhavan, Alireza Hosseinpour, Abbas Heydarnoori, Hamid Bagheri, Mehdi Keshani 5/5/2026

LinkAnchor: An Autonomous LLM-Based Agent for Issue-to-Commit Link Recovery

LinkAnchor: Autonomous LLM agent for recovering issue-to-commit links in software repositories, addressing low linking rates on GitHub.

Ax Diane Tchuindjo, Omar Khattab 5/5/2026

Reasoning-Intensive Regression

Framework for using LLMs to perform reasoning-intensive regression tasks like rubric-based scoring and dense reward modeling, beyond standard text analysis.

Ax Jie Li, Youyang Hou, Laura Lin, Ruihao Zhu, Hancheng Cao, Abdallah El Ali 5/5/2026

Vibe Coding in Product Teams: Reconfiguring AI-Assisted Workflows, Prototyping, and Collaboration

Qualitative study of how generative AI reshapes product development workflows through natural language-to-code translation, based on 22 interviews across teams.

Ax Zhaomin Wu, Haodong Zhao, Ziyang Wang, Jizhou Guo, Qian Wang, Bingsheng He 5/5/2026

LLM DNA: Tracing Model Evolution via Functional Representations

Method using functional representations to trace evolutionary relationships between millions of LLMs, addressing undocumented fine-tuning and adaptation chains.

Ax Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass 5/5/2026

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Benchmark framework (Game-Time) for evaluating temporal dynamics capabilities in conversational spoken language models, including timing and simultaneous speech handling.

Ax Chenhui Xu, Fuxun Yu, Michael J. Bianco, Jacob Kovarskiy, Raphael Tang, Qi Zhang, Zirui Xu, Will LeVine, Brandon Dubbs, Heming Liao, Cassandra Burgess, Suvam Bag, Jay Patravali, Rupanjali Kukal, Mikael Figueroa, Rishi Madhok, Nikolaos Karianakis, Jinjun Xiong 5/5/2026

Unlocking Zero-Shot Geospatial Reasoning via Indirect Rewards

Research on training vision-language models for geospatial reasoning using indirect rewards from metadata to overcome supervision scarcity in rare domains.

Ax Lorenzo Nikiforos, Luciano Prono, Charalampos Antoniadis, Fabio Pareschi, Riccardo Rovatti, Gianluca Setti 5/5/2026

Vanishing Contributions: A Unified Framework for Smooth and Iterative Model Compression

Unified framework for iterative neural network compression combining pruning, quantization, and low-rank decomposition techniques with gradual accuracy preservation.

Ax Charidimos Papadakis, Angeliki Dimitriou, Giorgos Filandrianos, Maria Lymperaiou, Konstantinos Thomas, Giorgos Stamou 5/5/2026

ATLAS: Adaptive Trading with LLM AgentS Through Dynamic Prompt Optimization and Multi-Agent Coordination

ATLAS: framework for deploying LLM agents in autonomous trading with dynamic prompt optimization, multi-agent coordination, and late-arriving noisy rewards.

Ax Qingyao Ai, Yichen Tang, Changyue Wang, Jianming Long, Weihang Su, Yiqun Liu 5/5/2026

MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems

MemoryBench: benchmark for evaluating memory and continual learning capabilities in LLM systems, addressing limitations of scaling-only approaches.

Ax Jackson Hassell, Dan Zhang, Hannah Kim, Tom Mitchell, Estevam Hruschka 5/5/2026

Learning from Supervision with Semantic and Episodic Memory: A Reflective Approach to Agent Adaptation

Memory-augmented framework enabling LLM agents to learn classification functions from labeled examples without parameter updates using episodic memory and critiques.

Ax Md. Mehedi Hasan, Sk Tanzir Mehedi, Ziaur Rahman, Rafid Mostafiz, Md. Abir Hossain 5/5/2026

Sentra-Guard: A Real-Time Multilingual Defense Against Adversarial LLM Prompts

Sentra-Guard: real-time defense system detecting jailbreak and prompt injection attacks on LLMs using FAISS embeddings and fine-tuned classifiers.

Ax Feijie Wu, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rong Luo, Jing Gao 5/5/2026

PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning

PORTool: algorithm for training multi-tool LLM agents using importance-weighted policy optimization to resolve credit-assignment ambiguity in tool-use decisions.

Ax Hatim Chergui, Farhad Rezazadeh, Mehdi Bennis, Merouane Debbah, Christos Verikoukis 5/5/2026

LLM-Based Agentic Negotiation for 6G: Addressing Uncertainty Neglect and Tail-Event Risk

Risk-aware LLM-based agentic framework for 6G network negotiation addressing uncertainty neglect and tail-event risks.

Ax Th\'eo Cavignac (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany), Jonathan Schmidt (Department of Materials, ETH Z\"urich, Z\"urich, Switzerland), Pierre-Paul De Breuck (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany), Antoine Loew (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany), Tiago F. T. Cerqueira (CFisUC, Department of Physics, University of Coimbra, Coimbra, Portugal), Hai-Chen Wang (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany), Anton Bochkarev (ICAMS, Ruhr-Universit\"at Bochum and ACEworks GmbH, Bochum, Germany), Yury Lysogorskiy (ICAMS, Ruhr-Universit\"at Bochum and ACEworks GmbH, Bochum, Germany), Aldo H. Romero (Department of Physics, West Virginia University, Morgantown, USA), Ralf Drautz (ICAMS, Ruhr-Universit\"at Bochum and ACEworks GmbH, Bochum, Germany), Silvana Botti (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany), Miguel A. L. Marques (Research Center Future Energy Materials and Systems of the University Alliance Ruhr and ICAMS, Ruhr University Bochum, Bochum, Germany) 5/5/2026

AI-Driven Expansion and Application of the Alexandria Database

Multi-stage computational materials discovery workflow combining generative models and graph neural networks generating 119M candidate structures.

Ax Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu 5/5/2026

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Audit of LAION-Aesthetics Predictor examining whose cultural values and aesthetic preferences are encoded in image quality models.

Ax Nigam H. Shah, Nerissa Ambers, Abby Pandya, Timothy Keyes, Juan M. Banda, Srikar Nallan, Carlene Lugtu, Artem A. Trotsyuk, Suhana Bedi, Alyssa Unell, Miguel Fuentes, Francois Grolleau, Sneha S. Jain, Jonathan Chen, Devdutta Dash, Danton Char, Aditya Sharma, Duncan McElfresh, Patrick Scully, Vishanthan Kumar, Clancy Dennis, Connor OBrien, Satchi Mouniswamy, Elvis Jones, Krishna Jasti, Gunavathi Mannika Lakshmanan, Sree Ram Akula, Varun Kumar Singh, Ramesh Rajmanickam, Sudhir Sinha, Vicky Zhou, Xu Wang, Bilal Mawji, Joshua Ge, Wencheng Li, Travis Lyons, Jarrod Helzer, Vikas Kakkar, Ramesh Powar, Darren Batara, Cheryl Cordova, William Frederick III, Olivia Tang, Phoebe Morgan, April S. Liang, Stephen P. Ma, Shivam Vedak, Dong-han Yao, Akshay Swaminathan, Mehr Kashyap, Brian Ng, Jamie Hellman, Nikesh Kotecha, Christopher Sharp, Gretchen Brown, Christian Lindmark, Anurang Revri, Michael A. Pfeffer 5/5/2026

Adoption and Use of LLMs at an Academic Medical Center

ChatEHR system enabling LLM integration with electronic health records for clinical documentation automations and interactive use.

Ax Lakshan Cooray, Deshan Sumanathilaka, Pattigadapa Venkatesh Raju 5/5/2026

Can Small Language Models Handle Context-Summarized Multi-Turn Customer-Service QA? A Synthetic Data-Driven Comparative Evaluation

Comparative evaluation of small language models on multi-turn customer-service QA using synthetic data in resource-constrained settings.

Ax Michael A. Lepori, Tal Linzen, Ann Yuan, Katja Filippova 5/5/2026