Weihao XUAN (宣偉豪)

I'm a Ph.D. candidate at Machine Learning and Statistical Data Analysis Lab (杉山・横矢・石田研究室), The University of Tokyo (東京大学), where I'm very fortunate to be advised by Prof. Naoto Yokoya. I'm also under the Junior Research Associate (JRA) program at RIKEN Center for Advanced Intelligence Project.

My research focuses on natural language processing, particularly in evaluation and post-training. I'm also actively engaged in AI for Science (Earth Observation, Biology, Biomedical, Material Science). I work with amazing collaborators .

If you are interested in working with me or joining our lab, feel free to reach out via email.

News

[02/2026] One paper accepted to CVPR 2026.

[02/2026] Honored to receive the RIKEN BAIHO Award (RIKEN Excellent Achievement Award).

[01/2026] One paper accepted to ICRA 2026.

[01/2026] Two papers accepted to ICLR 2026, with one as an Oral Paper.

[01/2026] Two papers accepted to EACL 2026 Main Conference.

[11/2025] One paper accepted to AAAI 2026.

[09/2025] Our team won first place (1/261) in the AI for Earthquake Response, a competition funded by the European Space Agency, etc.

[09/2025] Two papers accepted to NeurIPS 2025.

[08/2025] Three papers accepted to EMNLP 2025 Main Conference, with one as an Oral Paper.

[06/2025] One paper accepted to IROS 2025.

[09/2024] One paper accepted to NeurIPS 2024 as a Spotlight Paper.

[08/2024] One paper accepted to ECCV 2024 as an Oral Paper.

[02/2023] One paper accepted to CVPR 2023.

Publications (* co-first | † corresponding)

Preprints

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents Weihao Xuan*, Qingcheng Zeng*, Heli Qi, Yunze Xiao, Junjue Wang, & Naoto Yokoya† arXiv preprint arXiv:2601.07264.
Paper
Towards Valid Student Simulation with Large Language Models Zhihao Yuan*, Yunze Xiao*, Ming Li*, Weihao Xuan, Richard Jiarui Tong, Mona Diab, & Tom Mitchell† arXiv preprint arXiv:2601.05473.
Paper
Toward Global Large Language Models in Medicine Rui Yang, Huitao Li, Weihao Xuan†, Heli Qi, Xin Li, Kunyu Yu, Yingjian Chen, Rongrong Wang, Jacques Behmoaras, Tianxi Cai, Bibhas Chakraborty, Qingyu Chen, Lionel Tim-Ee Cheng, Marie-Louise Damwanza, Chido Dzinotyiwei, Aosong Feng, Chuan Hong, Yusuke Iwasawa, Yuhe Ke, Linah Kitala, Taehoon Ko, Jisan Lee, Irene Li, Jonathan Chong Kai Liew, Hongfang Liu, Lian Leng Low, Edison Marrese-Taylor, Yutaka Matsuo, Isheanesu Misi, Yilin Ning, Jasmine Chiat Ling Ong, Marcus Eng Hock Ong, Enrico Petretto, Hossein Rouhizadeh, Abiram Sandralegar, Oren Schreier, Iain Bee Huat Tan, Patrick Tan, Daniel Shu Wei Ting, Junjue Wang, Chunhua Weng, Matthew Yu Heng Wong, Fang Wu, Yunze Xiao, Xuhai Xu, Qingcheng Zeng, Zhuo Zheng, Yifan Peng†, Douglas Teodoro†, & Nan Liu† arXiv preprint arXiv:2601.02186. (under review)
Paper
TeamPath: Building MultiModal Pathology Experts with Reasoning AI Copilots Tianyu Liu*, Weihao Xuan*, Hao Wu, Peter Humphrey, Marcello DiStasio, Heli Qi, Rui Yang, Simeng Han, Tinglin Huang, Fang Wu, Nan Liu, Irene Li, Hua Xu, & Hongyu Zhao† arXiv preprint arXiv:2511.17652. (under review)
Paper
Retrieval-Augmented Generation in Medicine: A Scoping Review of Technical Implementations, Clinical Applications, and Ethical Considerations Rui Yang*, Matthew Yu Heng Wong*, Huitao Li*, Xin Li, Wentao Zhu, Jingchi Liao, Kunyu Yu, Jonathan Chong Kai Liew, Weihao Xuan, Yingjian Chen, Yuhe Ke, Jasmine Chiat Ling Ong, Douglas Teodoro, Chuan Hong, Daniel Shu Wei Ting, & Nan Liu† arXiv preprint arXiv:2511.05901. (under review)
Paper
Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards Aaron Tu*, Weihao Xuan*, Heli Qi*, Xu Huang, Qingcheng Zeng, Shayan Talaei, Yijia Xiao, Peng Xia, Xiangru Tang, Yuchen Zhuang, Bing Hu, Hanqun Cao, Wenqi Shi, Tianang Leng, Rui Yang, Yingjian Chen, Ziqi Wang, Irene Li, Nan Liu, Huaxiu Yao, Li Erran Li, Ge Liu, Amin Saberi, Naoto Yokoya, Jure Leskovec, Yejin Choi, Fang Wu*† arXiv preprint arXiv:2509.21882.
Paper
The Invisible Leash: Why RLVR May Not Escape Its Origin Fang Wu*, Weihao Xuan*, Ximing Lu, Zaid Harchaoui, & Yejin Choi† arXiv preprint arXiv:2507.14843 (also in ICML 2025 AI4MATH Workshop). HuggingFace Daily Papers Top 3 [2025.07.22]
Paper
VeriWeb: Verifiable Long-Chain Web Benchmark for Agentic Information-Seeking Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Jialiang Gao, Heng Zhou, Yunhao Yang, Wendong Fan, Puzhen Zhang, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Junjie Wang, Aosong Feng, Jindi Lv, Sicong Jiang, Ziqi Ren, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao arXiv preprint arXiv:2508.04026. HuggingFace Daily Papers Top 2 [2025.08.07]
Paper Dataset ... Code ★ ...
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents Junjie Wang†, Yuxiang Zhang, Minghao Liu, Yin Zhang, Yatai Ji, Weihao Xuan, Nie Lin, Kang Zhu, Zhiqiang Lin, Yiming Ren, Chunyang Jiang, Yiyao Yu, Zekun Wang, Tiezhen Wang, Wenhao Huang, Jie Fu, Qunshu Liu, Yujiu Yang, Ge Zhang, Ruibin Yuan†, Bei Chen†, & Wenhu Chen† arXiv preprint arXiv:2406.13923.
Paper Dataset (14M) ... Dataset (200M) ...
Segment Anything With Multiple Modalities Aoran Xiao*, Weihao Xuan*, Heli Qi, Yun Xing, Naoto Yokoya†, & Shijian Lu† arXiv preprint arXiv:2408.09085. HuggingFace Daily Papers Top 3 [2024.08.20]
Paper Code ★ ...

Conference Papers

Direction-aware 3D Large Multimodal Models Quan Liu, Weihao Xuan, Junjue Wang, Naoto Yokoya, Ling Shao, & Shijian Lu† In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026).
Paper
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search Fang Wu*, Weihao Xuan*, Heli Qi*, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi† In The Fourteenth International Conference on Learning Representations (ICLR 2026). HuggingFace Daily Papers Top 1 [2025.10.02]
Paper Model ...
Multiplayer Nash Preference Optimization Fang Wu*, Xu Huang*, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi† In The Fourteenth International Conference on Learning Representations (ICLR 2026). Oral Paper HuggingFace Daily Papers Top 3 [2025.09.30]
Paper Code ★ ...
Is Pre-Training Applicable to the Decoder for Dense Prediction Chao Ning, Wanshui Gan, Weihao Xuan, & Naoto Yokoya† In 2026 IEEE International Conference on Robotics & Automation (ICRA 2026).
Paper
Taming Object Hallucinations with Verified Atomic Confidence Estimation Jiarui Liu, Weihao Xuan, Zhijing Jin, Mona Diab† In The 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2026).
Paper
The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models Kefan Yu*, Qingcheng Zeng*, Weihao Xuan, Wanxin Li, Jingyi Wu, & Rob Voigt† In The 19th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2026) (also in COLM 2025 PragLM Workshop).
Paper
LandCraft: Designing the Structured 3D Landscapes via Text Guidance Zhihao Liu*, Fang Liu*, Weihao Xuan, & Naoto Yokoya† In The 40th Annual AAAI Conference on Artificial Intelligence (AAAI 2026).
Paper Code ★ ...
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding Weihao Xuan*, Junjue Wang*, Heli Qi, Zihang Chen, Zhuo Zheng, Yanfei Zhong, Junshi Xia, & Naoto Yokoya† In The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025).
Paper Code ★ ...
DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response Junjue Wang*, Weihao Xuan*, Heli Qi, Zhihao Liu, Kunyi Liu, Yuhan Wu, Hongruixuan Chen, Jian Song, Junshi Xia, Zhuo Zheng, & Naoto Yokoya† In The Thirty-ninth Annual Conference on Neural Information Processing Systems (NeurIPS 2025).
Paper Code ★ ...
Seeing Is Believing, But How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models Weihao Xuan*, Qingcheng Zeng*, Heli Qi, Junjue Wang, & Naoto Yokoya† In The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025 Main Conference). Oral Paper [Full Meta Score 10/10]
Paper
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation Weihao Xuan†, Rui Yang, Heli Qi, Qingcheng Zeng, Yunze Xiao, Aosong Feng, Dairui Liu, Yun Xing, Junjue Wang, Fan Gao, Jinghui Lu, Yuang Jiang, Huitao Li, Xin Li, Kunyu Yu, Ruihai Dong, Shangding Gu, Yuekang Li, Xiaofei Xie, Felix Juefei-Xu, Foutse Khomh, Osamu Yoshie, Qingyu Chen, Douglas Teodoro, Nan Liu, Randy Goebel, Lei Ma, Edison Marrese-Taylor, Shijian Lu, Yusuke Iwasawa, Yutaka Matsuo, & Irene Li† In The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025 Main Conference).
Paper Dataset (Full) ... Dataset (Lite) ... Project
Thinking Out Loud: Do Reasoning Models Know When They're Right? Qingcheng Zeng*, Weihao Xuan*, Leyang Cui, & Rob Voigt† In The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025 Main Conference).
Paper
Geo3DVQA: Evaluating Vision-Language Models for 3D Geospatial Reasoning from Aerial Imagery Mai Tsujimoto, Junjue Wang, Weihao Xuan, & Naoto Yokoya† In The IEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2026).
Paper
LR2Depth: Large-Region Aggregation at Low Resolution for Efficient Monocular Depth Estimation Chao Ning, Weihao Xuan, Wanshui Gan, & Naoto Yokoya† In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)
Paper Code
SynRS3D: A Synthetic Dataset for Global 3D Semantic Understanding From Monocular Remote Sensing Imagery Jian Song, Hongruixuan Chen, Weihao Xuan, Junshi Xia, & Naoto Yokoya† In The Thirty-eight Conference on Neural Information Processing Systems (NeurIPS 2024). Spotlight Paper [Top 3.1%]
Paper Dataset ... Code ★ ...
CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model Aoran Xiao*, Weihao Xuan*, Heli Qi, Yun Xing, Ruijie Ren, Xiaoqin Zhang, Ling Shao & Shijian Lu† In European Conference on Computer Vision (ECCV 2024) (pp. 189-206). Oral Paper [Top 2.3%, 200/8585]
Paper Code ★ ...
3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds Aoran Xiao, Jiaxing Huang, Weihao Xuan, Ruijie Ren, Kangcheng Liu, Dayan Guan, Abdulmotaleb El Saddik, Shijian Lu†, & Eric Xing In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023) (pp. 9382-9392).
Paper Code ★ ...
On a Network SIS Model With Opinion Dynamics Weihao Xuan, Ruijie Ren, Philip E. Paré, Mengbin Ye, Sebastian Ruf, & Ji Liu† IFAC-PapersOnLine, 53(2), 2582-2587.
Paper

Journal Papers

AI for Earthquake Response: Outcomes & Insights from a Global Spaceborne Rapid Mapping Challenge Patrick Ebel, Mounia El Baz, Junjue Wang, Weihao Xuan, Heli Qi, Zhuo Zheng, Naoto Yokoya, Junghwan Park, Jaewan Park, Arthur Elskens, Eléonore Charles, Zachary Foltz, Iacopo Modica, Philippe Bally, Christian Bossung, Marco Chini, Nicolas Longépé, & Gabriele Meoni IEEE Geoscience and Remote Sensing Magazine.
Paper
CityVLM: Towards Sustainable Urban Development via Multi-View Coordinated Vision–Language Model Junjue Wang*, Weihao Xuan*, Heli Qi, Zihang Chen, Hongruixuan Chen, Zhuo Zheng, Junshi Xia, Yanfei Zhong, & Naoto Yokoya† ISPRS Journal of Photogrammetry and Remote Sensing.
Paper
BRIGHT: A Globally Distributed Multimodal Building Damage Assessment Dataset With Very-High-Resolution for All-Weather Disaster Response Hongruixuan Chen, Jian Song, Olivier Dietrich, Clifford Broni-Bediako, Weihao Xuan, Junjue Wang, Xinlei Shao, Yimin Wei, Junshi Xia, Cuiling Lan, Konrad Schindler, & Naoto Yokoya† Earth System Science Data (ESSD) (also in ICCV 2025 SEA Workshop, IGARSS 2025).
Paper Dataset ...
Foundation Models for Remote Sensing and Earth Observation: A Survey Aoran Xiao, Weihao Xuan, Junjue Wang, Jiaxing Huang, Dacheng Tao, Shijian Lu†, & Naoto Yokoya† IEEE Geoscience and Remote Sensing Magazine.
Paper
TSG-Seg: Temporal-selective guidance for semi-supervised semantic segmentation of 3D LiDAR point clouds Weihao Xuan, Heli Qi, & Aoran Xiao ISPRS Journal of Photogrammetry and Remote Sensing.
Paper

Education

The University of Tokyo (東京大学) Ph.D. Candidate in Complexity Science and Engineering

Machine Learning and Statistical Data Analysis Lab (杉山・横矢・石田研究室), Advisor: Prof. Naoto Yokoya

Junior Research Associate (JRA) at RIKEN Center for Advanced Intelligence Project

Waseda University (早稲田大学) M.Eng. in Information

Okuma Memorial Scholarship (Top Student)

University of Leeds B.Eng. in Mechanical Engineering

First-Class Honours

Professional Activities

Reviewer

Conference

NeurIPS ICLR ICML CVPR ICCV ECCV AAAI ACL Rolling Review ICCVW ACMMM BMVC ICRA IROS ICDL SII CPHS

Organization

Session Co-Chair

ER3: System Integration, IEEE/SICE International Symposium on System Integration (SII 2022)

Funding and Awards

RIKEN BAIHO Award (RIKEN Excellent Achievement Award)

Feb 2026

NVIDIA Academic Grant

Dec 2024

RIKEN Junior Research Associate

Dec 2023

Okuma Memorial Scholarship (Top Student)

Dec 2022

Monbukagakusho Honors Scholarship, JASSO

Apr 2022