Holistic Evaluation of Language Models

Percy Liang(Stanford University), Yuta Koreeda, Binhang Yuan, Ce Zhang(China Energy Engineering Corporation (China)), Michihiro Yasunaga, Nathan Kim, Yifan Mai, Mirac Süzgün, Ryan Chi, Ananya Kumar, Omar Khattab(Kuwait College of Science and Technology), Tatsunori Hashimoto(Massachusetts Institute of Technology), Yuhuai Wu, Keshav Santhanam, Drew A. Hudson, Dimitris Tsipras, Niladri S. Chatterji, Benjamin T. Newman, Diana Acosta-Navas, Christopher D. Manning(Stanford University), Peter Henderson(Princeton University), Frieda Rong, Huaxiu Yao, Lucia Zheng, Vishrav Chaudhary, Laurel Orr, Surya Ganguli(Stanford University), Bobby Yan, Mert Yüksekgönül, Eric Zelikman, Neel Guha(Stanford University), Shibani Santurkar, Sang Michael Xie(Stanford University), Rishi Bommasani(Stanford University), Tong Lee, Christian Cosgrove, Faisal Ladhak(Columbia University), Thomas Icard, Deepak Narayanan(Microsoft Research (India)), Dilara Soylu, Tianyi Zhang, Jue Wang, Yuhui Zhang, William Yang Wang(University of California, Santa Barbara), Xuechen Li(Chinese Academy of Medical Sciences & Peking Union Medical College), Qian Huang, Hong‐Yu Ren(Northeast Agricultural University), Yian Zhang, Christopher Ré(Johnson Space Center), Esin Durmus

arXiv (Cornell University)

November 16, 2022

10.48550/arxiv.2211.09110

Cited by 119

Related Papers

On the Opportunities and Risks of Foundation Models

|arXiv (Cornell University)|2021|2.2k

Deep Reinforcement Learning That Matters

|Proceedings of the AAAI Conference on Artificial Intelligence|2018|1.5k

Lost in the Middle: How Language Models Use Long Contexts

|Transactions of the Association for Computational Linguistics|2024|844

Mitigating Gender Bias in Natural Language Processing: Literature Review

|Unknown|2019|494

Unsupervised Discovery of Demixed, Low-Dimensional Neural Dynamics across Multiple Timescales through Tensor Component Analysis

|Neuron|2018|374