随着大语言模型(large language models,LLMs)日益融入人类生活,成为人机交互中的关键对象,如何准确评测其价值观已经成为重要的研究课题。这不仅能够衡量其安全性,保障其在交互场景中负责任地发展,还能够帮助用户发现与其个人价值观更...随着大语言模型(large language models,LLMs)日益融入人类生活,成为人机交互中的关键对象,如何准确评测其价值观已经成为重要的研究课题。这不仅能够衡量其安全性,保障其在交互场景中负责任地发展,还能够帮助用户发现与其个人价值观更契合的模型,同时可以为实现人机交互中模型与人类价值观对齐提供关键指导信号。然而,价值观评测面临三大复杂挑战:如何定义合适的评测目标,以准确地揭示交互中复杂、多元的人类价值观;如何确保评测的有效性,现有的静态开源数据集存在数据污染风险且原本有效的测试样本随着大模型的快速演进容易失效。此外,许多现有工作只衡量模型对价值观的知识掌握,而非其在实际人机交互场景中的价值观践行能力,这导致评测结果难以真实反映用户对模型能力的需求;如何科学地度量评测结果,价值观评测通常是多维度的,评测时需要在不同价值维度间进行加权整合,并考虑不同的价值优先级。为了应对以上挑战,我们团队研究并搭建了价值观罗盘评估中心(Value Compass Benchmarks),通过3个创新模块实现科学的价值观评测。首先,基于社会科学中的人类基本价值观来定义评测目标,通过有限的核心价值维度全面揭示价值观;其次,设计了生成式动态演进评测框架,通过动态问题生成器实时生成评测样本,并采用生成式评测方法,分析模型在真实情境中的价值观体现;最后,提出一-种评测指标,通过加权整合各维度的价值观,支持个性化定制权重。我们期望该平台能够提供科学、系统的价值观评测服务,同时促进模型价值观对齐研究的发展。展开更多
文摘随着大语言模型(large language models,LLMs)日益融入人类生活,成为人机交互中的关键对象,如何准确评测其价值观已经成为重要的研究课题。这不仅能够衡量其安全性,保障其在交互场景中负责任地发展,还能够帮助用户发现与其个人价值观更契合的模型,同时可以为实现人机交互中模型与人类价值观对齐提供关键指导信号。然而,价值观评测面临三大复杂挑战:如何定义合适的评测目标,以准确地揭示交互中复杂、多元的人类价值观;如何确保评测的有效性,现有的静态开源数据集存在数据污染风险且原本有效的测试样本随着大模型的快速演进容易失效。此外,许多现有工作只衡量模型对价值观的知识掌握,而非其在实际人机交互场景中的价值观践行能力,这导致评测结果难以真实反映用户对模型能力的需求;如何科学地度量评测结果,价值观评测通常是多维度的,评测时需要在不同价值维度间进行加权整合,并考虑不同的价值优先级。为了应对以上挑战,我们团队研究并搭建了价值观罗盘评估中心(Value Compass Benchmarks),通过3个创新模块实现科学的价值观评测。首先,基于社会科学中的人类基本价值观来定义评测目标,通过有限的核心价值维度全面揭示价值观;其次,设计了生成式动态演进评测框架,通过动态问题生成器实时生成评测样本,并采用生成式评测方法,分析模型在真实情境中的价值观体现;最后,提出一-种评测指标,通过加权整合各维度的价值观,支持个性化定制权重。我们期望该平台能够提供科学、系统的价值观评测服务,同时促进模型价值观对齐研究的发展。