物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存...物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存在误用、混乱甚至是缺失的情况,特别是在鱼类中,约20%的物种缺少中文名,严重制约了生物多样性认知、跨语言交流、科学传播和数据共享与利用等。为应对这一问题,本研究整合《拉汉世界鱼类系统名典》等多个权威数据源,构建了60564条高质量拉丁学名与中文名双语平行语料库。基于多语言大模型mT5(multilingual text-to-text transfer transformer,包含small、base、large三种参数规模),引入对偶学习框架与命名规则约束,实现鱼类中文名的自动生成与校正。结果显示,微调后的mT5-large模型在独立测试集上获得的BLEURT和COMET的对偶译质评分分别为0.90和0.93,较DeepSeek-R1等通用大语言模型提升38%~159%,并将低频属名与新描述种名的翻译错误率降低25%~80%。所有生成的鱼类中文名均由分类学专家逐条审定,以确保命名的科学性和规范性。本研究首次系统性地补全了全球鱼类的中文名系统,打通了物种学名与俗名之间的信息壁垒;并开发配套微信小程序面向所有用户开放,实时更新种名信息和分类变动。研究方法为其他生物类群的多语言俗名翻译提供了可复制、可推广的技术范式,助力全球生物多样性与文化多样性保护实践。展开更多
文摘物种名是生物分类学的核心概念,是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性,不受地域和语言差异影响,确保跨语言、跨学科交流的准确性;但物种地方名(俗名)缺少命名规则,融合了历史与文化传统,往往存在误用、混乱甚至是缺失的情况,特别是在鱼类中,约20%的物种缺少中文名,严重制约了生物多样性认知、跨语言交流、科学传播和数据共享与利用等。为应对这一问题,本研究整合《拉汉世界鱼类系统名典》等多个权威数据源,构建了60564条高质量拉丁学名与中文名双语平行语料库。基于多语言大模型mT5(multilingual text-to-text transfer transformer,包含small、base、large三种参数规模),引入对偶学习框架与命名规则约束,实现鱼类中文名的自动生成与校正。结果显示,微调后的mT5-large模型在独立测试集上获得的BLEURT和COMET的对偶译质评分分别为0.90和0.93,较DeepSeek-R1等通用大语言模型提升38%~159%,并将低频属名与新描述种名的翻译错误率降低25%~80%。所有生成的鱼类中文名均由分类学专家逐条审定,以确保命名的科学性和规范性。本研究首次系统性地补全了全球鱼类的中文名系统,打通了物种学名与俗名之间的信息壁垒;并开发配套微信小程序面向所有用户开放,实时更新种名信息和分类变动。研究方法为其他生物类群的多语言俗名翻译提供了可复制、可推广的技术范式,助力全球生物多样性与文化多样性保护实践。