【目的】围绕AI场景下科学数据的共享与利用问题,针对现有FAIR原则不足以指导科学数据满足AI就绪的现状,构建面向AI就绪的科学数据共享与利用原则框架。【方法】通过系统梳理传统机器学习、大模型预训练、大模型微调、检索增强生成及智...【目的】围绕AI场景下科学数据的共享与利用问题,针对现有FAIR原则不足以指导科学数据满足AI就绪的现状,构建面向AI就绪的科学数据共享与利用原则框架。【方法】通过系统梳理传统机器学习、大模型预训练、大模型微调、检索增强生成及智能体等5类典型AI任务的数据需求,在传统FAIR“四可”维度的基础上,提出面向AI就绪(即For AI Ready)的科学数据共享与利用原则框架FAIR×FAIR,进而提出与框架相适应的层次化技术栈。【结果】FAIR×FAIR框架明确了13项科学数据满足AI就绪的技术要求,为弥合AI任务与科学数据之间的语义鸿沟提供了系统化方案。【局限】本研究提出的原则框架其实施效果仍需通过后续领域应用案例进一步验证。【结论】FAIR×FAIR框架为AI时代的科学数据共享与高效利用提供了理论依据和实践路径,对推动数据驱动型科研范式的演进具有重要意义。展开更多
文摘【目的】围绕AI场景下科学数据的共享与利用问题,针对现有FAIR原则不足以指导科学数据满足AI就绪的现状,构建面向AI就绪的科学数据共享与利用原则框架。【方法】通过系统梳理传统机器学习、大模型预训练、大模型微调、检索增强生成及智能体等5类典型AI任务的数据需求,在传统FAIR“四可”维度的基础上,提出面向AI就绪(即For AI Ready)的科学数据共享与利用原则框架FAIR×FAIR,进而提出与框架相适应的层次化技术栈。【结果】FAIR×FAIR框架明确了13项科学数据满足AI就绪的技术要求,为弥合AI任务与科学数据之间的语义鸿沟提供了系统化方案。【局限】本研究提出的原则框架其实施效果仍需通过后续领域应用案例进一步验证。【结论】FAIR×FAIR框架为AI时代的科学数据共享与高效利用提供了理论依据和实践路径,对推动数据驱动型科研范式的演进具有重要意义。