期刊文献+
共找到2,534篇文章
< 1 2 127 >
每页显示 20 50 100
Quality Control Technology for Hourly Routine Meteorological Element Data Files
1
作者 Hui LIANG Xianqiang SU +1 位作者 Qingyun ZHU Xiao HUANG 《Meteorological and Environmental Research》 2025年第3期10-15,共6页
[Objective]In response to the issue of insufficient integrity in hourly routine meteorological element data files,this paper aims to improve the availability and reliability of data files,and provide high-quality data... [Objective]In response to the issue of insufficient integrity in hourly routine meteorological element data files,this paper aims to improve the availability and reliability of data files,and provide high-quality data file support for meteorological forecasting and services.[Method]In this paper,an efficient and accurate method for data file quality control and fusion processing is developed.By locating the missing measurement time,data are extracted from the"AWZ.db"database and the minute routine meteorological element data file,and merged into the hourly routine meteorological element data file.[Result]Data processing efficiency and accuracy are significantly improved,and the problem of incomplete hourly routine meteorological element data files is solved.At the same time,it emphasizes the importance of ensuring the accuracy of the files used and carefully checking and verifying the fusion results,and proposes strategies to improve data quality.[Conclusion]This method provides convenience for observation personnel and effectively improves the integrity and accuracy of data files.In the future,it is expected to provide more reliable data support for meteorological forecasting and services. 展开更多
关键词 Integral point Meteorological elements data file Quality control
在线阅读 下载PDF
Dynamic Metadata Prefetching and Data Placement Algorithms for High-Performance Wide-Area Applications
2
作者 Bing Wei Yubin Li +2 位作者 Yi Wu Ming Zhong Ning Luo 《Computers, Materials & Continua》 2025年第9期4773-4804,共32页
Metadata prefetching and data placement play a critical role in enhancing access performance for file systems operating over wide-area networks.However,developing effective strategies for metadata prefetching in envir... Metadata prefetching and data placement play a critical role in enhancing access performance for file systems operating over wide-area networks.However,developing effective strategies for metadata prefetching in environments with concurrent workloads and for data placement across distributed networks remains a significant challenge.This study introduces novel and efficient methodologies for metadata prefetching and data placement,leveraging fine-grained control of prefetching strategies and variable-sized data fragment writing to optimize the I/O bandwidth of distributed file systems.The proposed metadata prefetching technique employs dynamic workload analysis to identify dominant workload patterns and adaptively refines prefetching policies,thereby boosting metadata access efficiency under concurrent scenarios.Meanwhile,the data placement strategy improves write performance by storing data fragments locally within the nearest data center and transmitting only the fragment location metadata to the remote data center hosting the original file.Experimental evaluations using real-world system traces demonstrate that the proposed approaches reduce metadata access times by up to 33.5%and application data access times by 17.19%compared to state-of-the-art techniques. 展开更多
关键词 Metadata prefetching data placement wide-area network file system(WANFS) concurrent workload optimization
在线阅读 下载PDF
Reliable transmission of consultative committee for space data systems file delivery protocol in deep space communication 被引量:7
3
作者 Hui Li Hao Luo Faxin Yu Zheming Lu 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2010年第3期349-354,共6页
In consultative committee for space data systems(CCSDS) file delivery protocol(CFDP) recommendation of reliable transmission,there are no detail transmission procedure and delay calculation of prompted negative ac... In consultative committee for space data systems(CCSDS) file delivery protocol(CFDP) recommendation of reliable transmission,there are no detail transmission procedure and delay calculation of prompted negative acknowledge and asynchronous negative acknowledge models.CFDP is designed to provide data and storage management,story and forward,custody transfer and reliable end-to-end delivery over deep space characterized by huge latency,intermittent link,asymmetric bandwidth and big bit error rate(BER).Four reliable transmission models are analyzed and an expected file-delivery time is calculated with different trans-mission rates,numbers and sizes of packet data units,BERs and frequencies of external events,etc.By comparison of four CFDP models,the requirement of BER for typical missions in deep space is obtained and rules of choosing CFDP models under different uplink state informations are given,which provides references for protocol models selection,utilization and modification. 展开更多
关键词 deep space communication consultative committee for space data systems (CCSDS) CCSDS file delivery protocol (CFDP) RELIABLE delay.
在线阅读 下载PDF
Airborne electromagnetic data denoising based on dictionary learning 被引量:7
4
作者 Xue Shu-yang Yin Chang-chun +5 位作者 Su Yang Liu Yun-he Wang Yong Liu Cai-hua Xiong Bin Sun Huai-feng 《Applied Geophysics》 SCIE CSCD 2020年第2期306-313,317,共9页
Time-domain airborne electromagnetic(AEM)data are frequently subject to interference from various types of noise,which can reduce the data quality and affect data inversion and interpretation.Traditional denoising met... Time-domain airborne electromagnetic(AEM)data are frequently subject to interference from various types of noise,which can reduce the data quality and affect data inversion and interpretation.Traditional denoising methods primarily deal with data directly,without analyzing the data in detail;thus,the results are not always satisfactory.In this paper,we propose a method based on dictionary learning for EM data denoising.This method uses dictionary learning to perform feature analysis and to extract and reconstruct the true signal.In the process of dictionary learning,the random noise is fi ltered out as residuals.To verify the eff ectiveness of this dictionary learning approach for denoising,we use a fi xed overcomplete discrete cosine transform(ODCT)dictionary algorithm,the method-of-optimal-directions(MOD)dictionary learning algorithm,and the K-singular value decomposition(K-SVD)dictionary learning algorithm to denoise decay curves at single points and to denoise profi le data for diff erent time channels in time-domain AEM.The results show obvious diff erences among the three dictionaries for denoising AEM data,with the K-SVD dictionary achieving the best performance. 展开更多
关键词 Time-domain AEM data processing DENOISING dictionary learning sparse representation
在线阅读 下载PDF
A Complexity Analysis and Entropy for Different Data Compression Algorithms on Text Files 被引量:1
5
作者 Mohammad Hjouj Btoush Ziad E. Dawahdeh 《Journal of Computer and Communications》 2018年第1期301-315,共15页
In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorith... In this paper, we analyze the complexity and entropy of different methods of data compression algorithms: LZW, Huffman, Fixed-length code (FLC), and Huffman after using Fixed-length code (HFLC). We test those algorithms on different files of different sizes and then conclude that: LZW is the best one in all compression scales that we tested especially on the large files, then Huffman, HFLC, and FLC, respectively. Data compression still is an important topic for research these days, and has many applications and uses needed. Therefore, we suggest continuing searching in this field and trying to combine two techniques in order to reach a best one, or use another source mapping (Hamming) like embedding a linear array into a Hypercube with other good techniques like Huffman and trying to reach good results. 展开更多
关键词 TEXT fileS data Compression HUFFMAN Coding LZW Hamming ENTROPY COMPLEXITY
暂未订购
Multi-Level Cache System of Small Spatio-Temporal Data Files Based on Cloud Storage in Smart City
6
作者 XU Xiaolin HU Zhihua LIU Xiaojun 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2017年第5期387-394,共8页
In this paper, we present a distributed multi-level cache system based on cloud storage, which is aimed at the low access efficiency of small spatio-temporal data files in information service system of Smart City. Tak... In this paper, we present a distributed multi-level cache system based on cloud storage, which is aimed at the low access efficiency of small spatio-temporal data files in information service system of Smart City. Taking classification attribute of small spatio-temporal data files in Smart City as the basis of cache content selection, the cache system adopts different cache pool management strategies in different levels of cache. The results of experiment in prototype system indicate that multi-level cache in this paper effectively increases the access bandwidth of small spatio-temporal files in Smart City and greatly improves service quality of multiple concurrent access in system. 展开更多
关键词 Smart City spatio-temporal data multi-level cache small file
原文传递
Persistent Data Layout in File Systems
7
作者 LUO Shengmei LU Youyou +2 位作者 YANG Hongzhang SHU Jiwu ZHANG Jiacheng 《ZTE Communications》 2018年第3期59-66,共8页
Data layout in a file system is the organization of data stored in external storages. The data layout has a huge impact on performance of storage systems. We survey three main kinds of data layout in traditional file ... Data layout in a file system is the organization of data stored in external storages. The data layout has a huge impact on performance of storage systems. We survey three main kinds of data layout in traditional file systems: in-place update file system, log-structured file system, and copy-on-write file sys- tem. Each file system has its own strengths and weaknesses under different circumstances. We also include a recent us- age of persistent layout in a file system that combines both flash memory and byte- addressable non- volatile memory. With this survey, we conclude that persistent data layout in file systems may evolve dramatically in the era of emerging non-volatile memory. 展开更多
关键词 data layout file system persistent storage solid state drive(SSD)
在线阅读 下载PDF
Refreshing File Aggregate of Distributed Data Warehouse in Sets of Electric Apparatus
8
作者 于宝琴 王太勇 +3 位作者 张君 周明 何改云 李国琴 《Transactions of Tianjin University》 EI CAS 2006年第3期174-179,共6页
Integrating heterogeneous data sources is a precondition to share data for enterprises. Highly-efficient data updating can both save system expenses, and offer real-time data. It is one of the hot issues to modify dat... Integrating heterogeneous data sources is a precondition to share data for enterprises. Highly-efficient data updating can both save system expenses, and offer real-time data. It is one of the hot issues to modify data rapidly in the pre-processing area of the data warehouse. An extract transform loading design is proposed based on a new data algorithm called Diff-Match,which is developed by utilizing mode matching and data-filtering technology. It can accelerate data renewal, filter the heterogeneous data, and seek out different sets of data. Its efficiency has been proved by its successful application in an enterprise of electric apparatus groups. 展开更多
关键词 distributed data warehouse Diff-Match algorithm KMP algorithm file aggregates extract transform loading
在线阅读 下载PDF
Detecting Anomalies in Irregular Data Using K-means Clustered Signal Dictionary
9
作者 G. Talavera Reyes Rajan M. Chandra +1 位作者 Ha Thu Le Zekeriya Aliyazicioglu 《Computer Technology and Application》 2016年第5期244-252,共9页
The critical nature of satellite network traffic provides a challenging environment to detect intrusions. The intrusion detection method presented aims to raise an alert whenever satellite network signals begin to exh... The critical nature of satellite network traffic provides a challenging environment to detect intrusions. The intrusion detection method presented aims to raise an alert whenever satellite network signals begin to exhibit anomalous patterns determined by Euclidian distance metric. In line with anomaly-based intrusion detection systems, the method presented relies heavily on building a model of"normal" through the creation of a signal dictionary using windowing and k-means clustering. The results of three signals fi'om our case study are discussed to highlight the benefits and drawbacks of the method presented. Our preliminary results demonstrate that the clustering technique used has great potential for intrusion detection for non-periodic satellite network signals. 展开更多
关键词 Intrusion detection irregular data K-means clustering machine learning signal dictionary
在线阅读 下载PDF
全国预防接种档案跨省共享方案设计与实现
10
作者 金丽珠 葛辉 +3 位作者 李少琼 杜雪杰 郑环 郭青 《医学信息学杂志》 2025年第1期69-74,共6页
目的/意义通过信息技术手段实现接种档案跨省共享,进一步提升我国免疫规划信息化服务能力。方法/过程基于全国免疫规划信息系统建设现状,设计接种档案跨省交换业务流程,采用接口方式查询和传输接种信息,并利用数据校验和安全控制等手段... 目的/意义通过信息技术手段实现接种档案跨省共享,进一步提升我国免疫规划信息化服务能力。方法/过程基于全国免疫规划信息系统建设现状,设计接种档案跨省交换业务流程,采用接口方式查询和传输接种信息,并利用数据校验和安全控制等手段,确保数据准确、可靠。结果/结论通过与试点省份联调测试,验证了业务流程的可行性和系统功能的可用性。接种档案跨省共享流程涉及环节多且对各省份协同性要求高,应不断加强数据标准化和规范化管理,提高数据流转的一致性和及时性,推动全国系统实时联动、“一人一档”闭环管理。 展开更多
关键词 预防接种 档案管理 数据共享
暂未订购
基层社会网格治理异构数据字典融合优化方法研究
11
作者 王庆 杨万哲 张聪 《计算机科学》 北大核心 2025年第S1期577-583,共7页
数据字典(Data Dictionary,DD)是数据库系统设计内容的重要组成部分,是描述数据库中各数据属性、组成和结构的数据列表集合。一些通用性信息化系统开发过程中,设计开发人员经常遇到如何融合优化既有异构数据字典的问题,这些既有数据字... 数据字典(Data Dictionary,DD)是数据库系统设计内容的重要组成部分,是描述数据库中各数据属性、组成和结构的数据列表集合。一些通用性信息化系统开发过程中,设计开发人员经常遇到如何融合优化既有异构数据字典的问题,这些既有数据字典因设计时缺少行业数据标准或业务范围局限性,在数据表征定义和数据组成及结构设计上差异化明显,但其数据内涵具有高度可融合性,需要花费大量时间和资源通过人工来维护融合数据字典。文中以基层社会网格治理业务背景,针对基层社会治理推广数字化应用开发中异构数据字典融合的痛点问题,研究异构数据字典融合优化方法及相关技术;设计了考虑数据信息完备性和数据结构完整性的数据字典语义去重消岐、关键词提取、相似度计算、数据字典表结构融合方法等4个方面的数据字典融合方法和技术。基于基层社会网格治理业务相关数据字典融合优化实验验证,相较于传统的数据字典融合方法显著提升了融合效率和效果。 展开更多
关键词 数据字典 数据库设计 编辑距离 相似度计算 基层社会网格治理
在线阅读 下载PDF
高校人事档案数字化管理体系构建与优化路径研究——以浙江大学为例
12
作者 高静 《文化创新比较研究》 2025年第21期72-76,共5页
该文针对当下高校人事档案管理存在的信息化水平高低不一、数据孤岛现象十分突出及管理机制较为滞后等问题,系统地梳理了人事档案数字化管理的理论依据和现实需求,并提出以“平台一体化、流程标准化、数据智能化、安全系统化”作为核心... 该文针对当下高校人事档案管理存在的信息化水平高低不一、数据孤岛现象十分突出及管理机制较为滞后等问题,系统地梳理了人事档案数字化管理的理论依据和现实需求,并提出以“平台一体化、流程标准化、数据智能化、安全系统化”作为核心的人事档案数字化体系构建策略,结合“双一流”高校典型案例分析了实际应用成效和优化经验。研究着重指出,高校应该通过完善制度体系、建设复合型队伍、优化平台架构、深化数据治理及构建安全防控体系,系统推进人事档案数字化转型,提升管理的系统性、精准性和服务效能,为加快高校治理体系与治理能力现代化提供重要支撑和路径参考。 展开更多
关键词 高校 人事档案 数字化管理 优化路径 数据治理 智能化应用
原文传递
谱集成稀疏识别模型驱动的超鲁棒智能诊断方法 被引量:1
13
作者 孔运 黄国昱 +3 位作者 董明明 陈科 刘辉 褚福磊 《振动工程学报》 北大核心 2025年第6期1242-1251,共10页
在工业大数据与智能制造背景下,数据驱动的智能故障诊断技术已被视为保障高端装备安全可靠服役、实现装备健康管理与智能运维的关键赋能技术。针对现有智能故障诊断模型无法兼顾诊断精度优越性、强抗噪鲁棒性、高效计算效率与强超参数... 在工业大数据与智能制造背景下,数据驱动的智能故障诊断技术已被视为保障高端装备安全可靠服役、实现装备健康管理与智能运维的关键赋能技术。针对现有智能故障诊断模型无法兼顾诊断精度优越性、强抗噪鲁棒性、高效计算效率与强超参数稳健性的问题,提出一种谱集成稀疏识别模型驱动的超鲁棒智能诊断方法。所提方法设计了基于级联分割算子的振动数据增强策略,以提升振动数据样本的数量与质量;利用振动信号的频谱特征实现字典原子设计,并构建了考虑谱特征融合的谱集成字典设计策略,提升谱稀疏表示字典的重构功能;构建了基于谱稀疏近似误差最小准则的智能识别策略,实现测试样本健康状态的智能诊断。运用所提方法在行星齿轮传动系统故障数据集上开展了试验验证,结果表明,所提智能诊断方法可以实现优越的诊断精度、强抗噪鲁棒性、高效计算效率以及强超参数选择稳健性的优势集成,诊断结果优于现有方法,在数据驱动的工业设备智能故障诊断方面展现出重要应用前景。 展开更多
关键词 故障诊断 数据驱动 稀疏表示 谱集成字典
在线阅读 下载PDF
基于Rsync算法的实时同步模型优化 被引量:1
14
作者 秦金磊 孙珊珊 李整 《信息网络安全》 北大核心 2025年第3期425-437,共13页
针对远程同步Rsync算法在运行过程中校验和计算对比开销大、同步过程繁琐的问题,文章提出一种基于SipHash强校验的远程同步算法RSip_sync。首先,在计算强校验时采用SipHash算法,重构校验和计算函数并对其内部进行分割;然后,更新校验和... 针对远程同步Rsync算法在运行过程中校验和计算对比开销大、同步过程繁琐的问题,文章提出一种基于SipHash强校验的远程同步算法RSip_sync。首先,在计算强校验时采用SipHash算法,重构校验和计算函数并对其内部进行分割;然后,更新校验和验证逻辑,以适应SipHash内部分割算法,其简单的运算过程和较少的迭代轮次使得校验和计算与对比开销减少;最后,利用Inotify实时监控文件技术,实时监控指定数据备份目录中文件的更新变化,从而实现实时自动同步数据。在两组数据集上的仿真实验结果表明,相较于Rsync算法,RSip_sync计算差异数据的耗时减少了40.28%,整体的数据同步时间减少了4.91%,同步速度提升了8.86%。实验结果验证了RSip_sync算法的有效性,其采用的强校验和更适合远程同步,降低了块比较的复杂度,可以更快地进行数据同步。 展开更多
关键词 RSYNC SipHash 实时数据同步 云文件
在线阅读 下载PDF
基于ArcGIS Engine的数据文件到Shapefile转换方法及其实现 被引量:8
15
作者 李学渊 李成尊 赵博 《国土资源遥感》 CSCD 2011年第3期156-160,共5页
地理数据的多源性导致存储格式的多样性,使其难以在同一GIS平台下实现互操作与空间分析,这有碍于信息的共享。为此,以ArcGIS为基础平台,采用ArcGIS Engine组件进行集成二次开发,通过对数据文件进行访问和空间参考的定义、空间与属性信... 地理数据的多源性导致存储格式的多样性,使其难以在同一GIS平台下实现互操作与空间分析,这有碍于信息的共享。为此,以ArcGIS为基础平台,采用ArcGIS Engine组件进行集成二次开发,通过对数据文件进行访问和空间参考的定义、空间与属性信息的转换来实现Excel型数据文件至Shapefile型矢量文件的转换,以初步实现地理信息间的共享与操作,进而给出了直观的、可视化的数据管理与表达。用此方法实现了山西省宁武县煤炭资源的采矿权文件之转换,即Access→Excel→Shapefile文件。结果表明,其不仅体现出了针对初始文件的降维性、无损性以及可视性的转换表达,还可将记录信息重组(分解)为空间信息与属性信息,对于前者,矿权图层可与遥感影像叠合成图;后者(矿种、开采方式等)可与前者实现无缝链接,并可据以获取相应的开发利用现状信息,以便开展资源遥感监测。 展开更多
关键词 ARCENGINE SHAPEfile 数据文件 数据转换 空间信息 属性信息
在线阅读 下载PDF
移动设备日志结构文件系统综述
16
作者 杨梨花 董勇 +3 位作者 邬会军 谭支鹏 王芳 卢凯 《计算机研究与发展》 北大核心 2025年第1期58-74,共17页
NAND闪存(NAND flash)因为其大容量、轻便、抗震等优异特性,被广泛使用于移动设备.面向闪存特性设计的闪存友好型文件系统(flash friendly file system,F2FS)是典型的日志结构文件系统(log-structured file system,LFS),它采用日志结构... NAND闪存(NAND flash)因为其大容量、轻便、抗震等优异特性,被广泛使用于移动设备.面向闪存特性设计的闪存友好型文件系统(flash friendly file system,F2FS)是典型的日志结构文件系统(log-structured file system,LFS),它采用日志结构写机制提升了随机写性能,使用前滚恢复技术实现快速的一致性保护,经常被用作移动设备的文件系统.文件系统因碎片化和段清理问题导致性能下降,而日志结构文件系统的异地更新机制和移动应用的高并发随机同步小写模式进一步加剧了碎片化,导致I/O请求响应变慢、设备运行卡顿.首先介绍了移动设备日志结构文件系统的相关概念和内容,随后总结了日志结构文件系统碎片化和段清理问题的研究现状.一方面分析了碎片产生的原因与影响,从预防碎片产生和重整碎片2个角度总结了减少碎片的研究工作.另一方面分析了冷热数据混合对段清理的影响,从静态分类和动态分类2方面总结了冷热数据区分技术的研究现状,从管理数据分布和调整段清理时机、频率、对象2个角度总结了段清理的研究现状.最后展望了移动设备日志结构文件系统研究的主要挑战和未来研究工作. 展开更多
关键词 日志结构文件系统 移动存储 文件碎片 空闲空间碎片 段清理 冷热数据区分
在线阅读 下载PDF
MapGIS数据与Geodatabase数据格式转换关键技术研究 被引量:4
17
作者 毋丽红 汪新庆 +1 位作者 王勇 琚锋 《工程地球物理学报》 2006年第2期151-155,共5页
MapGIS软件分别用*.wt、*.wl、*.wp文件来存储点、线、面信息,其中包括空间信息和属性信息。Geodatabase是ArcGIS平台采用的新一代空间数据库技术。项目需要将MapGIS格式的文件转换到ArcGIS的Geodatabase空间数据库中。两种数据格式的... MapGIS软件分别用*.wt、*.wl、*.wp文件来存储点、线、面信息,其中包括空间信息和属性信息。Geodatabase是ArcGIS平台采用的新一代空间数据库技术。项目需要将MapGIS格式的文件转换到ArcGIS的Geodatabase空间数据库中。两种数据格式的转换过程中采用了数据字典技术和MapGIS数据在Geodatabase中的无损存取等技术,实现MapGIS数据在Geodatabase中的统一管理,提高数据的共享性。 展开更多
关键词 MAPGIS GEOdataBASE 数据字典 无损存取 转换
在线阅读 下载PDF
蒙特卡洛非负字典学习的微地震去噪方法
18
作者 曾阳 白敏 +3 位作者 马昭阳 周子翔 杨博 桂志先 《石油地球物理勘探》 北大核心 2025年第2期333-341,共9页
微地震监测是非常规油气藏勘探领域的一项重要技术,在水力压裂裂缝监测、CO_(2)封存等方面都有着广泛的应用。然而,微地震信号能量弱,容易被噪声污染,其信噪比低的特点使得在后续的处理过程中往往不能得到好的结果。因此微地震数据去噪... 微地震监测是非常规油气藏勘探领域的一项重要技术,在水力压裂裂缝监测、CO_(2)封存等方面都有着广泛的应用。然而,微地震信号能量弱,容易被噪声污染,其信噪比低的特点使得在后续的处理过程中往往不能得到好的结果。因此微地震数据去噪是一项十分重要的处理步骤,去噪效果对后续震源定位的准确性和震源机制反演结果的可靠性有关键的影响。文中提出一种蒙特卡洛非负字典学习(Monte Carlo non-negative dictionary learning,MCNDL)微地震去噪方法。蒙特卡洛分块能利用少量的时间获得包含相对较多有效信号特征的初始字典,在字典更新的过程中,利用非负性约束来保证数据变换的稀疏性,缩小解的空间,从而降低计算成本并提高去噪精度。利用合成和实际微地震数据对该方法的应用效果进行了测试,并与带通(Band-Pass,BP)滤波、FK滤波和KSVD方法进行对比,展示出该方法针对微地震数据较好的去噪效果与较高的去噪效率。 展开更多
关键词 微地震 地震去噪 非负字典学习 蒙特卡洛 高保真度
在线阅读 下载PDF
基于ECharts Library和File API的本地数据绘图技术 被引量:3
19
作者 庞聪 杜瑞林 王磊 《温州职业技术学院学报》 2016年第4期53-55,共3页
为解决web绘图每次更改图形绘制均需修改代码,且反复修改易造成代码编写错误的弊端,提出一种针对本地TXT文件,利用ECharts Library和File API简化数据处理程序的绘图技术。该绘图技术可以直接对TXT文件进行修改,简单方便,易于操作。
关键词 本地数据 绘图技术 ECharts LIBRARY file API
在线阅读 下载PDF
融合领域双语词典的泰-汉法律领域神经机器翻译方法
20
作者 李畅 高盛祥 余正涛 《厦门大学学报(自然科学版)》 北大核心 2025年第4期597-605,共9页
[目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用... [目的]对于泰-汉法律领域神经机器翻译,由于训练所需平行语料稀缺,缺乏双语词级别的有效语义监督,难以做到一些实体词以及领域术语等领域关键词的精准翻译.针对该问题,本文提出一种融合领域双语词典的神经机器翻译方法.[方法]首先利用法律领域语料库挖掘领域双语词典;然后使用基于不频繁法律领域中文词覆盖的方法筛选额外伪法律领域训练数据;在模型输入端,利用源句匹配的领域双语词典目标词构建额外提示数据;在模型结构中,引入提示浅编码器对提示进行表征,在源句编码器层中加入新的交叉注意力模块强化源句的表征,将源句表征与提示表征拼接作为最终编码器表征,在解码器端对编码器表征的交叉注意力作用下指导产生目标词序列.[结果]基于本文筛选方法混合训练的Transformer模型相比于仅用领域数据训练的模型,BLEU值提高了0.54个百分点;采用该混合训练集,融入提示信息的模型相比Transformer模型BLEU值又提升了0.90个百分点,并且相比于经典“语码转换”方法训练的模型BLEU值提升了0.61个百分点.[结论]本文数据筛选方法可在解决领域专业术语稀疏问题的同时降低通用高频词对翻译结果的干扰,提升领域翻译基线模型的性能;引入提示信息的模型能够有效地与提示进行交互,实现翻译性能的提升,并使领域关键词翻译更准确. 展开更多
关键词 法律领域 泰-汉神经机器翻译 领域双语词典 数据筛选 提示浅编码器 交叉注意力
在线阅读 下载PDF
上一页 1 2 127 下一页 到第
使用帮助 返回顶部