期刊文献+
共找到154篇文章
< 1 2 8 >
每页显示 20 50 100
A Method of Integrating Length Constraints into Encoder-Decoder Transformer for Abstractive Text Summarization
1
作者 Ngoc-Khuong Nguyen Dac-Nhuong Le +1 位作者 Viet-Ha Nguyen Anh-Cuong Le 《Intelligent Automation & Soft Computing》 2023年第10期1-18,共18页
Text summarization aims to generate a concise version of the original text.The longer the summary text is,themore detailed it will be fromthe original text,and this depends on the intended use.Therefore,the problem of... Text summarization aims to generate a concise version of the original text.The longer the summary text is,themore detailed it will be fromthe original text,and this depends on the intended use.Therefore,the problem of generating summary texts with desired lengths is a vital task to put the research into practice.To solve this problem,in this paper,we propose a new method to integrate the desired length of the summarized text into the encoder-decoder model for the abstractive text summarization problem.This length parameter is integrated into the encoding phase at each self-attention step and the decoding process by preserving the remaining length for calculating headattention in the generation process and using it as length embeddings added to theword embeddings.We conducted experiments for the proposed model on the two data sets,Cable News Network(CNN)Daily and NEWSROOM,with different desired output lengths.The obtained results show the proposed model’s effectiveness compared with related studies. 展开更多
关键词 Length controllable abstractive text summarization length embedding
在线阅读 下载PDF
基于BBCM-TextRank的文本摘要提取算法研究 被引量:5
2
作者 井钰 王名扬 周文远 《东北师大学报(自然科学版)》 CAS 北大核心 2022年第3期67-75,共9页
针对TextRank算法计算句子权重仅依赖文本间相似度和生成摘要存在较大冗余的问题,提出一种改进的文本摘要提取算法BBCM-TextRank(BERT-BiLSTM-CRF-TextRank-MMR).利用Word2Vec模型对文本句子进行向量表示,采用TextRank算法计算句子的权... 针对TextRank算法计算句子权重仅依赖文本间相似度和生成摘要存在较大冗余的问题,提出一种改进的文本摘要提取算法BBCM-TextRank(BERT-BiLSTM-CRF-TextRank-MMR).利用Word2Vec模型对文本句子进行向量表示,采用TextRank算法计算句子的权重.基于BERT-BiLSTM-CRF模型,识别出文本中的重要实体并据此进一步优化句子权重.引入MMR算法降低摘要的冗余,提升摘要语句的多样性,最终获得更为准确和全面的文本摘要.在LCSTS数据集上的实验结果表明,本文提出的BBCM-TextRank算法能有效提取文本语句中的实体特征,获得较为合适的句子权重,同时可以有效消除候选摘要中的冗余句子,从而获得重要性和多样性兼备的文本摘要. 展开更多
关键词 文本摘要 命名实体识别 BERT-BiLSTM-CRF textRank
在线阅读 下载PDF
An IMRD-based Contrastive Study of Move in Aquatic Biology Article Abstracts by Native English Speakers and Chinese Authors
3
作者 王儒钰 《海外英语》 2019年第24期111-112,共2页
Although contrastive move analysis of article abstracts has been a highlight,few studies focus on abstracts of natural sci⁃ence articles.To compensate for this gap,this study,based on IMRD model,focuses on aquatic bio... Although contrastive move analysis of article abstracts has been a highlight,few studies focus on abstracts of natural sci⁃ence articles.To compensate for this gap,this study,based on IMRD model,focuses on aquatic biology abstracts and contrasts those by native English speakers and those by Chinese authors.Combining quantitative and qualitative studies,it reveals their dif⁃ferences and similarities in terms of the frequency of different moves,sentence length and move length significance.Such similari⁃ties and differences can be explained by the face culture of China,the different language proficiency and the common convention of academic abstract. 展开更多
关键词 MOVE IMRD model abstract GENRE academic text
在线阅读 下载PDF
《山海经》神话图像的具象抽象与数字人文重构
4
作者 张勤 岳怡欣 杨潼潼 《复旦学报(社会科学版)》 北大核心 2025年第4期68-81,共14页
本文以《山海经》的“具象抽象”语言策略与“语象综合体”文本特征为核心,探讨神话文本如何通过语言符号系统建构动态的视觉认知场域,并揭示其在数字时代的神话图像重构意义。文中以“相柳”“西王母”为例,解析了神话形象从文本描述... 本文以《山海经》的“具象抽象”语言策略与“语象综合体”文本特征为核心,探讨神话文本如何通过语言符号系统建构动态的视觉认知场域,并揭示其在数字时代的神话图像重构意义。文中以“相柳”“西王母”为例,解析了神话形象从文本描述到历代图像演变的符号转化逻辑,指出《山海经》具象抽象的语言策略既承载原始思维的象征意义,语象综合体的文本特征在塑造神话形象的同时,也能将自然崇拜、天神崇拜等抽象主题编码为具象化符号。论文结合AI图像生成技术,提出“文化语义网络转化机制”框架,强调在数字神话图像创作中需突破表层符号匹配,深入捕捉语言背后的文化语义场。本研究不仅深化了对《山海经》神话叙事的理论阐释,更为跨媒介转化与文化遗产数字化再生提供了方法论支持。 展开更多
关键词 《山海经》 具象抽象 语象综合体 跨模态
原文传递
语言模型辅助的英语科技论文摘要语步语料库构建研究
5
作者 李洪政 王若锦 +1 位作者 刘芳 冯冲 《外语学刊》 北大核心 2025年第1期29-38,共10页
语步结构是学术论文中的文本语篇单位,在学术用途英语等方面具有重要价值。尽管关于学术论文的语步研究非常丰富,但语步标注数据资源仍然相对较少。本研究借助自然语言处理领域的语言模型构建了涵盖多个学科领域的英语科技论文摘要语步... 语步结构是学术论文中的文本语篇单位,在学术用途英语等方面具有重要价值。尽管关于学术论文的语步研究非常丰富,但语步标注数据资源仍然相对较少。本研究借助自然语言处理领域的语言模型构建了涵盖多个学科领域的英语科技论文摘要语步标注语料库,包括近3.4万个语步结构。语料库构建的第一阶段依靠专家标注形成高质量语料,在第二阶段也是主要阶段,采用基于BERT架构的自动标注模型,在保证标注质量的同时能够快速提升标注速度、扩大标注规模。本研究随后开展了摘要语步自动标注识别实验,对比自动标注模型与大语言模型ChatGPT和Claude3识别不同学科领域的语步结构的效果,验证了模型和语料库的价值。该研究能为科技论文写作智能批改等自然语言处理任务以及学术用途英语等外语教学与研究等提供必要的数据资源,也验证了大语言模型辅助构建语言资源的可能性,体现了语言智能驱动的智慧外语教育的重要性,能有效推动外语教育数字化转型。 展开更多
关键词 语步结构 语料库 摘要文本 大语言模型
原文传递
科技文献篇章分析在文本摘要中的计算机应用
6
作者 孙璧凡 辜丽川 《淮南师范学院学报》 2025年第2期131-135,共5页
文本摘要通常用于提炼大量文本的核心内容,但针对科技文献而非通用文本的专用摘要模型较少。文章提出一种面向科技文献中篇章结构的生成式文本摘要模型RTsum(Rhetorical Topic summarization model),其结合了语步结构分类模块,以科技文... 文本摘要通常用于提炼大量文本的核心内容,但针对科技文献而非通用文本的专用摘要模型较少。文章提出一种面向科技文献中篇章结构的生成式文本摘要模型RTsum(Rhetorical Topic summarization model),其结合了语步结构分类模块,以科技文献的篇章结构信息引导深度学习中的神经主题模型,来获取更具有事实一致性的全局语义,从而形成高质量的文本摘要。具体来说,RTsum首先根据文章篇章信息对原始文档句子进行分类,再融合层次化的Transformer编码器(Hierarchical transformer encoder)和神经主题模(Neural topic model),不仅可以将文本的全局语义与语步结构信息相结合,还可以减少次优主题句的冗余,并通过语步分类优化的主题分布融入生成式摘要,增强科学文献摘要的质量。实验结果表明,在CORD-19和XSUM数据集上,RTsum模型生成的摘要准确率和事实一致性的相关指标分别取得最高7.68%和9.09%的提升,提升了科技文献生成式文本摘要的事实性和准确性。 展开更多
关键词 生成式文本摘要 领域文本分析 深度学习 语步分类 自然语言处理
在线阅读 下载PDF
大语言模型生成与学者撰写摘要的对比研究——以情报学领域为例 被引量:1
7
作者 王伟正 乔鸿 +2 位作者 李肖俊 王静静 陈晗睿 《情报杂志》 北大核心 2025年第8期180-189,共10页
[研究目的]探索大语言模型生成与学者撰写的论文摘要之间的差异,为人机交互写作提供新的研究视角,为辅助AI生成学术文本检测提供借鉴与参考。[研究方法]收集情报学领域近三年内的992篇高被引论文,基于收集论文的标题使用ChatGPT生成对... [研究目的]探索大语言模型生成与学者撰写的论文摘要之间的差异,为人机交互写作提供新的研究视角,为辅助AI生成学术文本检测提供借鉴与参考。[研究方法]收集情报学领域近三年内的992篇高被引论文,基于收集论文的标题使用ChatGPT生成对应的论文摘要,共同组成研究数据集,将大语言模型生成与学者撰写摘要进行对比分析,探索两类摘要在词汇、语篇、主题的异同;采用文本特征、ROUGE、Jaccard和余弦相似度来分析两类文本内容方面的差异性,采用BERTopic主题模型进行主题提取,并从主题间关系、主题与主题词关系2个角度进行主题差异性分析。[研究结果/结论]研究表明,学者撰写摘要停用词占比更低、复杂程度较高,可读性也较差。大语言模型生成摘要的ROUGE指标分数均较低,其Jaccard和余弦相似度分别为14.66%与38.66%,表明两类摘要文本词汇层面的重合度较低,同时生成摘要与学者撰写摘要之间主要存在“形似”现象,但是重合单元数目较少;两类摘要文本在主题间存在空间分布、语义相似度差异和层次结构划分相似等特征,在主题与主题间存在语义表征差异与主题内容、次序结构相似等特征。 展开更多
关键词 大语言模型 生成式人工智能 文本特征 论文摘要 情报学 BERTopic
在线阅读 下载PDF
基于动态专利嵌入表示的AI产业技术融合预测研究
8
作者 张晓黎 匡衡 《数据分析与知识发现》 北大核心 2025年第3期96-105,共10页
【目的】提出文本嵌入动态图神经网络的链路预测方法,旨在对人工智能领域技术创新的融合趋势进行建模与预测,揭示潜在的技术关联和创新路径。【方法】将专利摘要文本融入动态图神经网络的节点特征表示中,借助动态图神经网络的学习能力... 【目的】提出文本嵌入动态图神经网络的链路预测方法,旨在对人工智能领域技术创新的融合趋势进行建模与预测,揭示潜在的技术关联和创新路径。【方法】将专利摘要文本融入动态图神经网络的节点特征表示中,借助动态图神经网络的学习能力得到更准确的链路预测结果。【结果】以国内AI领域为例进行验证,相较于相似度模型和传统图表示学习模型,本文方法的AUC提升约0.06。【局限】由于嵌入维度过大,难以与图神经网络融合,专利摘要文本嵌入时未使用大语言模型。【结论】该方法预测准确度高,增强了对未来AI领域专利融合预测的可信度,是开展细粒度链路预测的一种有效方法。 展开更多
关键词 细粒度链路预测 技术融合 专利摘要 文本嵌入 动态图神经网络
原文传递
基于深度学习的自动文本摘要研究综述 被引量:1
9
作者 其其日力格 斯琴图 王斯日古楞 《计算机工程与应用》 北大核心 2025年第18期24-40,共17页
自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神... 自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神经网络、预训练语言模型、序列到序列模型和强化学习等技术在自动文本摘要中的应用,并分析了各类模型的优缺点;介绍了自动文本摘要领域常用的公开数据集、国内低资源语言数据集及评价指标。通过多维度实验对比分析总结了现有技术面临的问题,提出了相应的改进方案。最后,探讨了自动文本摘要的未来研究方向,为后续研究提供参考。 展开更多
关键词 自动文本摘要 深度学习 生成式摘要 抽取式摘要 自然语言处理
在线阅读 下载PDF
基于A-GCN网络和知识图谱技术的问答系统研究与实现
10
作者 赵妍 张晶 苏红梅 《自动化与仪器仪表》 2025年第8期138-142,共5页
针对传统教学系统在交互过程中存在问答质量和问答效率低的问题,提出一种基于A-GCN网络和知识图谱技术相结合的问答交互生成方法。首先,采用A-GCN网络+微调T5-Pegasus模型对交互中的问题摘要文本进行生成;然后结合知识图谱生成答案;最... 针对传统教学系统在交互过程中存在问答质量和问答效率低的问题,提出一种基于A-GCN网络和知识图谱技术相结合的问答交互生成方法。首先,采用A-GCN网络+微调T5-Pegasus模型对交互中的问题摘要文本进行生成;然后结合知识图谱生成答案;最后对两种生成方法进行验证,并将其部署在教学系统中进行测试应用。实验结果表明,本摘要生成方法的ROUGE-N、ROUGE-L和BLEU指标分别为94.44、92.81和60.35,比传统的PGN方法和Seq2Seq方法的摘要生成质量更好。对比于讯火星火认知大模型,基于知识图谱的答案生成方法生成答案更接近参考答案。通过这两种方法可提升系统问答交互效果。由此证明,本方法可在教学系统的问句摘要和答案生成任务中进行实际应用。 展开更多
关键词 A-GCN网络 教学系统 摘要文本 答案生成 知识图谱
原文传递
文本挖掘技术研究进展 被引量:60
11
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
英语科技论文摘要的写作范式研究 被引量:26
12
作者 余莉 梁永刚 《外语教学》 CSSCI 北大核心 2006年第1期34-37,共4页
写作向来是中国学生英语学习的瓶颈,英语科技论文写作是英语写作的高级阶段,而摘要又是论文不可或缺的有机组成部分。本文运用语言学的相关理论,通过对20篇英语摘要进行实证分析,对英语科技论文摘要的内容成分及语言范式提出假设并从理... 写作向来是中国学生英语学习的瓶颈,英语科技论文写作是英语写作的高级阶段,而摘要又是论文不可或缺的有机组成部分。本文运用语言学的相关理论,通过对20篇英语摘要进行实证分析,对英语科技论文摘要的内容成分及语言范式提出假设并从理论与实际两个方面进行论证,希望对科技论文摘要的写作提供比较切实可行的帮助,同时对英语科技论文写作教学提供一定的借鉴。 展开更多
关键词 科技论文 摘要 语篇 写作范式
在线阅读 下载PDF
基于文本聚类的自动文摘系统的研究与实现 被引量:8
13
作者 郭庆琳 樊孝忠 柳长安 《计算机工程》 EI CAS CSCD 北大核心 2006年第4期30-32,121,共4页
针对当前自动文摘方法的不足,提出了基于文本聚类和自然语言理解的自动文摘实现方法。可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高。将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文... 针对当前自动文摘方法的不足,提出了基于文本聚类和自然语言理解的自动文摘实现方法。可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高。将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的。实现了面向“塑料”行业的基于文本聚类和自然语言理解的自动文摘系统TCAAS。 展开更多
关键词 自动文摘 文本聚类 自然语言理解
在线阅读 下载PDF
学术文本词汇功能识别--基于标题生成策略和注意力机制的问题方法抽取 被引量:24
14
作者 程齐凯 李鹏程 +1 位作者 张国标 陆伟 《情报学报》 CSSCI CSCD 北大核心 2021年第1期43-52,共10页
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功... 学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。 展开更多
关键词 词汇功能识别 深度学习 自动文摘 学术文本
在线阅读 下载PDF
中文文本分类中的特征选择研究 被引量:30
15
作者 寇苏玲 蔡庆生 《计算机仿真》 CSCD 2007年第3期289-291,共3页
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好。考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了... 有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好。考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,X^2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高。 展开更多
关键词 特征选择 特征提取 文本分类
在线阅读 下载PDF
文本聚类在自动文摘中的应用研究 被引量:4
16
作者 郭庆琳 樊孝忠 柳长安 《计算机应用》 CSCD 北大核心 2005年第5期1036-1038,共3页
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法。将文本聚类引入自动文摘中,能实现多文档的自动文摘。实现了面向“塑料”行业的基于文本聚类的自动文摘系统TCAAS,其单文档自动文摘的正确率和召回率在80%以上,多文... 针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法。将文本聚类引入自动文摘中,能实现多文档的自动文摘。实现了面向“塑料”行业的基于文本聚类的自动文摘系统TCAAS,其单文档自动文摘的正确率和召回率在80%以上,多文档自动文摘的正确率和召回率在75%以上。实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究的价值。 展开更多
关键词 自动文摘 文本聚类 多文档
在线阅读 下载PDF
Web文本信息的特征获取算法 被引量:27
17
作者 刘明吉 王秀峰 +1 位作者 饶一梅 黄亚楼 《小型微型计算机系统》 CSCD 北大核心 2002年第6期683-686,共4页
Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文... Internet的发展为人们提供了大量的信息资源 ,Web文本挖掘是从非结构化的文本中发现潜在的、有价值知识的一种有效技术 .本文以矢量空间模型为 Web文本的表示方法 ,提出了一个基于遗传算法的 Web文本特征抽取算法 ,进一步提高了 Web文本的处理效率 ,为文本的分类、聚类以及其它处理提供了简练的特征表示方法 .实验证明 ,该种处理方法有效地降低了文本特征矢量的维数 . 展开更多
关键词 WEB 文本信息 特征获取算法 遗传算法 INTERNET WWW
在线阅读 下载PDF
基于篇章多级依存结构的自动文摘研究 被引量:7
18
作者 刘挺 王开铸 《计算机研究与发展》 EI CSCD 北大核心 1999年第4期479-488,共10页
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从而提高信息检索、传播的效率.文中提出了一种基于篇章多级... 自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从而提高信息检索、传播的效率.文中提出了一种基于篇章多级依存结构的自动文摘方法,这种方法既克服了机械文摘的表层性,又克服了理解文摘的领域局限性.文中给出了篇章多级依存结构的形式化描述,证明了篇章多级依存结构具有非常适合于自动文摘的优点,给出了如何识别、化简篇章结构,如何从压缩了的篇章结构中生成摘要的方法.实验结果达到了预期的效果,验证了该方法的可行性。 展开更多
关键词 自然语言处理 自动文摘 篇章结构 计算机
在线阅读 下载PDF
文本主题的自动提取方法研究与实现 被引量:6
19
作者 张其文 李明 《计算机工程与设计》 CSCD 北大核心 2006年第15期2744-2746,2766,共4页
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分... 在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。 展开更多
关键词 文本主题 自动文摘 文本分段 文本聚类 向量空间模型 文本模型
在线阅读 下载PDF
中文生物医学文本无词典分词方法研究 被引量:4
20
作者 王军辉 胡铁军 +2 位作者 李丹亚 钱庆 方安 《情报学报》 CSSCI 北大核心 2011年第2期197-203,共7页
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取... 为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进.实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%.最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异.研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值. 展开更多
关键词 无词典分词 结构式摘要 生物医学文本
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部