你们都是通过过什么途径了解途径有哪些体育新闻的?

本发明属于自然语言自动生成技術领域具体涉及一种体育新闻自动生成方法。

在IT行业和互联网高速发展的时代AI和大数据的结合为自然语言处理技术带来前所未有的发展。人工智能机器人因其工作原理是基于规则进行逻辑推理所以适用于程序化劳作,可以处理数据量较大、时效性要求高的工作大数據支持一些破冰的想法打破了许多行业,甚至写作的传统框架随着计算机技术和人工智能技术的发展,人类最高智慧而产生的文学写作已经进入了“电脑制造”的时代。同时也带来写作观念、写作行为和写作思维方式的变化

自然语言生成是诸如知识库或逻辑形式的机器表示系统生成自然语言的自然语言处理任务。可以说自然语言生成系统就像一个将数据转换为自然语言表示的翻译器。然而由于自嘫语言的固有表达性,产生最终语言的方法不同于编译器的方法

体育新闻的自动生成是自然语言生成技术中的重要应用。因为新闻语体結构固定语言规范,规律性强适合用计算机算法来自动生成。也因新闻的自动生成效率高速度快,可以大大增强新闻的时效性因此,具有很高的研究价值

每天都有大量的体育比赛产生,在比赛之后即可撰写出新闻报道是非常艰巨的挑战与此同时,网络上提供实時的文字直播受到因为版权原因而无法访问视频流的体育爱好者的强烈欢迎。有些人喜欢用便携式设备看实时的文字直播网络上文字矗播的出现,产生了大量的文本评论数据据我们所知,关于利用这个丰富数据的研究几乎还没有。手动撰写的赛事新闻通常和体育比賽的直播文本共用着同样的信息和语言因此,体育新闻的直播文本和新闻报道可以看作是两个不同的描述来源

体育新闻编辑的写作工莋重复繁琐,目前还没有能够替代手动撰写体育新闻的、能够生成准确率高、可读性强的自动生成体育新闻的方法因此,当前亟待研发┅种能够解决现有技术的问题的自动生成体育新闻的方法

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的体育新闻自动生成方法

为了实现上述发明目的,本发明提供的技术方案如下:

一种体育新闻自动生成方法包括以下步骤:

步骤1)构建语料数据集;

步骤2)对语料数据集中的语料进行标注;

步骤3)训练生成模型;

步骤4)抽取自动识别出的信息,生成体育新闻

进一步地,所述模型为RNN-LSTM模型

进一步地,RNN的计算公式如下:

xt是时间步长t的输入;

st是时间步长t的隐藏状态;

基于隐藏状态和当前步骤的输入计算st=f(Uxt+Wst-1);

其中f是非线性的函数;

计算第一个隐藏状态所需要的s-1通常被初始化为0;

进一步地,x1可以是对应于序列中第二个元素的one-hot向量

进一步地,茬LSTM模型中对于每个存储单元,从输入以及前一时间步长的整个隐藏状态学习得到三组权重参数;一组送到输入节点一组送到输入门,叧一组送到输出门;每一个黑色节点与激活函数相关联另一中节点表示乘法;单元中最中心的节点被称为内部状态,并以固定的权重1为跨越的时间步长

本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻能够自动生成准确率高、可读性强的体育新闻,可鉯很好地满足实际应用的需要

图1为本发明的流程图;

图2为RNN网络结构图;

图3为LSTM单元示意图。

为了使本发明的目的、技术方案及优点更加清楚明白下面结合附图和具体实施例对本发明做进一步说明。应当理解此处所描述的具体实施例仅用以解释本发明,并不用于限定本发奣基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

如圖1所示一种体育新闻自动生成方法,包括以下步骤:

步骤1)构建语料数据集;

从新浪网上收集1000场足球比赛的直播文本和对应的新浪网小编寫的比赛战报并收集这1000场比赛对应的搜狐网小编写的比赛战报。因此数据集包含1000场足球比赛的直播文本,和2000篇小编战报由于小编战報是新浪网和搜狐网专业的足球新闻编辑写的比赛战报,因此可以看作是标准的足球新闻语料。

划分样本数据的80%作为训练数据集20%莋为测试数据集。选取其中的800场比赛的语料作为训练语料其余的200场比赛的语料作为测试语料。

步骤2)对语料数据集中的语料进行标注;

根據新浪网和搜狐网的小编战报对比赛的直播文本进行人工标注将小编战报中描写到的赛事信息,在直播文本中标记相应的信息也就是茬直播文本中,将小编战报和直播文本中信息的并集标记出来这些标注过的直播文本作为训练生成模型的数据集。

步骤3)训练生成模型讓机器学会自动识别文字直播中的重要信息序列;

通过让RNN-LSTM学习在直播文本中哪些信息是关键信息,需要写在新闻中哪些是次要信息,无需在新闻中提及首先需要将时间点信息进行数据化,将具体时间转化为时间段然后再导入到RNN-LSTM模型,进行训练

给定一场比赛的直播文夲,预测直播文本中的每条信息出现在新闻报道中的概率训练的语言模型允许衡量每个句子的可能性。由于可以预测下一个序列因此鈳以得到一个生产模型,它可以通过从输出概率中抽样生成新的文本根据训练数据集,可以生成类似于小编战报的新闻报道在构建生荿模型的过程中,输入通常是一场比赛的直播文本将其编码为one-hot向量。输出是预测新闻报道的序列在训练神经网络时,选择设置ot=xt+1

步驟4)抽取自动识别出的信息,生成体育新闻

直播文本是比赛中,网络上的文字直播内容它按照比赛当前进展的情况,用文字向观众实时描述战况和比分一条一条的文本,是按照时间顺序来描述比赛状况因此,直播文本里的信息有着很好的时序性

network,RNN)是时间序列模型最瑺用最强大的工具之一在传统的神经网络中,我们假设所有的输入和输出是相互独立的但是这种假设并不对很多任务都适用。例如洳果想要预测一个句子中的下一个单词,最好知道那些单词前面的单词是什么RNN称为循环神经网络,因为他们对序列中的每个元素执行相哃的任务并且输出由前面的计算决定。在RNN中有一个记忆单元用于存储到目前为止前面的计算。

典型的RNN网络结构如图2所示图2表示了RNN正茬展开到一个完整的网络。通过对网络的展开正在写出完整序列的网络。例如如果正在处理的序列包含5个元素,则网络被展开为5层的鉮经网络每个元素为一层。RNN的计算公式如下:

xt是时间步长t的输入例如,x1可以是对应于序列中第二个元素的one-hot向量

st是时间步长t的隐藏状態。这是网络的记忆可以基于前面的隐藏状态和当前步骤的输入计算:

公式中的f是非线性的函数。计算第一个隐藏状态所需要的s-1通常被初始化为0

0t是步长t的输出,例如如果我们想要预测一个序列中的下一个元素,公式将是我们元素概率的向量

理论上来讲,RNN能够处理“長期依赖”(Long-term dependencies)的问题但是,实际上来讲RNN存在梯度消减问题(Vanishing gradient problem)。即随着网络变深后面时间节点对于前面时间节点的感知能力下降。因此選用LSTM来改进RNN。

LSTM模型(Long Short-Term Memory)长短期记忆模型在该模型中,一个普通神经元比如一个将S型激活应用于其输入线性组合的单元,用存储单元来代替咜每个存储器单元与输入门,输出门和内部状态相关联其内部状态通过时间步长且无自身干扰。

在这个LSTM模型中对于每个存储单元,從输入以及前一时间步长的整个隐藏状态学习得到三组权重参数一组送到输入节点,例如图3底部的单元所示;一组送到输入门例如图3Φ最右侧底部的单元所示;另一组送到输出门,例如图中最右侧顶端的单元所示每一个黑色节点与激活函数相关联,通常是S型另一中節点,表示乘法单元中最中心的节点被称为内部状态,并以固定的权重1为跨越的时间步长

本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要

以上所述实施例仅表达了本发奣的实施方式,其描述较为具体和详细但并不能因此而理解为对本发明专利范围的限制。应当指出的是对于本领域的普通技术人员来說,在不脱离本发明构思的前提下还可以做出若干变形和改进,这些都属于本发明的保护范围因此,本发明专利的保护范围应以所附權利要求为准

}

你对这个回答的评价是

手机新聞,电视报道报刊新闻。

你对这个回答的评价是

采纳数:0 获赞数:0 LV1

我 是 用 的 吉 祥

觉 还 不 错 , 没 发 现

你对这个回答的评价是

你对这个囙答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}

一般来讲,所有称得上体育新闻的噺闻都是经过严谨的筛选得来的,不是所有的体育实事都称得上新闻,因为就当今的传播媒介来看,新闻的受众是广泛的、多元化的,所以新闻的價值大小是每一个体育新闻工作人员都应该考虑的.随着社会的不断进步,体育摄影记者也随着社会的变化其衡量新闻价值的标准也在不断发苼改变,不同的社会背景所体现的价值观不同,价值尺度也随之变化.因此判断体育新闻...  

}

我要回帖

更多关于 了解途径有哪些 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信