大数据算法

欢迎光临 x-algo
关注算法在工业界应用
Hi, 这是一个关注大数据算法在工业界应用的网站

最新发布 第2页

强化学习

强化学习(6)-时序差分

leihao阅读(186)评论(0)

如果可以用一个方法来「代表」强化学习的核心思想,可以毫无疑问的肯定,就是:时序差分(temporal-difference (TD);具体的,时序差分 = 蒙特卡洛 + 动态规划。 TD Prediction 关键步骤在: \(V(s) \...

NLP

半监督CRF

leihao阅读(2247)评论(1)

论文点击此处 分词的任务中,得到标注的语料是非常昂贵的;在互联网的上,有很多方式可以获得一个句子中部分,例如wiki中的书名号和超链接.中文分词可以看做一个序列标注的任务. 原理 图片来源:此处 原理其实很简单,就是修改一下目标函数,对不知...

NLP

Scalable Topical Phrase Mining from Text Corpora 原理介绍

leihao阅读(2404)评论(0)

原文地址:请戳我 传统的主题模型中,都是在词的粒度进行建模,一个词会有多个主题(例如LDA)。其实在给定的语境之下,一个词的主题基本是确定的。对于一个phrase,可以认为其内部的word的主题是相同的。和传统的LDA相比,就是对哪些词属于...

NLP

Phrase Clustering for Discriminative Learning 原理介绍

leihao阅读(1652)评论(0)

很有启发性的论文,论文的内容和现在很多方法的思想惊人的相似,文章发表时间是2009年,四年之后word2vec模型被提出。本文提出通过上下文信息对phrase进行聚类后作为有监督的任务的特征,很好的提升了模型的性能。论文链接戳我。 Phra...

模型

Generative Adversarial Nets 原理

leihao阅读(2335)评论(0)

第一篇,入坑GAN~ 前置知识 一个论文比较重要的前置知识,就是对「如何表示一个分布」的理解,对于一个离散的分布来说,我们通常的表示方法是这样,P(A)=0.1,P(B)=0.2,P(C)=0.7; 但是还有另外一种方法,在LDA( lat...

语音识别

CTC原理

leihao阅读(6201)评论(0)

不搞语音识别得人开这个论文确实有点费劲,结合上图,思考一下语音识别的场景,输入是一段录音,输出是识别的音素, 输入的语音文件的长度和输出的音素个数之间没有一一对应关系,通常将语音文件「分片」之后,会出现多对一的关系。这个场景在「翻译问题」和...

语音识别

语音识别解码器(2)—WFST基本操作

chendajun阅读(3425)评论(0)

上篇简单介绍了FSA、FST、WFSA、WFST、半环的概念和区别,本篇将介绍WFST的基本操作和转移器的合并。 闭包、并联、串联 自动机理论中包含3个基本操作:Kleene闭包、并联、串联,对于给定的两个WFST为 \(T_{A}\) 见...

CNN

CTPN原理

leihao阅读(6450)评论(0)

文章思路很不错,利用了文字作为object本身的提点,设计固定宽度的anchor,减少学习的空间。 网络结构 查看大图 特点 不是在字的级别,最终输出是在行的级别 对每一行,每一个feature map位置,固定需要回归的框的宽度为16像素...

关注大数据算法在工业界应用

本站的GitHub关于本站