泡书吧

第156章 学术工具人get√(第1/3页)

《穿越:2014》转载请注明来源:泡书吧paoshu.cc

伊芙·卡莉虽然不知道林灰为什么突然这么问。

但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。

伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。

而后伊芙·卡莉才正式开始回答林灰先前问她的问题:

“引入向量后才能使得机器更方便的处理语义文本的信息。

如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。

而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点low。

比如说,基于字符串的方法,这种方法都是对原始文本进行比较。

主要包括编辑距离、最长公共子序列、n-gram相似度等来进行衡量。

就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。

这种算法界定的编辑操作包括增加、删除、替换三种。

最长公共子系列是根据……

这套衡量标准甚至有点像microsoftword格式来衡量一般。

基于字符串的方法虽然原理简单、实现方便。

但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。

涉及到同义词、多义词等问题都无法处理。

目前很少单独使用基于字符串的方法计算文本相似度。

而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。

除了这种方法之外,还有……”

林灰对于这些也是了解一些的。

他只是想通过伊芙·卡莉之口判定一下这个时空的研究到底是什么进展的。

基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。

但低端不等于没用,不能因此就说这种算法没价值。

设想一下,如果文本识别领域取得突破的话。

把界定文本相似度的判断方法和文本识别算法结合在一起的话。

反而是基于字符串判定文本相似度这种方法最为贴切。

毕竟这种基于字符串的判别方法和计算机视觉的直观逻辑形式最为接近的一种。

事实上文本识别算法在后世同样是很寻常的技术。

甚至于随便一个聊天软件的截图工具都能很好的胜任文本识别的任务。

而现在这个时空哪怕一些专门打出文本识别为噱头的软件。

实际上进行的工作只是扫描文稿转成pdf而已。

涉及到实际的文本识别效率低的一批。

林灰感觉似乎又无意间发现了一个商机。

虽然是发现了一个商机,也不适合现在去做。

毕竟涉及到文本识别这方面还是跟计算机视觉这个领域有关系的。

所谓的计算机视觉说白了就是让机器看东西。

这个算是人工智能的一个领域。

这个领域的研究是为了让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息。

根据这些信息机器采取行动或提供建议。

更多内容加载中...请稍候...

本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

新书推荐

爱吃狗香肠的小奇哥的新书最强渔夫:海岛奶爸编外的特工霸婿崛起所有人偷听我心声改变悲惨未来穿的每个世界主角都有病怎么办开局抢天赋?我刨你家祖坟爹死跟娘被拐改嫁我养大弟妹成家我刚觉醒系统,她爸让我滚远点?穿越七零,我带着养子跑路了凡人的平凡一生渣夫处处护寡嫂,我靠兽语成国宠!浮萍官场小白到主政一方凡人寻长生:科学修仙录我比神明还老梦想成真却是1958重生93:拎着麻袋去捡漏臭弟弟,下山来祸害你师姐啊重生做股神修真大能在校园透视医武在身的外卖骑手重生入官场,草根变凤凰国运求生:娇弱的我靠幸运值带飞绝世神龙离婚协议撕三次,带崽二婚他哭崩了说好演反派,你怎么假戏真做了?七零不做冤大头,下乡赶山娶村花假千金出狱后全家都被逼疯了穿越六零:丈夫带我进城了妻子不愿意给我生孩子却给情人生不当舔狗后,她哭着跪求我回来全球资本家:从大学开始当首富转世到香港之我是明星萌宝大佬不好惹,打着奶嗝躺赢了得到修真空间后:人参灵果摘不完视频通万界:开局猴哥上榜神级傻婿NPC救命我只想躺平踏准风口成巨富