博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
福利!GitHub上6个超强开源机器学习库盘点
阅读量:2107 次
发布时间:2019-04-29

本文共 2455 字,大约阅读时间需要 8 分钟。

全文共2433字,预计学习时长5分钟

1. XLNet:下一代大型自然语言处理框架

传送门:https://github.com/zihangdai/xlnet

自然语言处理是目前机器学习领域最热门的话题,本文也将从这里开始。如果说刚过去的2018年是机器学习发展的关键之年,那么2019年已然超越了它。

XLNet是目前最先进的自然语言处理框架,它给自然语言处理领域,甚至整个机器学习领域带来了翻天覆地的变化。XLNet采用Transformer-XL作为其主干模型。与此同时,开发者还开源了其预训练模型,以便大众学习使用XLNet。

到目前为止,XLNet已经在20项自然语言处理任务上超过了BERT的表现,并且在18项任务上取得了当前最佳效果。下面列出了二者在阅读理解任务的几个常见衡量维度上的测试结果。

如果想了解更多,以下是文本分类任务的测试结果。

 

毫不夸张地说,XLNet的表现十分出色。

 

论文全文传送门:https://arxiv.org/abs/1906.08237

2. 在PyTorch上运行XLNet

传送门:https://github.com/graykode/xlnet-Pytorch

想知道如何在自己的设备上安装XLNet吗?别急,这个机器学习库可以给你及时的帮助。

如果你已经足够了解自然语言处理的各种特点,那么理解这个也不会太难。可是,如果是初次涉足这一领域,那最好能先花点时间通读一下上文提及的相关资料,然后再开始。

除了预训练模型,开发人员其实还在Google Colab上开源了全部的训练代码,因此大众也可以免费利用其GPU。所以,这个自然语言处理框架绝对不容错过。

开源代码传送门:https://colab.research.google.com/github/graykode/xlnet-Pytorch/blob/master/XLNet.ipynb

 

3. Google Research Football—独特的强化学习环境

传送门:https://github.com/google-research/football

 

Google Research和足球?这两者之间有什么关系呢?

 

实际上,这个机器学习库包含一个基于开源游戏Gameplay Football的强化学习环境。该强化学习环境由谷歌研究团队打造,并且仅用于科学研究。以下就是在此环境中模拟出来的部分场景:

其中,智能体被训练在一个先进的、基于物理的3D模拟环境中踢足球。过去几年里我也有见到一些强化学习环境,然而相比之下,这个的效果最好。

此篇论文十分有趣,如果你是一个足球迷或是一个强化学习的爱好者(或者两者都是),那就更不容错过。

论文传送门:https://github.com/google-research/football/blob/master/paper.pdf

4. CRAFT文本检测器

传送门:https://github.com/clovaai/CRAFT-pytorch

这一概念非常有趣。CRAFT的全称是Character Region Awareness for TextDetection,意为“用于文本检测的字符区域识别”。如果你对计算机视觉感兴趣,那么最好了解一下这项技术。仔细观察一下这些GIF图片:

你能理解这一算法是如何运行的吗?实际上,CRAFT能够通过识别图中出现的每一个字符区域来检测文本区域。而文本的边框只需通过在二值图上找出最小边界矩形即可检测出。

如果你很熟悉目标检测,理解CRAFT就容易的多。该仓库已经包含了一个预训练模型,因此无需从头编写这一算法。

更多解读传送门:https://arxiv.org/abs/1904.01941

 

5. MMAction—开源视频动作分析工具箱

传送门:https://github.com/open-mmlab/mmaction

有过处理视频数据经历的人都知道,这个过程确实非常具有挑战性,但是过后也一定会有所收获。想想我们能从视频中提取出的海量信息和能做的分析就可以理解这一点。

比如,该如何分析某个视频帧中出现的动作呢?这项工作其实可以由MMAction完成。MMAction是一个基于PyTorch的开源动作分析工具包。按照它的代码库,MMAction能执行以下任务:

· 在剪辑后的视频中进行动作识别。

· 在剪辑后的视频中进行时域动作检测(也叫做动作本地化)。

· 在剪辑后的视频中进行时空动作检测。

 

此外,MMAction的开发人员也提供了多种工具以处理不同类型的视频数据集。为方便使用,该开源库还提供了许多指导步骤。

MMAction新手指南传送门:https://github.com/open-mmlab/mmaction/blob/master/GETTING_STARTED.md

 

6. TRAINS—神奇的自动化AI实验管理器和版本控制器

传送门:https://github.com/allegroai/trains

软件工程是成为一名数据科学家最重要、也是必备的技能,然而它的重要性却常被忽视。知道如何建模确实很重要,但是,了解某个项目软件层面的东西也同样重要。

如果你之前从未听说过版本控制,请赶紧去扫一下盲。TRAINS能够“记录并管理多种深度学习研究工作,并且几乎不需要付出集成成本。”

 

虽然TRAINS的优点很多,但是最棒的还是它的免费开源,仅需两行代码即可集成TRAINS至环境中。此外,TRAINS也可以与PyTorch、TensorFlow和Keras无缝集成,并且支持Jupyter notebooks。

 

开发人员已经开放了相关Demo服务器。赶紧去TRAINS试试你的代码吧。

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

转载地址:http://xyfef.baihongyu.com/

你可能感兴趣的文章
《redis设计与实现》 第一部分:数据结构与对象 || 读书笔记
查看>>
《redis设计与实现》 第二部分(第9-11章):单机数据库的实现
查看>>
算法工程师 面经2019年5月
查看>>
搜索架构师 一面面经2019年6月
查看>>
稻草人手记
查看>>
第一次kaggle比赛 回顾篇
查看>>
leetcode 50. Pow(x, n)
查看>>
leetcode 130. Surrounded Regions
查看>>
【托业】【全真题库】TEST2-语法题
查看>>
博客文格式优化
查看>>
【托业】【新托业全真模拟】疑难语法题知识点总结(01~05)
查看>>
【SQL】group by 和order by 的区别。
查看>>
【Python】详解Python多线程Selenium跨浏览器测试
查看>>
Jmeter之参数化
查看>>
Shell 和Python的区别。
查看>>
Python 列表(list)、字典(dict)、字符串(string)常用基本操作小结
查看>>
Loadrunner之https协议录制回放报错如何解决?(九)
查看>>
python中xrange和range的异同
查看>>
列表、元组、集合、字典
查看>>
【Python】easygui小甲鱼
查看>>