自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

deephub

关注同名微信公众号,获取更多AI干货

原创 机器学习中处理缺失值的9种方法

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因。我们可以使用许多...

2020-10-31 11:01:04 2637 0

原创 使用PolyGen和PyTorch生成3D模型

介绍 深度学习研究的一个新兴领域是致力于将DL技术应用于3D几何和计算机图形应用程序, 对于希望自己尝试3D深度学习的PyTorch用户而言,一个叫Kaolin 库值得研究。 对于TensorFlow用户,还有TensorFlow Graphics库。 3D技术中一个特别热门的子领域是3D模型的生...

2020-10-30 09:12:51 2613 0

原创 时域卷积网络TCN详解:使用卷积进行序列建模和预测

CNN经过一些简单的调整就可以成为序列建模和预测的强大工具 尽管卷积神经网络(CNNs)通常与图像分类任务相关,但经过适当的修改,它已被证明是进行序列建模和预测的有价值的工具。在本文中,我们将详细探讨时域卷积网络(TCN)所包含的基本构建块,以及它们如何结合在一起创建一个强大的预测模型。使用我们...

2020-10-29 09:43:10 5150 3

原创 使用PandasGUI进行探索性数据分析

Pandasgui是一个开源的python模块,它为pandas创建了一个GUI界面,我们可以在其中使用pandas的功能分析数据和使用不同的功能,以便可视化和分析数据,并执行探索性数据分析。 探索性数据分析是最关键的部分,无论何时我们使用数据集时都要首先进行分析。它允许我们分析数据,探索数据的初...

2020-10-28 09:05:04 3396 0

原创 MCMC、蒙特卡洛近似和Metropolis算法简介

MCMC 是Markov Chain Monte Carlo 的简称,但在传统模拟中有一个很重要的假设是样本是独立的(independent samples),这一点在贝叶斯统计尤其是高纬度的模型中很难做到。所以MCMC的目的就是运用蒙特卡洛模拟出一个马可链(Markov chain)。 如今,...

2020-10-27 08:56:40 4219 3

原创 使用WebAssembly提高模型部署的速度和可移植性

在最近几个月中,我们已经帮助许多公司在各种环境中部署其AI / ML模型。 我们为医疗行业的模型部署做出了贡献,在过去的几个月中,我们已经帮助多家公司将经过训练的模型转移到不同类型的IoT设备上。 特别是在IoT设备情况下,要求通常很严格:计算周期数和可用内存通常都受到限制。 在本文中,我阐明了如...

2020-10-26 08:42:46 2589 0

原创 在python中使用KNN算法处理缺失的数据

在python中使用KNN算法处理缺失的数据 处理缺失的数据并不是一件容易的事。 方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。 解决问题的挑战性是选择使用哪种方法。 今天,我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。 KNN代表“ K最近邻居”,这是...

2020-10-25 10:44:40 2696 0

原创 NLP任务中的文本预处理步骤、工具和示例

数据是新的石油,文本是我们需要更深入钻探的油井。文本数据无处不在,在实际使用之前,我们必须对其进行预处理,以使其适合我们的需求。对于数据也是如此,我们必须清理和预处理数据以符合我们的目的。这篇文章将包括一些简单的方法来清洗和预处理文本数据以进行文本分析任务。 我们将在Covid-19 Twitte...

2020-10-24 09:21:39 2687 0

原创 在TPU上运行PyTorch的技巧总结

TPU芯片介绍 Google定制的打机器学习专用晶片称之为TPU(Tensor Processing Unit),Google在其自家称,由于TPU专为机器学习所运行,得以较传统CPU、 GPU降低精度,在计算所需的电晶体数量上,自然可以减少,也因此,可从电晶体中挤出更多效能,每秒执行更复杂、强大...

2020-10-23 08:53:19 2774 0

原创 使用深度学习的方法进行人脸解锁

今天,我们将使用深度学习来创建面部解锁算法。 要完成我们的任务需要三个主要部分。 查找人脸的算法 一种将人脸嵌入向量空间的方法 比较已编码人脸的函数 人脸面孔查找和定位 首先,我们需要一种在图像中查找人脸的方法。 我们可以使用一种称为MTCNN(多任务级联卷积网络)的端到端方法。 只是一点技术...

2020-10-22 08:50:56 2624 0

原创 二分查找会更快吗?Python中的二分查找与线性查找性能测试

当您要检查某个元素是否在列表中时,有很多方法可以解决相同的问题。可以通过线性查找和二分查找来完成,但是要猜测哪个更快。 为什么? 如果你最近参加过面试,你就会知道二分查找是面试官的最爱。 您为什么要花时间学习二分查找? C ++编程朋友可能已经告诉过您。 Python很慢。 您想确保自己的程序不会...

2020-10-21 08:58:20 2646 0

原创 十分钟了解Transformers的基本概念

RNN已死,注意力万岁? 多年来,我们一直在使用RNN,LSTM和GRU解决顺序问题,您突然希望我们将其全部丢弃吗? 嗯,是!! 所有这三种架构的最大问题是它们进行顺序处理。 而且它们也不擅长处理长期依赖关系(即使使用LSTM和GRU的网络)。 Transformers 提供了一种可并行处理顺序数...

2020-10-20 08:46:27 2855 0

原创 使用pandas分析1976年至2010年的美国大选

使用pandas分析1976年至2010年的美国大选 我最近在Kaggle上看到了美国大选的数据集。既然我们正在热烈讨论2020年的大选,我想分析一下之前的美国总统大选是个好主意。 数据集包含了从1976年到2020年的选举。我会从不同的角度来处理这些数据,试图了解人们是如何投票的。 我将使用p...

2020-10-19 09:02:08 2615 0

原创 基于神经网络的风格迁移目标损失解析

今天我想谈谈神经类型的转移和卷积神经网络。已有相当多的文章和教程可供使用。有时内容只是复制,有些则提供了一种新颖的实现。它们的共同之处在于对细节的快速钻研。在我看来太具体了。不仅如此,通常还有一些实现细节,这使得将重点放在整体的主要概念上变得更加困难。 这篇文章可以看作是对其他文章的概述和理解,以...

2020-10-18 09:45:32 3064 1

原创 理解强化学习

强化学习指的是专注于学习如何与环境交互的算法的机器学习。这种算法的一个例子叫做Q-learning。尽管它更接近于蛮力方法,Q-learning可能是最流行的强化学习方法。在我们开始学习Q-learning之前,让我们先讨论一下为什么我们不使用非监督或监督学习方法。 在一个监督学习方法中,你给算...

2020-10-17 09:05:59 4294 1

原创 梯度直方图(HOG)用于图像多分类和图像推荐

介绍 ​ 机器学习的神奇之处在于,我们对原理的概念和思路理解得越多,它就变得越容易。在本文中,我们将研究在图像分类和图像推荐中使用定向梯度直方图的方法。 数据集 来源:Kaggle Fashion图像分类数据集(Small) https://www.kaggle.com/paramaggarw...

2020-10-16 08:29:42 2636 0

原创 对比PyTorch和TensorFlow的自动差异和动态子类化模型

使用自定义模型类从头开始训练线性回归,比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法, 这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型,以及这些框架在训练循环中如何使用Aut...

2020-10-15 09:24:11 2612 0

原创 使用CatBoost和NODE建模表格数据对比测试

来自俄罗斯在线搜索公司Yandex的CatBoost快速且易于使用,但同一家公司的研究人员最近发布了一种基于神经网络的新软件包NODE,声称其性能优于CatBoost和所有其他梯度增强方法。 这是真的吗? 让我们找出如何同时使用CatBoost和NODE! 该文章适用于谁? 尽管我是为那些对机器学...

2020-10-14 09:10:33 2680 0

原创 Google的神经网络表格处理模型TabNet介绍

Google Research的TabNet于2019年发布,在预印稿中被宣称优于表格数据的现有方法。 它是如何工作的,又如何可以尝试呢? 表格数据可能构成当今大多数业务数据。 考虑诸如零售交易,点击流数据,工厂中的温度和压力传感器,银行使用的KYC (Know Your Customer) 信...

2020-10-13 08:58:12 2770 0

原创 Transformer的潜在竞争对手QRNN论文解读,训练更快的RNN

Transformer的潜在竞争对手QRNN论文解读,训练更快的RNN 使用递归神经网络(RNN)序列建模业务已有很长时间了。 但是RNN很慢因为他们一次处理一个令牌无法并行化处理。 此外,循环体系结构增加了完整序列的固定长度编码向量的限制。 为了克服这些问题,诸如CNN-LSTM,Transfo...

2020-10-12 09:20:50 3840 0

原创 在图上发送消息的神经网络MPNN简介和代码实现

欢迎来到图神经网络的世界,在这里我们在图上构建深度学习模型。你可以认为这很简单。毕竟,我们难道不能重用使用正常数据的模型吗? 其实不是。在图中所有的数据点(节点)是相互连接的。这意味着数据不再是独立的,这使得大多数标准的机器学习模型毫无用处,因为它们的推导都强烈地基于这个假设。为了克服这个问题,...

2020-10-11 09:40:47 5910 4

原创 使用CatBoost进行不确定度估算:模型为何不确定以及如何估计不确定性水平

本教程涵盖以下主题: 什么是预测不确定性,为什么您要关心它? 不确定性的两个来源是什么? 如何使用CatBoost梯度提升库估算回归问题的不确定性 什么是不确定性? 机器学习已广泛应用于一系列任务。但是,在某些高风险应用中,例如自动驾驶,医疗诊断和财务预测,错误可能导致致命的后果或重大的财务损...

2020-10-10 08:37:10 5176 3

原创 如何在算法比赛中获得出色的表现 :改善模型的5个重要技巧

如果你最近才开始使用Kaggle,或者你是这个平台的老用户,你可能想知道如何轻松地提高你的模型的性能。以下是我在Kaggle之旅中积累的一些实用技巧。建立自己的模型或只是从一个基线公共内核,并尝试实施这些建议! 回顾过去的比赛 虽然Kaggle的政策是永远不会出现两次相同的比赛,但经常会有非常相...

2020-10-09 08:35:57 5027 3

原创 孪生网络:使用双头神经网络进行元学习

深度神经网络有一个大问题-他们一直渴望数据。 当数据太少时(无法到达算法可以接受的数量)深度神经网络很难推广。 这种现象突出了人类和机器认知之间的差距。 人们可以通过很少的训练示例来学习复杂的模式(尽管速度较慢)。 需要像我们这样思考的机器 自我监督学习的研究正在发展,以开发完全不需要标签的结构...

2020-10-08 09:06:17 4512 3

原创 如何在图数据库中训练图卷积网络模型

在图数据库中训练GCN模型,可以利用图数据库的分布式计算框架现实应用中大型图的可扩展解决方案 什么是图卷积网络? 典型的前馈神经网络将每个数据点的特征作为输入并输出预测。利用训练数据集中每个数据点的特征和标签来训练神经网络。这种框架已被证明在多种应用中非常有效,例如面部识别,手写识别,对象检测,在...

2020-10-07 10:07:56 7514 6

原创 单变量和多变量高斯分布:可视化理解

详细介绍高斯分布及其与均值、标准差、方差的关系 ​ 高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。 ​ 我相信,你听说过这个词,在某种程度上也知道它。如果没有,也不要担心...

2020-10-06 08:11:15 4946 4

原创 14个Seaborn数据可视化图

调查数据并从中提取信息和趋势的工具。 绿色代表新的开始和成长,也意味着更新和丰富。 ​ 数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。 ​ 没有规划的情况下,资源也无法转化为有价值的商品。因此,我希望本文...

2020-10-05 08:02:37 2954 0

原创 Actor-Critic:强化学习中的参与者-评价者算法简介

Actor-Critic从名字上看包括两部分,参与者(Actor)和评价者(Critic)。其中Actor使用策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。 基于策略和基于价值的RL算法 在...

2020-10-04 09:58:25 4868 3

原创 Pandas的列表值处理技巧,避免过多循环加快处理速度

这里有一些技巧可以避免过多的循环,从而获得更好的结果 图1 -标题图像。 ​ 您曾经处理过需要使用列表的数据集吗?如果有,你就会明白这有多痛苦。如果没有,你最好做好准备。 ​ 如果你仔细看,你会发现列表无处不在!下面是一些实际问题,您可能会遇到列表。 音频或视频标签 调查数据中的开放式问题...

2020-10-03 09:25:13 3000 0

原创 使用图进行特征提取:最有用的图特征机器学习模型介绍

​ 从图中提取特征与从正常数据中提取特征完全不同。图中的每个节点都是相互连接的,这是我们不能忽视的重要信息。幸运的是,许多适合于图的特征提取方法已经创建,这些技术可以分为节点级、图级和邻域重叠级。在本文中,我们将研究最常见的图特征提取方法及其属性。 ​ 注意:我的文章结构类似于William ...

2020-10-02 09:42:34 3114 0

原创 使用GANs生成时间序列数据:DoppelGANger论文详解

序列数据(具有时间依赖性的数据)在业务中非常常见,从信用卡交易到医疗保健记录再到股票市场价格。 但是,隐私法规限制并极大地减慢了对研发至关重要的有用数据的访问。 这就产生了对具有高度代表性但又完全私有的合成顺序数据的需求,这至少可以说是具有挑战性的。 生成合成时间序列和顺序数据要比表格数据更具挑战...

2020-10-01 10:04:08 3208 0

提示
确定要删除当前文章?
取消 删除