自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

deephub

关注同名微信公众号,获取更多AI干货

  • 博客(31)
  • 收藏
  • 关注

原创 机器学习中处理缺失值的9种方法

数据科学就是关于数据的。它是任何数据科学或机器学习项目的关键。在大多数情况下,当我们从不同的资源收集数据或从某处下载数据时,几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因。我们可以使用许多技术来处理丢失的数据。在这个文章中,我将分享处理数据缺失的9种方法,但首先让我们看看为什么会出现数据缺失以及有多少类型的数据缺失。不同类型的缺失值缺失的值主要有三种类型。完全随机缺失(MCAR):当数据为.

2020-10-31 11:01:04 3948

原创 使用PolyGen和PyTorch生成3D模型

介绍深度学习研究的一个新兴领域是致力于将DL技术应用于3D几何和计算机图形应用程序, 对于希望自己尝试3D深度学习的PyTorch用户而言,一个叫Kaolin 库值得研究。 对于TensorFlow用户,还有TensorFlow Graphics库。 3D技术中一个特别热门的子领域是3D模型的生成。 创造性地组合3D模型,从图像快速生成3D模型,以及为其他机器学习应用程序和模拟创建综合数据,这只是3D模型生成的众多用例中的少数几个。使用top-p = 0.9的核采样和地面真实网格(蓝色)生成的图像条件

2020-10-30 09:12:51 2906

原创 时域卷积网络TCN详解:使用卷积进行序列建模和预测

CNN经过一些简单的调整就可以成为序列建模和预测的强大工具尽管卷积神经网络(CNNs)通常与图像分类任务相关,但经过适当的修改,它已被证明是进行序列建模和预测的有价值的工具。在本文中,我们将详细探讨时域卷积网络(TCN)所包含的基本构建块,以及它们如何结合在一起创建一个强大的预测模型。使用我们的开源Darts TCN实现,我们展示了只用几行代码就可以在真实数据集上实现准确预测。以下对时间卷积网络的描述基于以下论文:https://arxiv.org/pdf/1803.01271.pdf。本文引用用(*

2020-10-29 09:43:10 18783 14

原创 使用PandasGUI进行探索性数据分析

Pandasgui是一个开源的python模块,它为pandas创建了一个GUI界面,我们可以在其中使用pandas的功能分析数据和使用不同的功能,以便可视化和分析数据,并执行探索性数据分析。探索性数据分析是最关键的部分,无论何时我们使用数据集时都要首先进行分析。它允许我们分析数据,探索数据的初始结果,比如有多少行和列,不同的列是什么,等等。EDA是一种方法,我们使用不同的方法,主要是可视化来总结数据的主要特征。如果您正在处理数据,EDA是一个重要且最关键的步骤。在整个项目中,几乎有30%的时间是用来.

2020-10-28 09:05:04 5152

原创 MCMC、蒙特卡洛近似和Metropolis算法简介

MCMC 是Markov Chain Monte Carlo 的简称,但在传统模拟中有一个很重要的假设是样本是独立的(independent samples),这一点在贝叶斯统计尤其是高纬度的模型中很难做到。所以MCMC的目的就是运用蒙特卡洛模拟出一个马可链(Markov chain)。如今,概率建模风靡一时,但是当我第一次了解它时,总有一件事情困扰我。 许多贝叶斯建模方法都需要计算积分,而我看到的任何工作示例似乎都使用高斯或伯努利分布,原因很简单如果您尝试使用比这更复杂的方法,它将成为分析的噩梦。 将

2020-10-27 08:56:40 8843 7

原创 使用WebAssembly提高模型部署的速度和可移植性

在最近几个月中,我们已经帮助许多公司在各种环境中部署其AI / ML模型。 我们为医疗行业的模型部署做出了贡献,在过去的几个月中,我们已经帮助多家公司将经过训练的模型转移到不同类型的IoT设备上。 特别是在IoT设备情况下,要求通常很严格:计算周期数和可用内存通常都受到限制。在本文中,我阐明了如何确保使用标准ML库(例如PyTorch,Scikit-learn和Tensorflow)训练的模型可以有效地部署在各种边缘设备上。 为了使事情变得切实,我们将研究简单的逻辑回归模型的训练和部署。 但是,我们在这.

2020-10-26 08:42:46 2716

原创 在python中使用KNN算法处理缺失的数据

在python中使用KNN算法处理缺失的数据处理缺失的数据并不是一件容易的事。 方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。 解决问题的挑战性是选择使用哪种方法。 今天,我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。KNN代表“ K最近邻居”,这是一种简单算法,可根据定义的最接近邻居数进行预测。 它计算从您要分类的实例到训练集中其他所有实例的距离。正如标题所示,我们不会将算法用于分类目的,而是填充缺失值。 本文将使用房屋价格数据集,这是一个简单而著名的数据

2020-10-25 10:44:40 5791 4

原创 NLP任务中的文本预处理步骤、工具和示例

数据是新的石油,文本是我们需要更深入钻探的油井。文本数据无处不在,在实际使用之前,我们必须对其进行预处理,以使其适合我们的需求。对于数据也是如此,我们必须清理和预处理数据以符合我们的目的。这篇文章将包括一些简单的方法来清洗和预处理文本数据以进行文本分析任务。我们将在Covid-19 Twitter数据集上对该方法进行建模。 这种方法有3个主要组成部分:首先,我们要清理和过滤所有非英语的推文/文本,因为我们希望数据保持一致。其次,我们为复杂的文本数据创建一个简化的版本。最后,我们将文本向量化并保存其嵌

2020-10-24 09:21:39 3081

原创 在TPU上运行PyTorch的技巧总结

TPU芯片介绍Google定制的打机器学习专用晶片称之为TPU(Tensor Processing Unit),Google在其自家称,由于TPU专为机器学习所运行,得以较传统CPU、 GPU降低精度,在计算所需的电晶体数量上,自然可以减少,也因此,可从电晶体中挤出更多效能,每秒执行更复杂、强大的机器学习模组,并加速模组的运用,使得使用者更快得到答案,Google最早是计划用FPGA的,但是财大气粗,考虑到自己的特殊应用,就招了很多牛人来做专用芯片TPU。TPUs已经针对TensorFlow进行了优化

2020-10-23 08:53:19 3517

原创 使用深度学习的方法进行人脸解锁

今天,我们将使用深度学习来创建面部解锁算法。 要完成我们的任务需要三个主要部分。查找人脸的算法一种将人脸嵌入向量空间的方法比较已编码人脸的函数人脸面孔查找和定位首先,我们需要一种在图像中查找人脸的方法。 我们可以使用一种称为MTCNN(多任务级联卷积网络)的端到端方法。只是一点技术背景,所以称为Cascaded,因为它由多个阶段组成,每个阶段都有其神经网络。 下图显示了该框架。我们依靠facenet-pytorch中的MTCNN实现。数据我们需要图像! 我整理了一些照片,莱昂纳多·.

2020-10-22 08:50:56 2708

原创 二分查找会更快吗?Python中的二分查找与线性查找性能测试

当您要检查某个元素是否在列表中时,有很多方法可以解决相同的问题。可以通过线性查找和二分查找来完成,但是要猜测哪个更快。为什么?如果你最近参加过面试,你就会知道二分查找是面试官的最爱。您为什么要花时间学习二分查找? C ++编程朋友可能已经告诉过您。 Python很慢。 您想确保自己的程序不会比所需的速度慢。学习Python时,您将学习进行线性查找以检查元素是否在列表中。 当您学习编码时很好,但是如果列表中有60.000.000个元素会发生什么呢?如果在包含11个元素的列表中进行线性查找,则必须遍.

2020-10-21 08:58:20 2884

原创 十分钟了解Transformers的基本概念

RNN已死,注意力万岁?多年来,我们一直在使用RNN,LSTM和GRU解决顺序问题,您突然希望我们将其全部丢弃吗? 嗯,是!! 所有这三种架构的最大问题是它们进行顺序处理。 而且它们也不擅长处理长期依赖关系(即使使用LSTM和GRU的网络)。 Transformers 提供了一种可并行处理顺序数据的方式,因此,它不仅比以前的体系结构快得多,而且在处理长期依赖性方面也非常出色。那么什么是 Transformers?这看起来很恐怖,不是吗? 如果我告诉您所有这些都可以归结为一个公式,是不是就简单一些了

2020-10-20 08:46:27 4010

原创 使用pandas分析1976年至2010年的美国大选

使用pandas分析1976年至2010年的美国大选我最近在Kaggle上看到了美国大选的数据集。既然我们正在热烈讨论2020年的大选,我想分析一下之前的美国总统大选是个好主意。数据集包含了从1976年到2020年的选举。我会从不同的角度来处理这些数据,试图了解人们是如何投票的。我将使用pandas库进行数据分析和可视化,因此这也是使用pandas的函数和方法的良好实践。让我们从导入库并将数据集读入一个Pandas dataframe开始。import numpy as npimport pa

2020-10-19 09:02:08 2769

原创 基于神经网络的风格迁移目标损失解析

今天我想谈谈神经类型的转移和卷积神经网络。已有相当多的文章和教程可供使用。有时内容只是复制,有些则提供了一种新颖的实现。它们的共同之处在于对细节的快速钻研。在我看来太具体了。不仅如此,通常还有一些实现细节,这使得将重点放在整体的主要概念上变得更加困难。这篇文章可以看作是对其他文章的概述和理解,以便在更高的层次上理解这个概念。我的意图是去掉一些实现细节,使其足够高,足以满足初学者的需要,并激发他们阅读原始研究论文和后续实现的好奇心。基于神经网络的风格迁移这个方法来自于论文《A Neural Algor.

2020-10-18 09:45:32 3716 1

原创 理解强化学习

强化学习指的是专注于学习如何与环境交互的算法的机器学习。这种算法的一个例子叫做Q-learning。尽管它更接近于蛮力方法,Q-learning可能是最流行的强化学习方法。在我们开始学习Q-learning之前,让我们先讨论一下为什么我们不使用非监督或监督学习方法。在一个监督学习方法中,你给算法数行数据,每一行都有一个答案,算法会尝试去适应它。这相当于给算法提供狗和猫的图片,每当我们的算法对一张照片给出错误的答案时,告诉它调整自己,以便下次看到类似的观察结果时,它更接近正确的结果。然后,我们希望,在拥有

2020-10-17 09:05:59 4441 1

原创 梯度直方图(HOG)用于图像多分类和图像推荐

介绍​ 机器学习的神奇之处在于,我们对原理的概念和思路理解得越多,它就变得越容易。在本文中,我们将研究在图像分类和图像推荐中使用定向梯度直方图的方法。数据集来源:Kaggle Fashion图像分类数据集(Small)https://www.kaggle.com/paramaggarwal/fashion-product-images-small​ 数据集有主类别、子类别、性别、季节和每个图像的标签。目的是将数据集用于图像分类和推荐。让我们先看看数据分布!每个列的惟一值。对于每个性别,m

2020-10-16 08:29:42 2969

原创 对比PyTorch和TensorFlow的自动差异和动态子类化模型

使用自定义模型类从头开始训练线性回归,比较PyTorch 1.x和TensorFlow 2.x之间的自动差异和动态模型子类化方法,这篇简短的文章重点介绍如何在PyTorch 1.x和TensorFlow 2.x中分别使用带有模块/模型API的动态子类化模型,以及这些框架在训练循环中如何使用AutoDiff获得损失的梯度并从头开始实现 一个非常幼稚的渐变后代实现。生成噪声的线性数据为了专注于自动差异/自动渐变功能的核心,我们将使用最简单的模型,即线性回归模型,然后我们将首先使用numpy生成一些线性数

2020-10-15 09:24:11 2723

原创 使用CatBoost和NODE建模表格数据对比测试

来自俄罗斯在线搜索公司Yandex的CatBoost快速且易于使用,但同一家公司的研究人员最近发布了一种基于神经网络的新软件包NODE,声称其性能优于CatBoost和所有其他梯度增强方法。 这是真的吗? 让我们找出如何同时使用CatBoost和NODE!该文章适用于谁?尽管我是为那些对机器学习特别是表格数据感兴趣的人写这篇博客的,但是如果您熟悉Python和scikit-learn库,并且希望跟随代码一起学习,对您很有帮助。 否则,希望您会发现理论和概念方面都很有趣!CatBoost简介CatBo

2020-10-14 09:10:33 2817

原创 Google的神经网络表格处理模型TabNet介绍

Google Research的TabNet于2019年发布,在预印稿中被宣称优于表格数据的现有方法。 它是如何工作的,又如何可以尝试呢?表格数据可能构成当今大多数业务数据。 考虑诸如零售交易,点击流数据,工厂中的温度和压力传感器,银行使用的KYC (Know Your Customer) 信息或制药公司使用的模型生物的基因表达数据之类的事情。论文称为TabNet: Attentive Interpretable Tabular Learning(https://arxiv.org/pdf/1908.

2020-10-13 08:58:12 3466

原创 Transformer的潜在竞争对手QRNN论文解读,训练更快的RNN

Transformer的潜在竞争对手QRNN论文解读,训练更快的RNN使用递归神经网络(RNN)序列建模业务已有很长时间了。 但是RNN很慢因为他们一次处理一个令牌无法并行化处理。 此外,循环体系结构增加了完整序列的固定长度编码向量的限制。 为了克服这些问题,诸如CNN-LSTM,Transformer,QRNNs之类的架构蓬勃发展。在本文中,我们将讨论论文“拟递归神经网络”(https://arxiv.org/abs/1611.01576)中提出的QRNN模型。 从本质上讲,这是一种将卷积添加到递归和

2020-10-12 09:20:50 4131

原创 在图上发送消息的神经网络MPNN简介和代码实现

欢迎来到图神经网络的世界,在这里我们在图上构建深度学习模型。你可以认为这很简单。毕竟,我们难道不能重用使用正常数据的模型吗?其实不是。在图中所有的数据点(节点)是相互连接的。这意味着数据不再是独立的,这使得大多数标准的机器学习模型毫无用处,因为它们的推导都强烈地基于这个假设。为了克服这个问题,可以从图中提取数字数据,或者使用直接对这类数据进行操作的模型。创建直接在图上工作的模型更为理想,因为我们可以获得更多关于图的结构和属性的信息。在本文中,我们将研究一种专门为此类数据设计的架构,即消息传递神经网络(

2020-10-11 09:40:47 6359 4

原创 使用CatBoost进行不确定度估算:模型为何不确定以及如何估计不确定性水平

本教程涵盖以下主题:什么是预测不确定性,为什么您要关心它?不确定性的两个来源是什么?如何使用CatBoost梯度提升库估算回归问题的不确定性什么是不确定性?机器学习已广泛应用于一系列任务。但是,在某些高风险应用中,例如自动驾驶,医疗诊断和财务预测,错误可能导致致命的后果或重大的财务损失。在这些应用中,重要的是要检测系统何时犯错并采取更安全的措施。此外,还希望收集这些“故障场景”,对其进行标记,并教系统通过主动学习做出正确的预测。预测不确定性估计可用于检测错误。理想情况下,该模型在可能会出错.

2020-10-10 08:37:10 5689 3

原创 如何在算法比赛中获得出色的表现 :改善模型的5个重要技巧

如果你最近才开始使用Kaggle,或者你是这个平台的老用户,你可能想知道如何轻松地提高你的模型的性能。以下是我在Kaggle之旅中积累的一些实用技巧。建立自己的模型或只是从一个基线公共内核,并尝试实施这些建议!回顾过去的比赛虽然Kaggle的政策是永远不会出现两次相同的比赛,但经常会有非常相似的问题的重新制作。例如,一些举办方每年都会针对同一主题提出定期的挑战(NFL’s Big Data Bowl ),只有很小的变化,或者在某些领域(比如医学成像)会有很多比赛,目标不同,但思路非常相似。因此,回顾

2020-10-09 08:35:57 5189 3

原创 孪生网络:使用双头神经网络进行元学习

深度神经网络有一个大问题-他们一直渴望数据。 当数据太少时(无法到达算法可以接受的数量)深度神经网络很难推广。 这种现象突出了人类和机器认知之间的差距。 人们可以通过很少的训练示例来学习复杂的模式(尽管速度较慢)。需要像我们这样思考的机器自我监督学习的研究正在发展,以开发完全不需要标签的结构(在训练数据本身中巧妙地找到标签),但其用例却受到限制。半监督学习是另一个快速发展的领域,它利用通过无监督培训学到的潜在变量来提高监督学习的性能。这是一个重要的概念,但其范围仅限于无监督与受监督数据比率相对较大且

2020-10-08 09:06:17 5352 3

原创 如何在图数据库中训练图卷积网络模型

在图数据库中训练GCN模型,可以利用图数据库的分布式计算框架现实应用中大型图的可扩展解决方案什么是图卷积网络?典型的前馈神经网络将每个数据点的特征作为输入并输出预测。利用训练数据集中每个数据点的特征和标签来训练神经网络。这种框架已被证明在多种应用中非常有效,例如面部识别,手写识别,对象检测,在这些应用中数据点之间不存在明确的关系。但是,在某些使用情况下,当v(i)与v(i)之间的关系不仅仅可以由数据点v(i)的特征确定,还可以由其他数据点v(j)的特征确定。 j)给出。例如,期刊论文的主题(例如计算机科

2020-10-07 10:07:56 8049 6

原创 单变量和多变量高斯分布:可视化理解

详细介绍高斯分布及其与均值、标准差、方差的关系​ 高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。​ 我相信,你听说过这个词,在某种程度上也知道它。如果没有,也不要担心。这篇文章将会解释清楚。我在Coursera的Andrew Ng教授的机器学习课程中发现了一些令人惊叹的视觉效果。他知道如何将一个主题分解成小块,使它更容易解释。​ 他使用了一些可视化方法,让人们很容易理解高斯

2020-10-06 08:11:15 5612 4

原创 14个Seaborn数据可视化图

调查数据并从中提取信息和趋势的工具。绿色代表新的开始和成长,也意味着更新和丰富。​ 数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。​ 没有规划的情况下,资源也无法转化为有价值的商品。因此,我希望本文能够为您提供关于所有可视化方法的架构。目录简介了解你的数据分布曲线a. 直方图b. 联合图c. 配对图d. Rug图分布图a. 条形图b. 统计图c. 箱型图d. Viol

2020-10-05 08:02:37 4282

原创 Actor-Critic:强化学习中的参与者-评价者算法简介

Actor-Critic从名字上看包括两部分,参与者(Actor)和评价者(Critic)。其中Actor使用策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。基于策略和基于价值的RL算法在基于策略的RL中,最优策略是通过直接操纵策略来计算的,而基于价值的函数通过找到最优值函数来隐式地找到最优策略。 基于策略的RL在高维和随机的连续动作空间以及学习随机策略方面非常有效。 同时,基于价值的RL在样品效.

2020-10-04 09:58:25 5738 3

原创 Pandas的列表值处理技巧,避免过多循环加快处理速度

这里有一些技巧可以避免过多的循环,从而获得更好的结果图1 -标题图像。​ 您曾经处理过需要使用列表的数据集吗?如果有,你就会明白这有多痛苦。如果没有,你最好做好准备。​ 如果你仔细看,你会发现列表无处不在!下面是一些实际问题,您可能会遇到列表。音频或视频标签调查数据中的开放式问题参与创作作品的所有作者、艺术家、制作人等的名单图2 -一个有趣的猫有关的视频的标签列表。​ 我最近参与了多个项目,这些项目要求我分析这类数据。在经历了几个小时的痛苦摸索之后,我意识到必须在这里分享我的知

2020-10-03 09:25:13 4344 1

原创 使用图进行特征提取:最有用的图特征机器学习模型介绍

​ 从图中提取特征与从正常数据中提取特征完全不同。图中的每个节点都是相互连接的,这是我们不能忽视的重要信息。幸运的是,许多适合于图的特征提取方法已经创建,这些技术可以分为节点级、图级和邻域重叠级。在本文中,我们将研究最常见的图特征提取方法及其属性。​ 注意:我的文章结构类似于William L. Hamilton[1]所写的图形学习书籍。节点级别的特征​ 从图中获取信息的最简单方法之一是为每个节点创建单独的特性。这些特征可以利用迭代方法从一个较近的邻域和一个较远的K-hop邻域捕获信息。让我们.

2020-10-02 09:42:34 4426

原创 使用GANs生成时间序列数据:DoppelGANger论文详解

序列数据(具有时间依赖性的数据)在业务中非常常见,从信用卡交易到医疗保健记录再到股票市场价格。 但是,隐私法规限制并极大地减慢了对研发至关重要的有用数据的访问。 这就产生了对具有高度代表性但又完全私有的合成顺序数据的需求,这至少可以说是具有挑战性的。生成合成时间序列和顺序数据要比表格数据更具挑战性,在表格数据中,通常将与一个人有关的所有信息存储在一行中。 在顺序数据中,信息可以分布在许多行中,例如信用卡交易,并且保留行(事件)和列之间的相关性(变量是关键)。 此外,序列的长度是可变的。 有些案例可能只包含

2020-10-01 10:04:08 4663 1

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除