自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

deephub

关注同名微信公众号,获取更多AI干货

原创 10种图算法直观可视化解释

快速介绍10个基本的图算法,并举例和可视化 图已经成为一种强大的建模和捕获真实场景中的数据的手段,比如社交媒体网络、网页和链接,以及GPS中的位置和路线。如果您有一组相互关联的对象,那么您可以使用图来表示它们。 在这篇文章中,我将简要地解释10个对分析和应用非常有用的基本图形算法。 首先,让我们...

2020-08-31 09:23:04 5915 1

原创 推理(Inference)与预测(Prediction)

在机器学习的背景下,很多人似乎混淆了这两个术语。这篇文章将试图澄清我们所说的这两个词是什么意思,每一个词在哪里有用,以及它们是如何应用的。在这里,我将举几个例子来直观地理解两者之间的区别。 推理和预测这两个术语都描述了我们在监督下从数据中学习的任务,以便找到一个描述自变量和结果之间关系的模型。然而...

2020-08-30 08:36:50 4096 0

原创 PandaSQL:一个让你能够通过SQL语句进行pandas的操作的python包

Pandas是近年来最好的数据操作库之一。它允许切片、分组、连接和执行任意数据转换。如果你熟练的使用SQL,那么这篇文章将介绍一种更直接、简单的使用Pandas处理大多数数据操作案例。 假设你对SQL非常的熟悉,或者你想有更可读的代码。或者您只是想在dataframe上运行一个特殊的SQL查询。...

2020-08-29 12:55:16 6013 1

原创 Quickprop介绍:一个加速梯度下降的学习方法

由于80年代/ 90年代的普通反向传播算法收敛缓慢,Scott Fahlman发明了一种名为Quickprop[1]的学习算法,它大致基于牛顿法。他的简单想法在诸如“N-M-N编码器”任务这样的问题域中优于反向传播(有各种调整),即训练一个具有N个输入、M个隐藏单位和N个输出的de-/ Encod...

2020-08-28 09:08:27 4520 0

原创 你可能不知道的pandas的5个基本技巧

如何用pandas处理大数据学习“between”、“reindex”等功能。 这5个pandas的功能是非常有用的,但有时候却被人忽略 between 函数 多年来我一直在SQL中使用“between”函数,但直到最近才在pandas中发现它。 假设我们有一个带有价格的DataFrame,我们...

2020-08-27 10:13:37 3850 0

原创 机器学习中的音频特征:理解Mel频谱图

如果你像我一样,试着理解mel的光谱图并不是一件容易的事。你读了一篇文章,却被引出了另一篇,又一篇,又一篇,没完没了。我希望这篇简短的文章能澄清一些困惑,并从头解释mel的光谱图。 信号 信号是一定量随时间的变化。 对于音频,变化的量是气压。 我们如何以数字方式捕获此信息? 我们可以随时间采集气压...

2020-08-26 09:30:01 6249 2

原创 U-Net模型介绍和Kaggle的Top1解决方案源码解析

内容列表 介绍 先决条件 什么是U-NET U-NET结构 KAGGLE数据科学SCIENCE BOWL 2018 挑战赛 介绍 计算机视觉是人工智能的一个领域,训练计算机解释和理解视觉世界。利用来自相机、视频和深度学习模型的数字图像,机器可以准确地识别和分类物体,然后对它们看到的东西做出反应...

2020-08-25 08:50:35 3859 0

原创 使用ML 和 DNN 建模技巧总结

每个人都可以轻松地将数据放入任何模型机器学习或深度学习框架中。但是遵循最佳实践技巧可能有助于提升工作效率。以下是常见的一些方法。 本文内容 数据预处理 处理原始数据 使用张量 数据扩充 数据采样 模型训练 存储中间状态 虚拟周期 简化原则 定位问题 调试 定位问题 使用评价模型 数据转...

2020-08-24 08:40:16 4343 0

原创 5分钟入门GANS:原理解释和keras代码实现

本篇文章包含以下内容 介绍 历史 直观解释 训练过程 GAN在MNIST数据集上的KERAS实现 介绍 生成式敌对网络通常也称为GANs,用于生成图像而不需要很少或没有输入。GANs允许我们生成由神经网络生成的图像。在我们深入讨论这个理论之前,我想向您展示GANs构建您兴奋感的能力。把马变成斑...

2020-08-23 08:09:19 3086 0

原创 特征工程入门:应该保留和去掉那些特征

在特征/列上执行的任何能够帮助我们根据数据进行预测的操作都可以称为特征工程。这将包括以下内容: 添加新功能 去掉一些讲述同样内容的特征 将几个特性结合在一起 将一个特性分解为多个特性 添加新特征 假设您想预测冰淇淋、手套或伞的销售。这些东西有什么共同之处?这些商品的销售取决于“天气”和“地点”。...

2020-08-22 09:16:05 4376 0

原创 时间卷积网络TCN:时间序列处理的新模型

这篇文章回顾了基于TCN的解决方案的最新创新。我们首先介绍了一个运动检测的案例研究,并简要回顾了TCN架构及其相对于传统方法的优势,如卷积神经网络(CNN)和递归神经网络(RNN)。然后,我们介绍了一些使用TCN的应用,包括改进交通预测,声音事件定位和检测,以及概率预测。 简单回顾一下TCN Le...

2020-08-21 09:00:45 7075 3

原创 用Python编写代码来理解赢得《英雄联盟》游戏的胜利的最重要因素
原力计划

介绍 在过去的几年里,电子竞技社区发展迅速,曾经只是休闲娱乐的电子竞技产业,到2022年有望创造18亿美元的收入。虽然在这个生态系统中有很多电子游戏,但很少有游戏像《英雄联盟》那样成为社区的主要元素,该游戏在2019年世界锦标赛期间吸引了超过1亿的独立观众。 《英雄联盟》于2009年底发行,是一款...

2020-08-20 09:12:33 11557 7

原创 概率论和统计学中重要的分布函数

随机变量在概率空间中遵循不同类型的分布,这决定了它们的特征并有助于预测。 本文内容列表: 引言 高斯/正态分布(Gaussian/Normal Distribution) 二项分布(Binomial Distribution) 伯努利分布(Bernoulli Distribution) 对数正态...

2020-08-19 08:25:50 4611 0

原创 Python中得可视化:使用Seaborn绘制常用图表

Seaborn是Python中的一个库,主要用于生成统计图形。 Volodymyr Hryshchenko在Unsplash上拍摄 ​ Seaborn是构建在matplotlib之上的数据可视化库,与Python中的pandas数据结构紧密集成。可视化是Seaborn的核心部分,可以帮助探索和...

2020-08-18 08:47:23 4575 1

原创 机器学习入门:偏差和方差

偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。 方差(variance):方差描述的是训练数据在不同迭代阶段的训练模型中,预测值的变化波动情况(或称之为离散情况) 我们这里以线性回归为例进行介绍 **线性回归是一种机器学习算法,它主要用来预测定量目标。该算法根据线性方式建模的自...

2020-08-17 08:44:31 4932 1

原创 详解DBSCAN聚类

使用DBSCAN标识为员工分组 ​ **基于密度的噪声应用空间聚类(DBSCAN)**是一种无监督的ML聚类算法。无监督的意思是它不使用预先标记的目标来聚类数据点。聚类是指试图将相似的数据点分组到人工确定的组或簇中。它可以替代KMeans和层次聚类等流行的聚类算法。 ​ 在我们的示例中,我们将...

2020-08-16 08:08:42 4074 0

原创 交叉验证和超参数调整:如何优化你的机器学习模型

准确预测Fitbit的睡眠得分 在本文的前两部分中,我获取了Fitbit的睡眠数据并对其进行预处理,将这些数据分为训练集、验证集和测试集,除此之外,我还训练了三种不同的机器学习模型并比较了它们的性能。 在第2部分中,我们看到使用随机森林和xgboost默认超参数,并在验证集上评估模型性能会导致多元...

2020-08-15 09:24:25 5097 0

原创 5个可以帮助pandas进行数据预处理的可视化图表

“一目了然胜过千言万语。”分析数据点的探索性数据分析(EDA)是在算法的数据建模之前制定假设的正确步骤。 数据科学行业中一个最常见的陷阱是花费数小时为他们的项目寻找最佳算法,而没有花足够的时间首先理解数据。 数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息...

2020-08-14 09:02:10 4346 0

原创 为什么要停止过度使用置换重要性来寻找影响特征

数据分析师通常为了某些任务需要计算特征重要度。特征重要度可以帮助使用者了解数据中是否存在偏差或者模型中是否存在缺陷。并且特征重要度可用于理解底层流程和做出业务决策。模型最重要的特性可能会给我们进一步的特征工程提供灵感。 目前计算特征重要性的方法有很多种。其中一些方法基于特定的模型,例如线性回归模...

2020-08-13 09:18:11 3805 0

原创 使用tensorflow进行音乐类型的分类

音乐流媒体服务的兴起使得音乐无处不在。我们在上下班的时候听音乐,锻炼身体,工作或者只是放松一下。 这些服务的一个关键特性是播放列表,通常按流派分组。这些数据可能来自出版歌曲的人手工标注。但这并不是一个很好的划分,因为可能是一些艺人想利用一个特定流派的流行趋势。更好的选择是依靠自动音乐类型分类。与我...

2020-08-12 08:52:28 5570 0

原创 使用TensorFlow创建能够图像重建的自编码器模型

想象你正在解决一个拼图游戏。你已经完成了大部分。假设您需要在一幅几乎完成的图片中间修复一块。你需要从盒子里选择一块,它既适合空间,又能完成整个画面。 我相信你很快就能做到。但是你的大脑是怎么做到的呢? 首先,它会分析空槽周围的图片(在这里你需要固定拼图的一块)。如果图片中有一棵树,你会寻找绿色的部...

2020-08-11 09:01:01 3707 0

原创 在机器学习回归问题中,你应该使用哪种评估指标?R²,RMSE, MAE

如果你像我一样,你可能会在你的回归问题中使用R平方(R平方)、均方根误差(RMSE)和均方根误差(MAE)评估指标,而不用考虑太多。???? 尽管它们都是通用的度量标准,但在什么时候使用哪一个并不明显。 R方(R²) R²代表模型所解释的方差所占的比例。 R²是一个相对度量,所以您可以使用它来与在...

2020-08-10 09:33:03 4034 0

原创 在TensorFlow中使用模型剪枝将机器学习模型变得更小

学习如何通过剪枝来使你的模型变得更小 剪枝是一种模型优化技术,这种技术可以消除权重张量中不必要的值。这将会得到更小的模型,并且模型精度非常接近标准模型。 在本文中,我们将通过一个例子来观察剪枝技术对最终模型大小和预测误差的影响。 导入常见问题 我们的第一步导入一些工具、包: Os和Zipfi...

2020-08-09 10:46:57 3929 0

原创 简介机器学习中的特征工程

​ 要解决一个机器学习问题,我们不能仅仅通过将算法应用到提供的数据上。比如.fit() 。我们首先需要构建一个数据集。 将原始数据转换为数据集的任务称为特征工程。 ​ 例如,预测客户是否坚持订阅特定产品。这将有助于进一步提高产品或用户体验,还有助于业务增长。 ​ 原始数据将包含每个客户的...

2020-08-08 09:16:52 3875 0

原创 20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

Pandas是一个受众广泛的python数据分析库。它提供了许多函数和方法来加快数据分析过程。pandas之所以如此普遍,是因为它的功能强大、灵活简单。 本文将介绍20个常用的 Pandas 函数以及具体的示例代码,助力你的数据分析变得更加高效。 首先,我们导入 numpy和 pandas包。 i...

2020-08-07 08:32:46 3813 0

原创 神经网络如何学习的?

像下山一样,找到损失函数的最低点。 毫无疑问,神经网络是目前使用的最流行的机器学习技术。所以我认为了解神经网络如何学习是一件非常有意义的事。 为了能够理解神经网络是如何进行学习的,让我们先看看下面的图片: 如果我们把每一层的输入和输出值表示为向量,把权重表示为矩阵,把误差表示为向量,那么我们就...

2020-08-06 08:35:59 3123 0

原创 常见机器学习算法背后的数学

不同的机器学习算法是如何从数据中学习并预测未见数据的呢? 机器学习算法是这样设计的,它们从经验中学习,当它们获取越来越多的数据时,性能就会提高。每种算法都有自己学习和预测数据的方法。在本文中,我们将介绍一些机器学习算法的功能,以及在这些算法中实现的有助于学习过程的一些数学方程。 机器学习算法的类型...

2020-08-05 08:46:20 4810 0

原创 使用Pytorch和Matplotlib可视化卷积神经网络的特征

在处理图像和图像数据时,CNN是最常用的架构。卷积神经网络已经被证明在深度学习和计算机视觉领域提供了许多最先进的解决方案。没有CNN,图像识别、目标检测、自动驾驶汽车就不可能实现。 但当归结到CNN如何看待和识别他们所做的图像时,事情就变得更加棘手了。 CNN如何判断一张图片是猫还是狗? 在图像...

2020-08-04 09:11:28 5389 1

原创 神经网络架构搜索(NAS)基础

网络架构搜索(NAS)已成为机器学习领域的热门课题。商业服务(如谷歌的AutoML)和开源库(如Auto-Keras[1])使NAS可用于更广泛的机器学习环境。在这篇博客文章中,我们主要探讨NAS的思想和方法,希望可以帮助读者更好地理解该领域并发现实时应用程序的可能性。 什么是网络架构搜索(NAS...

2020-08-03 08:47:28 4535 0

原创 一个快速构造GAN的教程:如何用pytorch构造DCGAN

​ 在本教程中,我们将在PyTorch中构建一个简单的DCGAN,并在手写数据集上对它进行训练。我们将讨论PyTorch DataLoader,以及如何使用它将图像数据提供给PyTorch神经网络进行训练。PyTorch是本教程的重点,所以我假设您熟悉GAN的工作方式。 要求 python版本...

2020-08-02 10:39:58 3921 0

原创 这3个Scikit-learn的特征选择技术,能够有效的提高你的数据预处理能力

Scikit-learn是一个广泛使用的python机器学习库。它以现成的机器学习算法而闻名,在scikit-learn中也为数据预处理提供了很多有用的工具。 数据预处理是机器学习的重要环节。我们不能仅仅将原始数据转储到模型中。我们需要清理数据,并应用一些预处理技术,以能够创建一个健壮和准确的机器...

2020-08-01 13:49:59 4503 0

提示
确定要删除当前文章?
取消 删除