自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

deephub

关注同名微信公众号,获取更多AI干货

原创 在Python中用Seaborn美化图表的3个示例
原力计划

进行研究时,选择图像模式一般很容易,说实话:向团队或客户传达图像模式有时要困难得多。 不仅很难用外行术语解释某些图像模式(尝试向非数学家解释一个数学符号),而且有时,您还需要试图表示对各种模式需要依赖的条件……怎么说呢? ​ 图表对于我们研究人员至关重要,因此我们需要它们能够很好地传达我们的意思...

2020-05-31 11:47:17 3978 0

原创 自动美化你的Matplotlib ,使用Seaborn控制图表的默认值
原力计划

如果您曾经在 Python 中进行过数据可视化,那么很可能您使用了 Matplotlib 库。 这个库包含了许多绘图的功能。但是一些概念上简单的可视化需要大量的代码才能完成。 而在这个时代,人们希望能够与图表进行交互——这是普通 Matplotlib 库无法提供的功能。 更重要的是,采用默认设置的...

2020-05-30 19:16:32 4437 0

原创 为什么中位数(大多数时候)比平均值好

开始我的数据分析冒险之旅,我发现了解数据描述的主要统计方法是非常必要的。当我深入研究时,我意识到我很难理解为给定的数据选择哪个集中趋势指标有三种:平均值,中位数和众数。 所以我决定写这篇文章来帮助像我一样在这个领域里的新人来弄明白这一点,而不是害怕数据和统计。这里我们使用Pandas和世界人口的数...

2020-05-29 09:30:13 4583 0

原创 使用PyTorch手写代码从头构建LSTM,更深入的理解其工作原理
原力计划

这是一个造轮子的过程,但是从头构建LSTM能够使我们对体系结构进行更加了解,并将我们的研究带入下一个层次。 LSTM单元是递归神经网络深度学习研究领域中最有趣的结构之一:它不仅使模型能够从长序列中学习,而且还为长、短期记忆创建了一个数值抽象,可以在需要时相互替换。 在这篇文章中,我们不仅将介绍L...

2020-05-28 08:54:56 4221 0

原创 条件变分自动编码器CVAE:基本原理简介和keras实现

变分自动编码器(VAE)是一种有方向的图形生成模型,已经取得了很好的效果,是目前生成模型的最先进方法之一。它假设数据是由一些随机过程,涉及一个未被注意的连续随机变量z假设生成的z是先验分布P_θ(z)和条件生成数据分布P_θ(X | z),其中X表示这些数据。z有时被称为数据X的隐藏表示。 像任何...

2020-05-27 08:48:28 4161 0

原创 权重衰减== L2正则化?它们只是在某些条件下等价
原力计划

神经网络是很好的函数逼近器和特征提取器,但有时它们的权值过于专门化而导致过度拟合。这就是正则化概念出现的地方,我们将讨论这一概念,以及被错误地认为相同的两种主要权重正则化技术之间的细微差异。 1943年,沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)首...

2020-05-26 10:08:22 3970 0

原创 1D卷积入门:一维卷积是如何处理数字信号的

卷积是在科学、工程和数学中应用最广泛的运算符之一 卷积是对两个函数(f和g)进行的一种数学运算,它产生的第三个函数表示其中一个函数的形状如何被另一个函数修改。 离散时间信号的卷积 一种求解离散时间信号卷积的简单方法如下所示 输入序列x[n] ={1,2,3,4},其索引为{0,1,2,3} 脉冲...

2020-05-25 09:34:47 4771 0

原创 多元线性回归模型的完整解释、假设检验、特征选择
原力计划

线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,这是进入ML的第一步。 在继续讨论之前,让我们回顾一下线性回归可以大致分为两类。 简单线性回归:当只有一个输入变量时,它是线性回归最简单的形式。 多元线性回归:这是一种线性回归的形式,当...

2020-05-24 12:15:34 6763 0

原创 为时间序列分析准备数据的一些简单的技巧
原力计划

每个时间序列(TS)数据都装载有信息;时间序列分析(TSA)是解开所有这些的过程。然而,要释放这种潜力,需要在将数据放入分析管道之前对其进行适当的准备和格式化。 TS可能看起来像一个简单的数据对象,易于处理,但事实是,对于新手来说,在真正有趣的事情开始之前,仅仅准备数据集就可能是一项艰巨的任务。 ...

2020-05-23 13:32:53 4626 0

原创 AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
原力计划

本文介绍了现代计算机视觉的主要思想。我们探索如何将数百个学习图像中低级特征的神经元堆叠成几层。 视觉,源于自然 哺乳动物视觉皮层中的神经元被组织成一层一层地处理图像,其中一些神经元在识别线和边等局部特征方面具有特殊的功能;当位置和方向改变时,一些层被激活;其他层对复杂的形状(如交叉线)做出反应。...

2020-05-22 08:44:18 3970 0

原创 Python手写强化学习Q-learning算法玩井字棋
原力计划

Q-learning 是强化学习中的一种常见的算法,近年来由于深度学习革命而取得了很大的成功。本教程不会解释什么是深度 Q-learning,但我们将通过 Q-learning 算法来使得代理学习如何玩 tic-tac-toe 游戏。尽管它很简单,但我们将看到它能产生非常好的效果。 要理解本教程,...

2020-05-21 08:46:10 5042 0

原创 通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理
原力计划

准备 查看磁盘的基本信息 !df -hl !pwd 我们这里只做最基本的数据处理所以只引入了基本包 另外引入了ti的session后面通过它将数据上传到cos import os, gc import pandas as pd import numpy as np from ti impo...

2020-05-20 08:45:37 4611 0

原创 简单的统计学:如何用Python计算扑克概率
原力计划

介绍 ​ 在本文中,我们展示了如何在Python中表示基本的扑克元素,例如“手”和“组合”,以及如何计算扑克赔率,即在无限额德州扑克中获胜/平局/失败的可能性。 ​ 我们根据《拉斯维加斯威尼斯之夜》中的真实故事提供实用的分析。 在内华达州拉斯维加斯的威尼斯人的一天。 ​ 我们将使用poke...

2020-05-19 09:23:35 4940 1

原创 Python和R之间转换的基本指南:使用Python或R知识来有效学习另一种语言的简单方法。
原力计划

这里介绍的方法与我们自学习外语的时候使用的方法是有共同之处的,例如我们要学习英语,可以使用以下三个关键的练习帮助我从笨拙地将中文单词翻译成英语,转变为直接用英语思考和回答(英语思维)。 把新的英语单词和我已经知道的中文单词关联起来。把英语和中文的单词作比较,使我能很快地领会这个生词的意思。 重复这...

2020-05-18 09:21:26 4508 0

原创 使用Python线性回归预测Steam游戏的打折的幅度
原力计划

上篇文章我们解决了Steam是否打折的问题,这篇文章我们要解决的是到底打折幅度有多少,这里我们就不能使用分类模型,而需要使用回归的模型了。 主要目标 在这个项目中,我将试图找出什么样的因素会影响Steam的折扣率并建立一个线性回归模型来预测折扣率。 数据 数据将直接从Steam的官方网站上获取...

2020-05-17 10:42:58 4503 0

原创 来自G胖的微笑:使用python监督学习预测Steam游戏打折的概率
原力计划

来自G胖的微笑:使用python监督学习预测Steam游戏打折的概率 本期文章分为两期,第一篇我们先解决是否Steam平台的游戏会不会打折?下一期我们会详细分析影响Steam的打折因素 基本目标 使用有监督的机器学习分类模型来确定某款Steam游戏是否可以在正常一周内(没有大规模的折扣事件)出现折...

2020-05-16 13:44:56 22844 8

原创 推荐系统为什么使用稀疏矩阵?如何使用python的SciPy包处理稀疏矩阵
原力计划

在推荐系统中,我们通常使用非常稀疏的矩阵,因为项目总体非常大,而单个用户通常与项目总体的一个非常小的子集进行交互。以YouTube为例——用户通常会观看数百个(可能是数千个)视频,而YouTube的语料库中有数百万个视频,这导致了>99%的稀疏性。 这意味着当我们在一个矩阵中表示用户(行)和...

2020-05-15 08:57:52 3800 0

原创 为什么LSTM看起来那么复杂,以及如何避免时序数据的处理差异和混乱
原力计划

LSTM(long short term memory,长短期记忆网络)是预测时间序列最常用的神经网络模型之一。但是这种神经网络模型相当复杂,需要特定的结构、数据前期处理等操作。 当在网上搜寻要学习的代码时,很难将另一个程序员的代码合并到当前开展的项目中。对于LSTM尤其如此,导致这些问题的关键...

2020-05-14 09:31:37 5192 0

原创 What the F?机器学习中的“ F”到底是什么
原力计划

What the F?机器学习中的“ F”到底是什么 仔细研究一下机器学习中的“ f”一词,以及为什么不能忽略它! ​ 我知道您很想知道这个“ f”实际上是什么。 我们很快就知道了。 我可以立即告诉您的一件事是,无论您对机器学习的熟悉程度如何,理解“ f”一词都会帮助您理解大多数机器学习的作用...

2020-05-13 09:35:00 3868 0

原创 通过pytorch建立神经网络模型 分析遗传基因数据
原力计划

DNA双螺旋(已对齐)合并神经网络(黄色) 我最近进行了有关基因序列的研究工作。我想到的主要问题是:“哪一种最简单的神经网络能与遗传数据最匹配”。经过大量文献回顾,我发现与该主题相关的最接地气却非常有趣的工作是在Yoshua Bengio 教授的实验室中进行的。这篇论文的题目是:“饮食网络:脂肪基...

2020-05-12 08:48:18 4380 1

原创 深度学习的端到端文本OCR:使用EAST模型从自然场景图片中提取文本
原力计划

我们生活在这样一个时代:任何一个组织或公司要想扩大规模并保持相关性,就必须改变他们对技术的看法,并迅速适应不断变化的环境。我们已经知道谷歌是如何实现图书数字化的。或者Google earth是如何使用NLP来识别地址的。或者怎样才能阅读数字文档中的文本,如发票、法律文书等。 但它到底是如何工作的呢...

2020-05-11 10:00:08 3981 0

原创 现实世界中的数据科学:基于领域知识和监督学习模型的黄金价格理解与预测
原力计划

本文将展示如何建立一个简单但是强大的金价预测模型,主要包含以下内容: 黄金的简要历史 影响金价的若干因素 建立用于预测金价的回归模型 利用回归模型来辅助投资决策 人类为何需要黄金? 大约公元前3600年,黄金首先在古埃及被采掘冶炼。经历30个世纪之后,在土耳其西部的一个古王国铸造出世界上第一枚...

2020-05-10 13:21:30 4684 0

原创 基于图卷积神经网络GCN的时间序列预测:图与递归结构相结合预测库存需求
原力计划

时间序列预测任务可以按照不同的方法执行。最经典的是基于统计和自回归的方法。更准确的是基于增强和集成的算法,我们必须使用滚动周期生成大量有用的手工特性。另一方面,我们可以使用在开发过程中提供更多自由的神经网络模型,提供对顺序建模的可定制的特性。 循环和卷积结构在时间序列预测中取得了巨大的成功。该领域...

2020-05-09 08:48:03 7518 4

原创 一个简单的更改让PyTorch读取表格数据的速度提高20倍:可大大加快深度学习训练的速度
原力计划

深度学习:需要速度 ​ 在训练深度学习模型时,性能至关重要。 数据集可能非常庞大,而低效的训练方法意味着迭代速度变慢,超参数优化的时间更少,部署周期更长以及计算成本更高。 ​ 由于有许多潜在的问题要探索,很难证明花太多时间来进行加速工作是合理的。 但是幸运的是,有一些简单的加速方法! ​ 我...

2020-05-08 09:23:39 4618 1

原创 数据的预处理基础:如何处理缺失值
原力计划

数据集缺少值? 让我们学习如何处理: 数据清理/探索性数据分析阶段的主要问题之一是处理缺失值。 缺失值表示未在观察值中作为变量存储的数据值。 这个问题在几乎所有研究中都是常见的,并且可能对可从数据得出的结论产生重大影响。 查看数据中的缺失值,您的第一项工作是基于3种缺失值机制来识别缺失模式: ...

2020-05-07 08:42:31 5490 0

原创 机器学习中数据特征的处理 归一化vs标准化,哪个更好
原力计划

​ 众所周知,特征工程是将原始数据转换为数据集的过程。 有各种可用的功能工程技术。 两种最广泛使用且最容易混淆的特征工程技术是: 标准化 归一化 ​ 今天我们将探讨这两种技术,并了解数据分析师在解决数据科学问题时所做出的一些常见假设。 另外,本教程的全部代码都可以在下面的GitHub存储库...

2020-05-06 08:38:07 4435 0

原创 XGBoost算法背后的数学:尽可能简单地解释XGBoost算法背后的机制
原力计划

如果你想很好地理解某些内容,请尝试简单地给别人解释出来。 ——费曼 XGBoost是一个很优美的算法,它的过程不乏启发性。这些通常简单而美丽的概念在数学术语中消失了。我在理解数学的过程中也遇到过同样的挑战,所以我写这篇文章的目的是巩固我的理解,同时帮助其他人完成类似的过程。 为了解XGBoos...

2020-05-05 10:25:42 4142 2

原创 机器学习模型的超参数优化
原力计划

引言 模型优化是机器学习算法实现中最困难的挑战之一。机器学习和深度学习理论的所有分支都致力于模型的优化。 机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数。超参数与一般模型参数不同,超参数是在训练前提前设置的。举例来说,随机森林算法中树的数量就是一个超参数,而神经网...

2020-05-04 08:26:40 3957 0

原创 Explainable AI (XAI) 不能解释什么 以及我们如何解决这个问题
原力计划

神经网络准确但不可解释,决策树是可解释的,但在计算机视觉中是不准确的。对于这种问题,我们在本文有一个解决办法。 来自IEEE会员Cuntai Guan,他承认“many machine decisions are still poorly understood "。大多数论文甚至在...

2020-05-03 10:20:38 4896 0

原创 理论结合实际:如何调试神经网络并检查梯度
原力计划

当我们实现神经网络时,反向传播的过程中更容易出错。 因此,如果我们能够实现一些使我们能够轻松调试神经网络的工具,那将是多么酷。 在这里,我们将看到“梯度检查”的方法。 简而言之,该方法使用数值方法近似梯度。 如果实际的梯度接近计算得出的梯度,则可以正确实施反向传播。 还有很多其他方法,让我们一起看...

2020-05-02 10:23:29 4521 0

提示
确定要删除当前文章?
取消 删除