自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

deephub

关注同名微信公众号,获取更多AI干货

  • 博客(323)
  • 收藏
  • 关注

原创 GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN的适应渐进式增长创建高分辨率图像的思路深度卷积生成对抗网络是2020年最精致的神经网络体系结构。生成模型可以追溯到60年代,但是Ian Goodfellow在2014年创造的GAN,使得生成模型跟那个广泛的使用,这对于深度学习的未来有着前所未有的价值。GAN知识要点生成器根据噪声向量重建样本,该样本应与训练分布不可区分生成器是主要的目标,一旦我们对它的结果满意,就可以丢弃鉴别器由于这两个神经网络都是可微的,我们可以使用它们的梯度来引导它们朝着正确的方向主要思路生成器和鉴.

2021-01-24 10:04:01 1962

原创 使用Tensorflow模仿HearthArena炉石卡片排名算法

在这篇文章中,我将重新创造卡牌游戏《炉石传说》卡组制作工具的卡牌排名算法什么是《炉石传说》炉石传说-一个虚拟纸牌游戏对于那些不知道的人来说,《炉石传说》是一款策略纸牌游戏,其目标是创建一个包含30张纸牌的卡组并与对手对抗,将对手降至0命值的玩家将首先获胜。在竞技场游戏模式中,玩家一次抽30张牌,每次在3张牌中选择。在《炉石传说》中有许多获胜策略,玩家在决定选择哪张纸牌时需要考虑许多因素:魔法值——什么时候可以使用的纸牌是受你有多少魔法值的限制的,所以有一个魔法值是很重要的(让你可以打出每个回合需

2021-01-23 09:53:38 3390

原创 使用Scikit-Learn pipeline 减少ML项目的代码量并提高可读性

在构建和部署机器学习模型时,最佳好的方法是使它们尽可能的成为端到端的工作,这意味着尝试将大多数与模型相关的数据转换分组到一个对象中。在ML世界中,采用pipeline的最简单方法是使用Scikit-learn。如果你不太了解它们,这篇文章就是为你准备的。我将通过一个简单的用例,首先尝试通过采用一个简单的机器学习工作流来解决这个问题,然后我将通过使用Scikit-Learn pipeline来解决这个问题,这样就能看出差异。pipelinepipeline允许你封装所有的预处理步骤,特性选择,扩展,特性

2021-01-22 09:12:55 3619

原创 使用遮挡分析进行DNN模型的可解释性说明概述

深度神经网络的解释方法有很多,每种解释方法都有各自的优缺点。在大多数情况下,我们感兴趣的是局部解释方法,即对特定输入的网络输出的解释,因为DNNs往往过于复杂,无法进行全局解释(独立于输入)。一般而言,所有局部解释方法都有一个共同的目标:可靠地(即准确地)表示要解释的函数f(例如DNN),至少可以部分的解释他们的输入和输褚的关系。当然,这样的解释也必须是人类可以理解的才能有用。实现这一目标的最简单方法是为每个输入维度添加一个重要分数,也就是创建一个归属图。归因方法将模型输出的权重分配给给定输入的每个维度

2021-01-21 08:48:54 3635

原创 用PyTorch和预训练的Transformers 创建问答系统

介绍问题回答是信息检索和自然语言处理(NLP)中的一项任务,该任务调查可以回答人类以自然语言提出的问题的程序。 在“提取性问题解答”中,提供了一个上下文,以便模型可以引用该上下文并预测答案在段落中的位置。在本文中,我们将向您展示如何使用Huggingface Transformers库提供的预训练模型来实现问题解答。 由于实现起来非常简单,因此您可以在数分钟内使您的问题回答系统快速运行!现在,让我们开始吧!目录步骤1:安装库步骤2:导入库步骤3:构建管道步骤4:定义上下文和问题步骤5:.

2021-01-20 08:38:54 4186 1

原创 在向量化NumPy数组上进行移动窗口操作

今天很有可能你已经做了一些使用滑动窗口(也称为移动窗口)的事情,而你甚至不知道它。例如:许多编辑算法都是基于移动窗口的。在GIS中做地形分析的大多数地形栅格度量(坡度、坡向、山坡阴影等)都基于滑动窗口。很多情况下,对格式化为二维数组的数据进行分析时,都很有可能涉及到滑动窗口。滑动窗口操作非常普遍,非常有用。它们也很容易在Python中实现。学习如何实现移动窗口将把你的数据分析和争论技能提升到一个新的水平。什么是滑动窗?下面的例子显示了一个3×3(3×3)滑动窗口。用红色标注的数组元素是目标元素。这是滑

2021-01-19 09:07:04 3749

原创 5个简单的步骤使用Pytorch进行文本摘要总结

介绍文本摘要是自然语言处理(NLP)的一项任务,其目的是生成源文本的简明摘要。不像摘录摘要,摘要不仅仅简单地从源文本复制重要的短语,还要提出新的相关短语,这可以被视为释义。摘要在不同的领域产生了大量的应用,从书籍和文献,科学和研发,金融研究和法律文件分析。到目前为止,对抽象摘要最有效的方法是在摘要数据集上使用经过微调的transformer模型。在本文中,我们将演示如何在几个简单步骤中使用功能强大的模型轻松地总结文本。我们将要使用的模型已经经过了预先训练,所以不需要额外的训练:)让我们开始吧!步骤.

2021-01-18 08:40:48 3762

原创 泊松分布

一个故事:你已经做了10年的自由职业者了。到目前为止,你的平均年收入约为8万美元。今年,你觉得自己陷入了困境,决定要达到6位数。要做到这一点,你需要先计算这一令人兴奋的成就发生的概率,但你不知道怎么做。在世界上有许多场景,其中存在某个随机事件的已知概率,企业希望发现该事件在未来发生的概率大于或小于这个概率。例如,已经知道自己平均销售额的零售商所有者会试图猜测他们在黑色星期五或双十一等特殊日子能多赚多少钱。这将帮助他们储存更多的产品,并相应地管理他们的员工。在这篇文章中,我们将讨论用于模拟上述情况的泊松分

2021-01-17 09:24:57 3796

原创 用Pandas和Streamlit对时间序列数据集进行可视化过滤

用Pandas和Streamlit对时间序列数据集进行可视化过滤介绍我们每天处理的数据最多的类型可能是时间序列数据。基本上,使用日期,时间或两者同时索引的任何内容都可以视为时间序列数据集。在我们工作中,可能经常需要使用日期和时间本身来过滤时间序列数据。根据任何其他形式的索引过滤dataframe是一件相当麻烦的任务。尤其是当日期和时间在不同的列中时。幸运的是,我们有Pandas和Streamlit在这方面为我们提供帮助,并且可以方便的创建和可视化交互式日期时间过滤器。我认为我们大多数人对Pandas

2021-01-16 09:45:10 3814

原创 图解Transformer — Attention Is All You Need

2017年谷歌大脑在《注意力是你所需要的一切》一文中解释了Transformer 。本文是随着自然语言处理领域的发展而来的。许多最先进的NLP模型都是以Transformer 为基础建立的。Transformers是人们认为最复杂和无法理解的话题之一。在这篇文章中,我将给出关于Transformer理论知识,我希望在这篇文章的结尾,你将能够了解关于变压器实际工作原理。注:以下部份中为了方便将Transformer翻译为变压器Attention Is All You Need变压器基本上是一种机器学习

2021-01-15 08:49:56 3795

原创 数据相关的4种主要角色概述

“我们每天产生的数据量真是令人难以置信。以我们目前的速度,每天会产生2.5万亿字节的数据,但这个速度只会随着物联网(IoT)的发展而加快。——我们每天会创建多少数据?每个人都应该知道的令人振奋的数据,福布斯杂志,2018年早在2006年,英国数学家Clive Humby就将其称为“新石油”,15年过去了,现在人们似乎真的开始见证数据对商业的影响,现在每个人都想从中分一杯羹。与石油不同,数据不会被“用完”,因为数据可以无限更新。相比之下,我们认为这两者在某种意义上是相似的,就像石油一样,原始数据本身并没有

2021-01-14 08:58:48 3838

原创 使用Plotly创建带有回归趋势线的时间序列可视化图表

使用Plotly创建带有回归趋势线的时间序列可视化图表利用Pandas Groupby()、for loops和Plotly Scatter Graph对象结合Plotly Express趋势线创建带有回归趋势线的时间序列图。数据为了说明这是如何工作的,让我们假设我们有一个简单的数据集,它有一个datetime列和几个其他分类列。您感兴趣的是某一列(“类型”)在一段时间内(“日期”)的汇总计数。列可以是数字、类别或布尔值,但是这没关系。注意:初始部分包含用于上下文和显示常见错误的代码,对于现成的解

2021-01-13 09:03:00 3824

原创 Pyspark处理数据中带有列分隔符的数据集

本篇文章目标是处理在数据集中存在列分隔符或分隔符的特殊场景。对于Pyspark开发人员来说,处理这种类型的数据集有时是一件令人头疼的事情,但无论如何都必须处理它。数据集基本上如下所示:#first line is the headerNAME|AGE|DEPVivek|Chaudhary|32|BSCJohn|Morgan|30|BEAshwin|Rao|30|BE数据集包含三个列" Name ", " AGE ", " DEP “,用分隔符” | "分隔。如果我们关注数据集,它也包含’ |

2021-01-12 08:23:21 3819

原创 股票市场交易中的强化学习

在深度学习的世界中,无论您的模型多么先进,没有充分对业务充分理解和干净的数据都不会走得太远。这个事实在金融领域尤其如此,在我们的数据集中,只存在股票的开盘价,最高价,最低价,调整后的收盘价和交易量的5个变量。在第一幅图中,不难发现这些原始数据值不足以训练机器学习模型。高度相关的变量乍看起来似乎很有希望,但是相关系数极高的缺点是实际上没有那么多的信息。数据集基本上有五个数字,它们对模型说的完全相同,这使得模型很难理解允许机器学习交易者获利的市场波动的复杂性。数据的相关性显示在下面的分散矩阵内,其中对角线是

2021-01-11 08:48:06 3860

原创 使用Python过滤相似的文本的简单方法

问题假设你在存档中有成千上万的文档,其中许多是彼此重复的,即使文档的内容相同,标题不同。 现在想象一下,现在老板要求你通过删除不必要的重复文档来释放一些空间。问题是:如何过滤标题足够相似的文本,以使内容可能相同? 接下来,如何实现此目标,以便在完成操作时不会删除过多的文档,而保留一组唯一的文档? 让我们用一些代码使它更清楚:titles = [ "End of Year Review 2020", "2020 End of Year", "January Sales Proje

2021-01-10 09:10:56 4183

原创 提高数据科学家讲故事能力的5个小技巧

学习如何利用正确的工具成为一个有效的讲故事者讲故事已经存在很久了。它帮助人们更好地理解发生在他们周围和之前的事情。人们不仅用它来吸引面前的观众的注意力,也吸引追随他们的人。讲故事是一门艺术。随着时间的推移,讲故事的技巧、方法和工具发生了变化,但主要概念和目标保持不变,即有效地吸引你的观众,使他们能够真正地与你所说的联系起来。作为数据科学家,我们也被教导要善于讲故事。原因是我们经常需要向不同的利益相关者展示我们的工作。因为他们来自不同的背景,所以我们必须相应地改变我们的语气。但在任何情况下,你的故事都

2021-01-09 08:45:15 3931

原创 单变量和多变量对基因表达式的预测能力对比

在这篇文章中,我们将比较LASSO、PLS、Random Forest等多变量模型与单变量模型的预测能力,如著名的差异基因表达工具DESeq2以及传统的Mann-Whitney U检验和Spearman相关。使用骨骼肌RNAseq基因表达数据集,我们将展示使用多变量模型构建的预测得分,以优于单变量特征选择模型。骨骼肌RNAseq基因表达数据在这里,我们将量化几种特征选择方法的预测能力:a)单变量(逐个)特征选择,b)多变量(一起)特征选择。出于演示目的,我们将使用来自GTEX人体组织基因表达联盟的骨骼.

2021-01-08 08:59:25 3835

原创 OpenAI的新模型DALL·E:可以从文字说明生成图像

OpenAI成功地训练了一个能够从文字标题生成图像的网络。它非常类似于GPT-3和图像GPT,并产生惊人的结果。DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本,使用了120亿个参数,而不是1750亿个参数。但它已经经过专门训练,可以从文本描述生成图像,使用的是文本-图像对的数据集,而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像,就像GPT-3创建网站和故事一样。DALL-E与GPT-3非常相似,它也是一个transformer

2021-01-07 08:40:52 7075 1

原创 2012到2020主要的CNN架构总结

卷积神经网络(CNN或ConvNet)是理解图像内容的最佳学习算法之一,并且在图像分割,分类,检测和检索相关任务中表现出出色的表现。 有许多公司,例如Google,Microsoft,AT&T,NEC和Facebook,已经建立了活跃的研究小组来探索CNN的新架构。什么是CNN?CNN被设计用于图像识别任务,最初是用于手写数字识别的挑战(Fukushima 1980,LeCun 1989)。 CNN的基本设计目标是创建一个网络,其中网络早期层的神经元将提取局部视觉特征,而后期层的神经元将这些特征组合起.

2021-01-06 09:07:35 4140

原创 使用用测试时数据增强(TTA)提高预测结果

数据增强是一种用于提高计算机视觉问题神经网络模型的性能和减少泛化误差的技术。当使用拟合模型进行预测时,也可以应用图像数据增强技术,以允许模型对测试数据集中每幅图像的多个不同版本进行预测。对增强图像的预测可以取平均值,从而获得更好的预测性能。在本文章中,您将发现测试时的增强,以改进用于图像分类任务的模型的性能。完成本文章后,您将知道:TTA是数据增广技术的应用,通常用于在训练中进行预测。如何在Keras中从头开始实现测试时增强。如何使用TTA来提高卷积神经网络模型在标准图像分类任务中的性能。测试

2021-01-05 09:23:24 4206

原创 使用贝叶斯统计来进行更好更直观的A/B测试

为什么要使用贝叶斯A / B测试代替传统方法A / B测试是当今技术,市场营销和研究中最有用的统计技术之一。它的价值在于A / B测试可让您确定因果关系,而大多数分析仅揭示相关性(即古老的格言“相关性而非因果关系”)。尽管A / B测试功能强大且流行程度很高,但绝大多数A/B测试都遵循一种基于频率主义统计学派的t测试的单一方法。本文将介绍A/B测试的另一种方法。这种替代方法使用了贝叶斯统计学派,本文将演示这种方法如何比传统的、频繁的方法返回更直观的结果。传统的、频繁主义的方法使用假设作为A/B测试的框架

2021-01-04 08:56:57 4083

原创 使用Fastai中的学习率查找器和渐进式调整大小提高训练效率

当我第一次开始使用fastai时,我非常兴奋地建立并训练了一个深度学习模型,它可以在很短的时间内产生惊人的结果。我将在本文的最后链接我以前的文章,在这些文章中我用fastai记录了我的学习过程。????获得数据我们需要这些数据来开始。它来自于Kaggle的石头剪刀布数据集。这个任务变成了一个多类图像分类问题,有三个类(每个类都有训练,验证,测试文件夹)包含大小为300x300的RGB颜色图像。导入fasti vision的所有函数并设置path变量。from fastai.vision.all i

2021-01-03 09:43:37 3754

原创 2021年成为数据科学家最需要学习的7项技能

介绍这七个最推荐的数据科学的技能是从许多业内从@谷歌主管工程@ NVIDIA的高级主管,和数据科学与工程的副总裁@ Wealthsimple等业内从业员讨论,得出的结论,希望对你有帮助虽然这篇文章可能更多的是轶事,但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据,因为从我的经验来看,职位描述和实际工作之间似乎有很大的脱节。您可能会注意到,这七个技能中的任何一个都与机器学习或深度学习无关,这不是一个错误。当前,对在建模前和建模后阶段使用的技能有更高的要求。因此,最受推.

2021-01-02 08:37:56 3849

原创 2020年人工智能论文总结

尽管今年世界上发生了这么多事情,我们还是有机会看到很多惊人的研究成果。特别是在人工智能领域。此外,今年还强调了许多重要的方面,比如伦理方面、重要的偏见等等。人工智能以及我们对人类大脑及其与人工智能的联系的理解在不断发展,在不久的将来显示出有前途的应用。以下是本年度最有趣的研究论文,如果你错过了其中的任何一篇的话。简而言之,它基本上是一个根据发布日期列出的人工智能和数据科学最新突破的列表,配有清晰的视频解释、更深入的文章链接和代码(如果适用的话)。本文最后列出了每篇论文的完整参考文献。YOLOv4: .

2021-01-01 10:03:21 4233 1

原创 理解高斯混合模型中期望最大化的M-Step

在本篇文章中将解释高斯混合模型(GMM)的关键部分背后的数学原理,即期望最大化(EM),以及如何将这些概念转换为Python。 这个故事的重点是EM或M-Step。注意:这不是有关端到端GMM算法的全面说明。 要进行更深入的研究,请参阅我们以前翻译的文章。期望最大化GMM中有一系列步骤,通常称为“期望最大化”,简称“ EM”。 要解释如何理解EM数学,请首先考虑您可能要处理的模型。样本由图形上的点表示。这些点形成一些不同的斑点。每个斑点都有一个中心,每个点都与每个斑点的中心相距一定距离。给定GMM

2020-12-31 08:50:02 3789

原创 用于多关系数据的图神经网络R-GCNs

本文描述如何扩展图神经网络(GNNs)的最简单公式,以编码知识图谱(KGs)等多关系数据的结构。这篇文章包括4个主要部分:介绍了描述KGs特性的多关系数据的核心思想;GNN体系结构中包含的标准组件摘要;gnn最简单公式的描述,称为图卷积网络(GCNs);讨论如何以关系图卷积网络(R-GCN)的形式扩展GCN层,对多关系数据进行编码。知识图作为多关系数据基本图结构包括用于连接节点的无向,无类型和唯一边。 例如,在哲学领域,我们可以定义两个由“苏格拉底”和“柏拉图”实体表示的节点之间的链接。.

2020-12-30 09:23:34 3646

原创 使用遗传交叉算子进行过采样处理数据不平衡

交叉/重组过采样为数据集增加了新特征,并且在分类指标,SMOTE和随机过采样方面得分很高除了随机过采样,SMOTE及其变体之外,还有许多方法可以对不平衡数据进行过采样。 在使用scikit-learn的make_classification默认设置生成的分类数据集中,使用交叉操作生成的样本在最相关的指标上胜过SMOTE和随机过采样。本篇文章的目录如下介绍数据准备随机过采样和SMOTE交叉过采样绩效指标评估结论介绍我们中的许多人都会遇到处于使用不平衡数据集的预测模型的情况。最流行的处

2020-12-29 09:12:29 3648

原创 NumPy中的广播:对不同形状的数组进行操作

NumPy是用于Python的科学计算库。 它是数据科学领域中许多其他库(例如Pandas)的基础。在机器学习领域,无论原始数据采用哪种格式,都必须将其转换为数字数组以进行计算和分析。 因此,需要对阵列进行快速,鲁棒和准确的计算,以对数据执行有效的操作。NumPy是科学计算的主要库,因为它提供了我们刚刚提到的功能。 在本文中,我们重点介绍正在广播的NumPy的特定类型的操作。广播描述了在算术运算期间如何处理具有不同形状的数组。 我们将通过示例来理解和练习广播的细节。我们首先需要提到数组的一些结构特性

2020-12-28 08:42:14 3747

原创 使用TensorFlow和深度混合学习进行时间序列预测

在本文中,我们将看到深度混合学习如何应用于时间序列数据,以及它是否与图像数据一样有效。在这篇文章中,我将使用Kaggle的太阳黑子数据。如上所述,数据可以很容易地从GitHub项目TimeSeries-Using-TensorFlow下载。我鼓励大家使用谷歌协作笔记本,因为所需的模块已经安装好了,基础设施也准备好了。现在,让我们开始吧!下载并加载数据数据下载使用只需要一个简单的命令-!wget — no-check-certificate https://raw.githubusercontent.

2020-12-27 10:01:49 3547

原创 Pytorch中的分布式神经网络训练

随着深度学习的多项进步,复杂的网络(例如大型transformer 网络,更广更深的Resnet等)已经发展起来,从而需要了更大的内存空间。 经常,在训练这些网络时,深度学习从业人员需要使用多个GPU来有效地训练它们。 在本文中,我将向您介绍如何使用PyTorch在GPU集群上设置分布式神经网络训练。通常,分布式训练会在有一下两种情况。在GPU之间拆分模型:如果模型太大而无法容纳在单个GPU的内存中,则需要在不同GPU之间拆分模型的各个部分。跨GPU进行批量拆分数据。当mini-batch太大而无

2020-12-26 09:46:10 3583

原创 在NLP中结合文本和数字特征进行机器学习

应用于自然语言处理的机器学习数据通常包含文本和数字输入。例如,当您通过twitter或新闻构建一个模型来预测产品未来的销售时,在考虑文本的同时考虑过去的销售数据、访问者数量、市场趋势等将会更有效。您不会仅仅根据新闻情绪来预测股价的波动,而是会利用它来补充基于经济指标和历史价格的模型。 这篇文章展示了如何在scikit-learn(对于Tfidf)和pytorch(对于LSTM / BERT)中组合文本输入和数字输入。scikit-learn(例如用于Tfidf)当你有一个包含数字字段和文本的训练data

2020-12-25 09:04:52 3679

原创 Jupyter Notebooks嵌入Excel并使用Python替代VBA宏

以前,Excel和Python Jupyter Notebook之间我们只能选择一个。 但是现在随着PyXLL-Jupyter软件包的推出,可以将两者一起使用。在本文中,我将向你展示如何设置在Excel中运行的Jupyter Notebook。 在这两者之间共享数据,甚至可以从Excel工作簿调用Jupyter笔记本中编写的Python函数!开始首先,要在Excel中运行Python代码,你需要使用PyXLL包。 PyXLL使我们可以将Python集成到Excel中,并使用Python代替VBA。 .

2020-12-24 09:38:36 11165 8

原创 TensorFlow Quantum:建立在量子架构上工作的机器学习模型

TensorFlow Quantum是一个开源堆栈,向我们展示了量子和机器学习的未来可能会是什么样子量子计算和人工智能(AI)的交叉有望成为整个科技史上最引人注目的工作之一。量子计算的出现可能会迫使我们重新设想几乎所有现有的计算范式,人工智能也不例外。然而,量子计算机的计算能力也有可能加速人工智能的许多领域,这些领域目前仍不实用。人工智能和量子计算协同工作的第一步是将机器学习模型重新构想为量子架构。最近,谷歌开源TensorFlow Quantum框架,用于构建量子机器学习模型。TensorFlow

2020-12-23 08:49:49 6403 2

原创 利用VAE LSTM生成时间序列

用生成式深度学习模型填充时间序列随着时间的推移,用于生成的深度学习模型的使用正变得越来越流行。这些类型的模型被称为生成算法,在研究一个参考群体后被用于在各个领域生成新的和不可见的样本。这些技术最著名的应用是在计算机视觉领域,各种应用程序可以生成以前不存在的图像。生成模型的效用是多种多样的和领域相关的。它们可以用于以快速的方式创建新实例,而手动创建新实例的成本更高,或者也不可能。它们可以模拟一些未被记录或遗漏的情况。它们可以用来生成不同的副本,这些副本与原始副本不同,具有一定程度的噪音,从而拥有足够的样

2020-12-22 09:15:11 3891

原创 scikit-learn中的自动模型选择和复合特征空间

使用scikit-learn管道自动组合文本和数字数据有时,机器学习模型的可能配置即使没有上千种,也有数百种,这使得手工找到最佳配置的可能性变得不可能,因此自动化是必不可少的。在处理复合特征空间时尤其如此,在复合特征空间中,我们希望对数据集中的不同特征应用不同的转换。一个很好的例子是将文本文档与数字数据相结合,然而,在scikit-learn中,我找不到关于如何自动建模这种类型的特征空间的信息。使用scikit-learn管道可以更有效地工作,而不是手动将文本转换成词袋,然后再手动添加一些数字列。这篇文

2020-12-21 08:53:58 3770

原创 如何使用PCA去除数据集中的多重共线性?

多重共线性是指自变量彼此相关的一种情况。当你拟合模型并解释结果时,多重共线性可能会导致问题。数据集的变量应该是相互独立的,以避免出现多重共线性问题。在本文中,您可以阅读为什么多重共线性是一个问题,以及如何使用主成分分析(PCA)消除数据集中的多重共线性。为什么多重共线性是一个潜在的问题?多重共线性高度影响与问题相关的方差,也会影响模型的解释,因为它削弱了自变量的统计显著性。对于一个数据集,如果一些自变量彼此高度独立,就会导致多重共线性。任何一个特征的微小变化都可能在很大程度上影响模型的性能。换句话.

2020-12-20 09:38:01 3690

原创 自动驾驶:Lidar 3D传感器点云数据和2D图像数据的融合标注

自动驾驶汽车的发展已经见证了硬件传感器记录感官数据的容量和准确度的发展。传感器的数量增加了,新一代传感器正在记录更高的分辨率和更准确的测量结果。 在本文中,我们将探讨传感器融合如何在涉及环环相扣的数据标记过程中实现更高程度的自动化。所有自动驾驶汽车(AV)都使用一组硬件传感器来识别周围的物理环境。硬件传感器包括摄像机或一组摄像机,这些摄像机战略性地放置在车辆车身周围,以捕获2D视觉数据,以及一些安装在车辆顶部的雷达,以捕获3D位置数据。有一些像特斯拉这样的供应商认为,视觉数据足以让汽车识别其环境。其他供应

2020-12-19 09:22:36 4095

原创 在PyTorch中使用DeepLabv3进行语义分割的迁移学习

当我在使用深度学习进行图像语义分割并想使用PyTorch在DeepLabv3[1]上运行一些实验时,我找不到任何在线教程。并且torchvision不仅没有提供分割数据集,而且也没有关于DeepLabv3类内部结构的详细解释。然而,我是通过自己的研究进行了现有模型的迁移学习,我想分享这个过程,这样可能会对你们有帮助。在本文中,我将介绍如何使用预先训练的语义分割DeepLabv3模型,通过使用迁移学习在PyTorch中进行道路裂缝检测。同样的过程也可以应用于调整自定义数据集的网络。介绍让我们首先简要介绍

2020-12-18 09:00:45 3832

原创 如何在Windows上安装和渲染OpenAI-Gym

如何在Windows上安装和渲染OpenAI-Gym在Windows上渲染OpenAI-Gym的指南OpenAI Gym是学习和开发强化学习算法的好地方。 它提供了许多有趣的游戏(所谓的“环境”),你可以将自己的策略用于测试。 例如,它有一些简单的游戏,例如在小推车上平衡垂直杆(“ CartPole-v1”),将钟摆摆到直立位置(“ Pendulum-v0”),以及一些经典的电子游戏,例如Space Invader 和Pin Ball。然而,gym是设计在Linux上运行的。尽管它可以使用Conda

2020-12-17 08:35:43 3806

原创 如何通过抽样分布估计你的模型的不确定性

当开始一个新的数据科学项目时,首要任务之一将是获取数据,以便能够评估项目的范围,并开始了解可以实现的目标。如果条件允许拥有一个大的的数据集来进行研究是非常好的情况,然而更多的时候,你将获得一个小的数据集来构建一个基线模型,然后,随着时间的推移,你将收集更多的数据,重新训练你的模型,并改进它。这种情况在加入一家传统上不是“数据驱动”,而是刚刚开始发现数据科学能为他们做什么的公司时很常见。虽然我们知道使用小数据集会导致模型在训练期间快速过拟合,但还有一个经常很少讨论的问题,即模型性能的不确定性问题。在这篇文章

2020-12-16 08:46:51 3784

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除