数据科学-Books


《数据科学》书籍摘要

《数据科学》是一本全面介绍数据科学相关知识的书籍,内容涵盖了数据科学的发展历史、数据处理、数据分析、数据可视化等多个方面,为读者提供了一个系统的数据科学学习框架。

书中首先介绍了数据科学的发展历程,阐述了数据科学研究的主要问题以及数据科学的主要方法,强调了R语言在数据科学中的优势。这部分内容为后续深入学习数据科学奠定了基础。

在数据读写方面,详细讲解了如何进行数据的读入和写出,包括直接输入数据、从文件中读取数据、从外部文件读入数据、批量读入数据等,同时也指出了R语言读取文件时常见的错误。这对于数据处理的初学者来说是非常实用的内容。

数据清洗与变换是数据处理中的重要环...

Read more

数据时代:可编程未来的哲学指南


《数据时代:可编程未来的哲学指南》摘要

一、书籍背景与总体架构

《数据时代:可编程未来的哲学指南》由意大利作者科西莫·亚卡托(Cosimo Accoto)所著,由何道宽翻译。这本书深入探讨了在数据时代背景下,技术与社会、哲学之间的交互影响。

从整体架构来看,全书分为多个章节,每个章节围绕一个核心主题展开,从不同角度审视了数据时代的种种现象与背后的哲学思考。

二、核心章节内容剖析

  1. 第一章:你好,新世界

• 这一章节为全书拉开了序幕,描绘了一个被数据和软件所包围的新兴世界。作者强调,我们正处于一个全新的时代,软件和数据如同空气一般无处不在,影响着我们生活的方方面面。

• 作者通过大量实例...

Read more

OpenWhisk-无服务器云原生分布式事件驱动编程服务平台


Apache OpenWhisk是一个开源的无服务器云原生分布式事件驱动编程服务平台。以下是对它的详细介绍:

核心架构

• 动作(Actions):是开发者编写的代码片段,也就是具体的业务逻辑,以函数形式存在,支持多种编程语言。

• 触发器(Triggers):用于定义事件源,如HTTP请求、定时器、消息队列、数据库事件等,当这些事件发生时会触发相应的动作执行。

• 规则(Rules):用于将触发器和动作进行绑定,定义了在何种事件触发时执行哪个动作。

• 包(Packages):将相关的动作、触发器、规则等组合在一起,方便管理和共享,还可以集成一些外部服务或库。

特点

• 事件驱动:通过...

Read more

Apache OpenWhisk学习手册


这本书是《Apache OpenWhisk学习手册》,作者是[美]米歇尔·西巴拉(Michele Sciabarra),由胡亚慧、唐晓、陈新翻译,由中国电力出版社出版。这本书主要讲解了如何使用Apache OpenWhisk进行开发,涵盖了从基础概念到实际应用的多个方面,适合想要深入学习和掌握OpenWhisk技术的读者。

以下是这本书的目录:

第一部分 OpenWhisk开发介绍

  1. 无服务器和OpenWhisk体系结构

  2. 一个简单的OpenWhisk程序

  3. OpenWhisk CLI和JavaScript API

  4. OpenWhisk通用设计模式

  5. OpenWhisk中的集成...

Read more

无服务器架构-


  1. 定义
  2. 无服务器架构(Serverless Architecture)是一种云计算架构模式,它让开发者能够在无需关注服务器的配置、维护和管理的情况下构建和运行应用程序。在这种架构中,云服务提供商负责服务器的管理工作,包括服务器的部署、维护、扩展和安全等方面,而开发者只需专注于编写和部署代码来实现应用程序的功能。

  3. 核心组件和技术

  4. 函数即服务(FaaS - Function as a Service)
    • 这是无服务器架构的关键技术。开发者将应用程序逻辑拆分成一个个独立的函数,这些函数可以被事件触发(如HTTP请求、数据库更新、文件上传等)。例如,在一个电商网站中,一个函数可能负责处理用...

Read more

统计学习


统计学习是一门涉及统计学、计算机科学、数学等多领域的交叉学科,以下是其详细介绍:

基本概念

  • 定义:统计学习是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习。主要研究如何利用计算机从大量数据中学习有用的知识和规律,以实现对未知数据的预测、分类、聚类等任务。
  • 三要素
    • 模型:是对数据的一种抽象表示,例如线性回归模型、决策树模型、神经网络模型等。
    • 策略:用于衡量模型的好坏,通常基于损失函数来评估模型预测结果与真实结果之间的差异,如均方误差、交叉熵损失等。
    • 算法:指的是求解模型参数的具体方法,如梯度下降算法、牛顿法等,通过不断优化模型参数,使得损失函数达到最...

Read more

SSD模型


SSD(Single Shot MultiBox Detector)模型是一种先进的单阶段目标检测模型,以下是对其更详细的介绍:

网络结构

  • 特征提取网络:通常采用如VGG16、ResNet等预训练的卷积神经网络作为基础网络,对输入图像进行卷积运算以提取高层次的特征信息。
  • 多尺度检测网络:在基础网络的不同层上添加多个卷积层,用于生成不同尺度的特征图,实现多尺度检测。较浅的层生成的特征图可检测较大的物体,较深的层生成的特征图可检测较小的物体。

关键技术

  • 先验框(Default Boxes):在每个特征图上定义一系列不同形状和大小的先验框,其中心点在特征图上均匀分布,每个中心点对应多个先...

Read more

SSD-目标检测算法


SSD(Single Shot MultiBox Detector)是一种先进的目标检测算法,以下是对其的详细介绍:

发展历程

SSD由Wei Liu等人在2016年的ECCV会议上提出。它借鉴了YOLO的单阶段检测思想,并结合多尺度特征检测的优势,在实时性和准确性之间找到了良好平衡点。

算法原理

  1. 特征提取:使用预训练的卷积神经网络如VGG16或ResNet作为基础网络,提取图像特征。
  2. 多尺度特征图:在基础网络的不同层生成多尺度特征图,浅层特征图用于检测小目标,深层特征图用于检测大目标。
  3. 先验框(Default Boxes):在每个特征图上定义一系列不同形状和大小的先验框,其中心点在特...

Read more

R-CNN深度学习目标检测算法


R-CNN(Region-based Convolutional Neural Network)是一种具有开创性的深度学习目标检测算法,以下是对其详细介绍:

发展背景

在R-CNN出现之前,传统的目标检测方法主要基于手工特征和机器学习算法,如Haar特征和Adaboost分类器等,在面对复杂场景和多样化目标时,检测精度和效率都存在较大局限性。2014年,Ross Girshick等人提出了R-CNN,将卷积神经网络(CNN)引入目标检测领域,开启了基于深度学习的目标检测新时代。

算法原理

  • 图像输入与区域提取:首先将输入图像调整为固定大小,然后使用一种称为选择性搜索(Selective ...

Read more

Faster RCNN-深度学习目标检测框架


Faster RCNN是一种深度学习目标检测框架,以下是对其详细介绍:

发展历程

Faster RCNN由微软研究院的Shaoqing Ren、Kaiming He、Ross Girshick和Jian Sun共同开发。它是在R-CNN和Fast R-CNN基础上发展而来,R-CNN首次将CNN应用于目标检测,但训练过程繁琐且无法实现端到端;Fast R-CNN虽有所改进,但仍使用selective search算法生成目标候选框。Faster RCNN则使用RPN生成候选区域,摒弃了selective search算法,完全使用CNN解决目标检测任务。

算法原理

  • 特征提取:使用预训练...

Read more