作者文章归档:course

Python数据预处理技术与实践-V2


《Python数据预处理技术与实践》读书摘要

《Python数据预处理技术与实践》是一本专注于Python在数据预处理领域应用的书籍,由白宇超、唐俊、文著,清华大学出版社出版。

主要内容:

• 基础工具与环境:开篇介绍了Python在数据预处理中的重要性,以及相关的开发环境和工具,如NumPy、SciPy、Pandas等的安装与基本使用,让读者对数据处理的基础工具有清晰的认识。例如,详细讲解了NumPy数组的创建、运算,Pandas的Series和DataFrame数据结构及其操作,为后续的数据预处理操作奠定基础。

• 数据采集与存储:涵盖了多种数据采集方式,包括从网络爬虫获取数据、与数...

Read more

Python数据科学与机器学习:从入门到实践


《Python数据科学与机器学习:从入门到实践》读书摘要

《Python数据科学与机器学习:从入门到实践》是一本全面介绍Python在数据科学与机器学习领域应用的书籍,由[美]弗兰克·凯恩著,陈光欣译,中国工信出版集团和人民邮电出版社出版。

主要内容:

• 基础入门:本书从Python的安装和基础语法讲起,包括数据结构(如列表、元组、字典等)、函数、循环等内容,帮助读者快速搭建Python编程环境并掌握基本编程概念,为后续的数据科学与机器学习学习奠定基础。例如,详细介绍了如何使用Python中的NumPy、SciPy等包进行统计计算,如计算均值、中位数、众数、方差、标准差等,还讲解了各种...

Read more

讯飞听见-语音转文字


该网页主要介绍了讯飞听见的相关功能与服务,具体内容如下: 1. 转写优势 - 准确率高:转写准确率最高可达 98%,此结果由安徽电子产品监督检验所评测所得。 - 出稿速度快:1 小时音视频最快 5 分钟出稿。 2. 功能特性 - 录音转写功能:支持实时录音,边录边转;提供 AI 会议纪要一键成稿功能;音频与转写结果字音对应,方便实时编辑;多端互通且数据云端加密,手机电脑端数据可互通。 - 语言支持:支持日、韩、粤等多种语言。 - 内容处理功能:能进行文章润色,优化出文效果;可快速定位原文内容。 3. 专业服务 - 人工精转服务:有经验丰富的专业速记团队...

Read more

模型仓库架构


模型仓库架构是用于存储、管理和部署机器学习模型的系统设计。以下是其关键组成部分和架构设计:

1. 核心组件

  • 模型存储:集中存储训练好的模型文件,支持版本控制。
  • 元数据管理:记录模型的训练数据、超参数、性能指标等。
  • 版本控制:管理模型的不同版本,便于回滚和比较。
  • 访问控制:确保只有授权用户或系统能访问和操作模型。
  • 部署接口:提供API或其他接口,支持模型部署和推理。

2. 架构设计

  • 存储层:使用对象存储(如S3)或分布式文件系统(如HDFS)存放模型文件。
  • 元数据层:通过数据库(如MySQL、PostgreSQL)或NoSQL(如MongoDB)管理模型元数据。
  • 服务层:提供REST...

Read more

FlagOpen-模型仓库


FlagOpen 大模型技术开源体系提供了多个模型仓库,涵盖了从算法、工具到评测的完整生态。以下是 FlagOpen 相关的模型仓库及其主要功能:


1. FlagAI

  • 功能:FlagAI 是一个一站式大模型算法、模型及工具开源项目,集成了全球主流大模型算法技术,支持高效训练和微调。它涵盖了语言大模型(如 OPT、T5)、视觉大模型(如 ViT、Swin Transformer)以及多模态大模型(如 CLIP)等多个领域。
  • 项目地址FlagAI GitHub

2. FlagEmbedding

  • 功能:FlagEmbedding 是一个专注于文本检索和语义表示的开源库,支持多种语言...

Read more

FlagOpen-大模型技术开源体系


FlagOpen 是由北京智源人工智能研究院(简称“智源”)推出的大模型技术开源体系,旨在打造大模型领域的“新 Linux”生态,推动大模型技术的协同创新与开放竞争。以下是关于 FlagOpen 的详细介绍:

1. FlagOpen 的核心目标

FlagOpen 的目标是构建一个全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,降低大模型的开发门槛,支持全球开发者、企业和科研机构在大模型领域的创新与应用。其核心理念是通过开源开放的方式,推动大模型技术的普及和生态建设,形成类似 Linux 的开源生态体系。

2. FlagOpen 的主要组成部分

FlagOpen 包含多个开源项目...

Read more

VC投资全流程解析:从接触到退出


VC(风险投资)投资一个项目的流程通常包括多个阶段,从初步接触到最终退出。以下是完整的流程梳理:


1. 项目筛选(Deal Sourcing)

VC通过多种渠道寻找潜在的投资项目: - 主动寻找:通过行业研究、创业大赛、孵化器等渠道发现优质项目。 - 推荐:通过人脉网络、其他投资人、创业者的推荐。 - 投递:创业者主动向VC提交商业计划书(BP)。


2. 初步接触(Initial Contact)

  • BP审核:VC团队审核创业者的商业计划书,评估项目的市场规模、团队背景、商业模式等。
  • 初步沟通:与创业者进行初步会议或电话沟通,了解项目的基本情况。

3. 项目评估(Due Dili...

Read more

训练一个10亿参数(1B)的金融大模型的成本-V2


训练一个10亿参数(1B)的金融大模型的成本取决于多个因素,包括硬件、数据、训练时间、云服务费用等。以下是一个详细的成本估算:


1. 硬件成本

训练大模型通常需要高性能GPU,以下是常见的硬件需求: - GPU选择:NVIDIA A100(40GB或80GB)是常用的选择,单卡价格约为10万元人民币。 - GPU数量:训练1B参数的模型通常需要8-16块GPU并行训练。 - 如果使用8块A100,硬件成本约为 80万元人民币。 - 如果使用云服务(如AWS、Azure、阿里云等),可以按需租用,避免一次性硬件投入。


2. 云服务成本

如果使用云服务,成本会按小时计算。以下是估...

Read more

MQ的消息必达


要确保消息队列(MQ)中的消息必达,需要从多个方面进行设计和实现。以下是一些关键策略:

1. 消息持久化

  • 持久化存储:将消息写入磁盘,防止系统崩溃时丢失。
  • 日志记录:使用日志记录消息状态,便于恢复。

2. 消息确认机制

  • 生产者确认:生产者发送消息后,等待MQ的确认。
  • 消费者确认:消费者处理完消息后,向MQ发送确认,MQ才删除消息。

3. 重试机制

  • 生产者重试:发送失败时,生产者自动重试。
  • 消费者重试:处理失败时,消费者可重试或进入死信队列。

4. 事务支持

  • 事务消息:确保消息发送和业务操作在一个事务中,要么都成功,要么都失败。

5. 高可用性

  • 集群部署:通过集群避免单点...

Read more