本项目以应用为主出发,结合了从基础的机器学习、深度学习到目标检测以及目前最新的大模型,采用目前成熟的 第三方库、开源预训练模型以及相关论文的最新技术,目的是记录学习的过程同时也进行分享以供更多人可以直接 进行使用。
本人自己目前属于自己创业,目前要时围绕各类算法场景的应用开发,目前主要的领域为船舶、教育以及企业定制的开发
对应每个案例将采用独立的文件夹的方式进行管理,非源码的可以参考对应的文档进行相关依赖的安装,部分存在源码的则可以 通过源码中对应的requirements.txt安装对应的依赖。
- 基于numpy实现的机器学习算法: 主要是讲述底层的算法的逻辑,实际使用中往往采用第三方库来实现
- 基于sklearn的机器学习算法: 主要是讲述如何使用第三方类库快速使用成熟的算法
- 预处理技术: 其主要包含针对机器学习工程中针对数据的预处理的部分的算法
- 特征工程: 主要是围绕各类数据分析场景下针对数据的特征表示的算法
- 挖掘频繁项集: 主要是采用numpy与sklearn的方式实现这类算法
-
SigLIP 图文对照模型: 大量的多模态模型的图像特种提取必使用的模型,本文档基于目前主流的
siglip-so400m-patch14-384
模型进行编写,开发多模态大模型必须掌握的图像特征提取库 -
InternVideo2 多模态视频理解模型: 由于上海人工智能实验室(General Vision Team of Shanghai AI Laboratory)推出的针对视频理解的模型,目前针对视频理解的论文逐渐将其作为融合siglip来实现针对视频&图片场景的多模态大模型的基础组件
- Spark ML的使用方式: 目前该技术的应用场景逐步减少,本教程也是基于较老的版本进行编写,读者需要根据自己的使用 以及目前最新的文档结合进行对应的API调整。
—————— 以下为未重构的老版本 ————————
- 相关基本术语介绍
- 介绍关于各类NMS相关的概念以及对应的实现方式
- 关于Yolo模型中输入图片尺寸的影响分析
- 针对Yolo训练结果的评估验证
- 数据增强技术的分析
- 边缘检测图像增强技术
- yolo网络层剖析
- yolo各个版本的使用方式
可使用numpy.random中的randn、standard_normal和normal
返回随机正态分布的数组,其
中normal
是普遍使用的方法。
即衡量目标的单位或方法,这里我们列举几个在互联网中比较常见的指标进行说明:
- PV:页面浏览树数,即每天的点击数。
- UV:独立用户数,即每天每个用户的浏览数。
- DAU:日活跃用户数,即每天活跃的用户数量。
当然指标不仅仅只有上面还有MAU
、LTV
和ARPU
等,每个指标都要满足以下几点:
- 数字化
- 易衡量
- 意义清晰
- 周期适当
- 尽量客观