算法矩阵提速原理

不管是图形还是AI,如果看过相关的算法,都会注意到矩阵运算,很多讲算法的教程都会说将for转换成矩阵,可以极大的增加效率。

但是这不是为难我们这些数学低能儿吗?矩阵运算这些高级货算是高级数学了,比CURD还是难多了。今天还是抽时间来看看。

其实就我来看,计算机懂个P的高等数学,什么线性代数,概率,微积分,对于计算机来说都没有意义,没有意义,没有意义。计算机懂得就是1+1=10。但是在实践中,很多算法一旦上了矩阵,就跟开了外挂一样,速度飞快,这个又是什么原因呢?难道真的计算机上了大学,学了高等数学?我觉得不是,原因还是和计算机中CPU的特性有关。要知道背后的原理,还是得从汇编着手。

(因为最近实在忙,目前的代码来自GPT,感觉不是很准,后面有时间会更新)

for的汇编:

section .text
global for_loop

for_loop:
    push ebp
    mov ebp, esp

    mov ecx, [ebp+8]  ; 循环计数器的上限
    mov eax, 0         ; 初始化计数器

loop_start:
    ; 这里执行循环体的操作

    inc eax            ; 计数器加一
    cmp eax, ecx       ; 比较计数器和上限
    jl loop_start      ; 如果计数器小于上限,则继续循环

    pop ebp
    ret

在 for 循环中,每次迭代都需要执行比较和条件跳转操作,以及计数器的增加操作。这意味着每次循环迭代都会有额外的指令开销和跳转开销。

矩阵的汇编(这里我是觉得没说全,应该涉及到_mm256_dp_ps这些指令):

section .text
global matrix_multiply

matrix_multiply:
    push ebp
    mov ebp, esp

    ; 这里执行矩阵乘法的操作

    pop ebp
    ret

而在矩阵运算中,尤其是矩阵乘法,通常会使用更多的向量化指令和并行化技术。这使得矩阵运算可以更有效地利用处理器的并行性和向量化能力,从而减少了指令级别的开销。

总的来说:

矩阵运算涉及大量的数据并行处理,可以更好地利用现代处理器的并行性能。矩阵运算通常涉及大规模的数据集,这意味着可以更好地利用处理器的缓存系统和数据局部性。矩阵运算往往可以通过优化算法和数据访问模式来提高计算效率,例如分块矩阵乘法、缓存优化等。

另外一方面可以掰扯的就是计算机历史了,这个就是先有鸡还是先有蛋的问题了。我自己买入的第一台计算机是MMX166,应该是97年。当时牛逼吹的非常响,说什么多媒体CPU,然后我就稀里糊涂买了。MMX是什么呢?MMX 指令集包括一系列针对整数运算和 SIMD(Single Instruction, Multiple Data,单指令,多数据)操作的指令。这些指令允许处理器同时对多个数据元素执行相同的操作,从而实现更高的数据吞吐量和更高的性能。MMX 指令集主要用于处理像素、音频和视频数据等多媒体应用程序。

这里又要说说图形,音视频的数据的一些特点了,这些数据就是矩阵运算的最好示范,现在的CPU架构中,为了加速这些运算,所以进行了很多特别的优化,比如超线程,SIMD等等。所以说计算机并不是天生就擅长矩阵运算,而是之前环境中,为了加速多媒体的处理,大神们在CPU中做了很多针对矩阵运算的强化和优化。相当于体系中有了一条高速的特别通道。

所以回到现在,为了使用这个特别通道,将很多运算写成矩阵运算的形式,就可以大大的加速。此外,很多AI算法本身从数学上来说也是矩阵运算,这个就更合适了。所以这里也解释了为什么GPU更适合处理AI算法,因为GPU本身是用来处理图像的,就是矩阵运算,从设计之初就这样考虑的。后面误打误撞发现也很适合干AI,老黄苏妈直接原地起飞,这个就是另外的一个故事了。

简而言之,在现在的CPU体系中,使用矩阵运算,可以更贴近现在的架构,比如Cache的结构,SIMD的指令集以及一些其它指令集。所以会觉得速度很快。

当然,也是看优化,如果说一个编译器能自动把多层的for优化到底,也是性能不会比矩阵运算差,就看有没有大神愿意出来干这事了。

参考:

27 | SIMD:如何加速矩阵乘法?_simd 矩阵乘法-CSDN博客

SIMD加速矩阵运算-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/583125.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

溪谷软件:游戏联运有多简单?

游戏联运,即游戏联合运营,是一种游戏运营模式,涉及到多个平台或公司共同推广和运营同一款游戏。对于开发者而言,游戏联运的简化程度可能因具体情况而异,但以下是一些因素,使得游戏联运在某种程度上变得更加…

J9inceptionv3

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊# 前言 上周学习了inceptionv1网络,这周学习其改进版本inceptionv3 简介 Inception v3是谷歌研究团队提出的深度卷积神经网络架构,通过…

Docker-compose 简单介绍

目录 一 Docker-compose与 Docker Swarm 1,docker-compose 出现的意义 2, Docker Compose 是什么 3,Docker Swarm 是什么 3,Docker Compose Docker Swarm 主要区别 二 Docker-compose 简介 1&#xff0…

鸿蒙开发接口Ability框架:【@ohos.ability.dataUriUtils (DataUriUtils模块)】

DataUriUtils模块 DataUriUtils模块提供用于处理使用DataAbilityHelper方案的对象的实用程序类的能力,包括获取,添加,更新给定uri的路径组件末尾的ID。 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口&#x…

windows ubuntu sed,awk,grep篇,8,Awk 语法和基础命令

目录 51.Awk 命令语法 52.Awk 程序结构(BEGIN,body,END)区域 53.打印命令 54.模式匹配 Awk 是一个维护和处理文本数据文件的强大语言。在文本数据有一定的格式,即每行数据包 含多个以分界符分隔的字段时,显得尤其有用。即便是输入文件没有一定的格式&a…

在使用ChatGPT之前,你真的知道这些吗?|TodayAI

当OpenAI在2022年11月发布ChatGPT时,它标志着技术领域的一次重大突破。ChatGPT是一个高级AI聊天机器人,它的功能几乎令人难以置信。过去的AI技术多年来一直在逐步发展,早期版本通常只能生成毫无意义的文本或质量较差的图片。这些早期的尝试虽…

安装 AngularJS

安装 AngularJS 文章目录 安装 AngularJS1. 使用在线 cdn2. 使用依赖管理工具 npm 1. 使用在线 cdn <!-- 1. 引入在线地址 --> <script src"http://code.angularjs.org/1.2.25/angular.min.js"></script><!-- 2. 下载到本地&#xff0c;引入文…

集合系列(二十二) -一文到你搞懂二叉树实现

一、介绍 在前面的文章中&#xff0c;我们对树这种数据结构做了一些基本介绍&#xff0c;今天我们继续来聊聊一种非常常用的动态查找树&#xff1a; 二叉查找树。 二叉查找树&#xff0c;英文全称&#xff1a;Binary Search Tree&#xff0c;简称&#xff1a;BST&#xff0c;…

js cookie和它的写入,读取,删除

什么是cookie Cookie 是直接存储在浏览器中的一小串数据&#xff0c;它们是 HTTP 协议的一部分 Cookie 通常是由 Web 服务器使用响应 Set-Cookie HTTP-header 设置的。然后浏览器使用 Cookie HTTP-header 将它们自动添加到&#xff08;几乎&#xff09;每个对相同域的请求中。…

升级价值主张 用友帮企业找到乘风破浪的“密码”

近期&#xff0c;用友发布了其战略级产品用友BIP的全新价值主张&#xff0c;将其从原来的“企业数智化 用友BIP”升级为“用友BIP 成就数智企业”。用友这次价值主张升级看似变动不大&#xff0c;实则大有深意。 顺势而为的主动升级 从当前数智化发展的形势来看&#xff0c;各…

牛客NC320 装箱问题【中等 动态规划,背包问题 C++/Java/Go/PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/d195a735f05b46cf8f210c4ad250681c 几乎完全相同的题目&#xff1a; https://www.lintcode.com/problem/92/description 思路 动态规划都是递归递推而来。php答案是动态规划版本&#xff0c;递归版本有 测试用…

ios CI/CD 持续集成 组件化专题五-(自动发布私有库-组件化搭建)

一&#xff1a;手动发布私有库总结 手动发布pod私有库&#xff0c;需要进行如下几步操作&#xff1a; 1、修改完代码之后&#xff0c;需要提交代码push到git仓库。 2、给代码打tag。 3、修改podspec文件的version值&#xff0c;使其和设置的tag一直。 4、命令行执行pod repo…

【蓝桥杯省赛真题41】python搬运物品方案 中小学青少年组蓝桥杯比赛 算法思维python编程省赛真题解析

目录 python搬运物品方案 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python搬运物品方案 第十三届蓝桥杯青少年组python省赛比赛 一、题目…

【CGALDotNet】二维矢量多边形可视域计算(C#调用CGAL)

参考 CGALDotNet快速开始&#xff1a;https://blog.csdn.net/liqian_ken/article/details/138274933 CGAL二维可视域计算介绍&#xff1a;https://doc.cgal.org/latest/Visibility_2/index.html#visibility_2_introduction CGAL相关接口&#xff1a;https://doc.cgal.org/late…

明日周刊-第8期

现在露营的人越来越多了&#xff0c;都是带着帐篷或者遮阳篷聚在一起喝喝茶聊聊天&#xff0c;这是一种很好的放松方式。最近我养了一只金毛&#xff0c;目前两个月大&#xff0c;非常可爱。 文章目录 一周热点资源分享言论歌曲推荐 一周热点 一、人工智能领域 本周&#xff…

2024.4.29

模板类实现顺序栈 #include <iostream>using namespace std; template <typename T> class Seqlite{T data[30];int len0; public:void head_inst(T date);void head_dele();void show(); }; template <typename T> //头插函数 void S…

如何快速申请SSL证书实现HTTPS访问?

申请SSL证书最简单的方法通常涉及以下几个步骤&#xff0c;尽量简化了操作流程和所需专业知识&#xff1a; 步骤一&#xff1a;选择适合的SSL证书类型 根据您的网站需求&#xff0c;选择最基础的域名验证型&#xff08;DV SSL&#xff09;证书&#xff0c;它通常只需验证域名所…

OpenAI 新推出 AI 问答搜索引擎——SearchGPT 震撼登场

您的浏览器不支持 video 标签。 OpenAI-SearchGPT 近日&#xff0c;OpenAI 曝光了自己的一款令人瞩目的 AI 问答搜索引擎——SearchGPT。这款搜索引擎带来了全新的搜索体验&#xff0c;给整个行业带来了巨大的压力。 SearchGPT 支持多种强大的功能。首先&#xff0c;它能够通过…

新一代状态空间模型网络替代Transformer 综述

本文首先初步介绍了状态空间模型&#xff08;SSM&#xff09;的工作原理。然后&#xff0c;从多个方面回顾SSM的相关工作&#xff0c;包括SSM的起源和变化、自然语言处理、计算机视觉、图、多模态处理、多模态和多媒体、点云/事件流数据、时间序列数据等领域的相关工作。 此外…

网络安全设计的技术有哪些?

目录 1. 防火墙 2. 入侵检测系统&#xff08;IDS&#xff09;和入侵防御系统&#xff08;IPS&#xff09; 3. 身份和访问管理&#xff08;IAM&#xff09; 4. 数据加密 5. 网络分割和虚拟化 6. 安全信息和事件管理&#xff08;SIEM&#xff09; 7. 端点保护 8. 配置管理…
最新文章