开云体育其中最见效的技俩之一是开源技俩 ApacheTVM-开云「中国」Kaiyun官网登录入口
  • 首页
  • 资讯
  • 娱乐
  • 新闻
  • 旅游
  • 汽车
  • 电影
  • 栏目分类
    新闻你的位置:开云「中国」Kaiyun官网登录入口 > 新闻 > 开云体育其中最见效的技俩之一是开源技俩 ApacheTVM-开云「中国」Kaiyun官网登录入口

    开云体育其中最见效的技俩之一是开源技俩 ApacheTVM-开云「中国」Kaiyun官网登录入口

    发布日期:2025-10-31 09:05    点击次数:85

    开云体育其中最见效的技俩之一是开源技俩 ApacheTVM-开云「中国」Kaiyun官网登录入口

    公众号难忘加星标⭐️,第一时辰看推送不会错过。

    源泉 : 内容来自半导体行业不雅察空洞 。

    东说念主工智能初创公司 Modular Inc.今天默示,其在第三轮融资中筹集了 2.5 亿好意思元(约18亿东说念主民币),公司估值达到 16 亿好意思元。

    此轮融资由 Thomas Tull 的好意思国立异科技基金领投,DFJ Growth 跟投。所有这个词现存投资者均参与了此轮融资,包括 Google Ventures、General Catalyst 和 Greylock Ventures。此轮融资使该公司的融资总数达到 3.8 亿好意思元。

    Modular 征战于 2022 年,它提供了一个平台,允许开发东说念主员在不同的算计机芯片(包括中央处理器、图形处理单位、专用集成电路和定制硅片)上运行 AI 应用要领,而无需重写或移动代码。

    在当年三年中,该公司构建了一个软件基础设施层和一种挑升的编程说话,旨在让企业或者在多种芯片和职业器上部署东说念主工智能模子。

    Modular 的耐久主张是为企业用户提供 AI 部署,解决面前碎屑化的生态系统,即需要为每个特定架构编写挑升的代码。该公司的平台是一个企业级 AI 推理堆栈,不错抽象出硬件。

    首席引申官克里斯·拉特纳 (Chris Lattner) 在一份声明中默示:“当咱们创立 Modular 时,咱们折服宇宙需要一个颐养的东说念主工智能平台,而今天,这一愿景比以往任何时候皆愈加伏击。”

    英伟达公司目下在东说念主工智能加快器市集占据主导地位。据测度,其 Hopper 和较新的 Blackwell 架构将为 70% 至 95%的东说念主工智能数据中心 GPU 提供缓助。英伟达独有的编程框架 CUDA 进一步牢固了这一主导地位,凭借其坚硬的并行算计能力,CUDA 已成为东说念主工智能开发事实上的圭表。

    挑战者如实存在,其中最引东说念主刺眼的是 AMD 公司,该公司坐褥Instinct AI 加快器并珍摄开源 ROCm 软件堆栈。但由于许多开发器用和推理平台皆是为 CUDA 编写的,移动到 ROCm 每每很艰难,这使得 AMD 处于不利地位。

    Modular 以为,通过赋予企业更多硬件遴荐目田,不错冲突供应商锁定,从而有契机冲突这种锁定。其平台依然缓助 Nvidia、AMD 和 Apple 定制芯片的架构。该公司默示,与 vLLM 和 SGLang 等最初框架比拟,其最新版块不才一代加快器(包括 Nvidia 的 B200 和 AMD 的 MI355)上的性能进步了 20% 至 50%。

    这一愿景似乎引起了共识:AMD、Nvidia 和亚马逊公司皆已加入成为生态系统和洽伙伴。Modular 还与东说念主工智能应用开发商和洽,举例与Inworld AI和洽加快语音合成,以及与运营 GPU 集群市集的San Francisco Compute Co.和洽。

    该公司总部位于旧金山湾区,职工东说念主数已最初 130 东说念主。借助新一轮融资,Modular 辩论在北好意思和欧洲地区扩大招聘范围,扩张其云平台,扩张对云和边际硬件的缓助,并将业务要点从推理畛域拓展到 AI 测验畛域。

    打造CUDA替代者

    构建 CUDA 替代决议从来皆不是一件容易的事。

    Chris Lattner 在 Modular 的 120 东说念主团队依然为此职责了三年,主张不仅是替换 CUDA,而是从新运行替换所有这个词这个词 AI 软件堆栈。

    “这需要什么?嗯,构建一个 CUDA 的替代品骨子上卓著艰难。这需要数年时辰,”Lattner默示。“在当年三年里,咱们一直在接头编程说话、图形编译器和 LLM 优化,把所有这个词这些事情皆整理好、大范围实施、测试和考据。”

    现存AI 软件堆栈的问题在于其快速兴起,况兼仍在快速发展;为了跟上新的用例和模子,层级被快速添加。如今,在 CUDA 之上,有像 OneMKL、用于推理职业的 vLLM、Nvidia 的 TensorRT-LLM 以及目下的 Nvidia 的 NIM 微职业这样的库——Lattner 称之为“一个高大的堆栈”。

    拉特纳指出,CUDA 自己已有 16 年历史。换句话说,它早在生成式 AI 用例出现之前,以及张量中枢和 FP4 等 GPU 硬件特点发明之前就依然存在了。

    拉特纳所说的“一次性框架”,即那些被袭取但在被取代之前寿命很短的堆栈部分,也船到抱佛脚迟。

    “一切皆在变化,它并非为通用性而假想的,它会渐渐隐没,”他说。“咱们正在为企业构建一个真确可扩张的技能平台,以便他们或者跟上东说念主工智能的步调。”

    还有其他技俩旨在取代 CUDA,或提供一定进度的 CUDA 代码可移植性,或两者兼容并蓄。

    其中最见效的技俩之一是开源技俩 ApacheTVM。TVM 的主要主张是通过自动化内核交融,使 AI 或者在各式硬件上高效运行。但事实知道,生成式 AI 是一项技能挑战,因为与传统的算计机视觉应用比拟,其算法例模更大、更复杂。生成式 AI 算法也更依赖于硬件(举例 FlashAttention)。TVM 的中枢孝敬者征战了一家名为 OctoAI 的公司,该公司为企业集群开发了一套生成式 AI 推理堆栈,但该公司最近被英伟达收购,这给该技俩的异日蒙上了一层暗影。

    另一项广为东说念主知的技能是 OpenCL,它是一项旨在收场 GPU 与其他硬件类型之间代码可移植性的圭表。该圭表已日常应用于移动和镶嵌式征战。但是,包括 Lattner 在内的月旦者指出,OpenCL 穷乏纯真性,无法跟上快速发展的 AI 技能,部分原因是它是由竞争公司之间的“竞合”所驱动,这些公司每每拒却清爽任何关联异日硬件功能的信息。

    拉特纳说,其他此类生意技俩仍处于早期阶段。

    他说:“构建一个演示、解决一个模子和一个用例与构建一个大范围通用的东西之间存在很大差距,这骨子上不错跟上东说念主工智能接头的步调,这是相配伏击的。”

    拉特纳默示,Modular 算作一家纯软件公司,更符合构建适用于所有这个词硬件的堆栈。

    “咱们仅仅但愿软件开发者或者使用他们的芯片,”他说,“咱们正在匡助冲突这些不容,多年来一直在投资多代或者收场这极少的硬件。”

    Modular 的AI 推理引擎 Max 于 2023 年推出,缓助 x86 和 Arm CPU,最近还加多了对 Nvidia GPU 的缓助。这意味着 Modular 目下领有了 CUDA 的全栈替代品,包括 CUDA 编程说话和构建在其之上的 LLM 职业堆栈。

    至关伏击的是,拉特纳默示 Max 不错夸耀 Nvidia A100 和 H100 GPU 的 CUDA 性能。

    “[Nvidia] 比咱们最初了极少——他们得到了全宇宙的匡助,皆在针对他们的硬件进行调优,而其时 A100 依然问世 4 年了,东说念主们对它有了很好的贯穿和优化,是以这是一个相配高的圭表,”他说。“[A100 达到 CUDA 性能] 告诉我:咱们领有一个可扩张的堆栈,咱们领有一个或者引申的团队。”

    从初度引入 H100 缓助运行,达到或最初 CUDA 在 H100 上的生成式 AI 推感性能仅用了两个月的时辰——Lattner 折服团队不错在其下一个主张硬件:Nvidia Blackwell 一代 GPU 上复制这一树立。

    “咱们正在以一种可扩张的容颜进行假想,”拉特纳说。“咱们在两个月内就让 H100 达到了具有竞争力的性能,而不是两年,因为咱们的技能投资使咱们或者扩大范围,并真确地解决这些问题。”

    最终主张是收场所有这个词类型的 AI 硬件之间的高性能可移植性。

    “莫得其他堆栈能作念到这极少,”拉特纳说。“即使是英伟达,在性能可移植性方面也不占上风……CUDA 不错在 A100 和 H100 上运行,但骨子上,你必须重写代码才能取得邃密的性能,因为 [英伟达] 在 H100 中引入了 TMA 单位等新功能。”

    Hopper 一代 GPU 引入了张量内存加快器(TMA)单位,以缓助全局内存和分享内存之间张量的异步传输。Modular 对此类硬件功能的更高级次抽象收场了高性能的可移植性。Lattner 默示,Modular 的主张是成为芯片制造商和只念念使用硬件的软件开发者之间的桥梁。

    “跟着咱们开释[这项技能的力量]——咱们刚刚运行——咱们不错让一类全新的东说念主或者以一致的容颜对行将上市的所有这个词新硬件进行编程,”他说说念。“开发东说念主员无需了解硬件方面或东说念主工智能接头方面的所有这个词复杂性。他们不错专注于构建我方的代理职责经过或定制的RAG解决决议,并从生态系统中发生的所有这个词立异中受益;咱们不错让这一切变得浮浅易行。”

    对非 Nvidia GPU 和其他类型加快器的模块化缓助将于 2025 年底运行。

    Modular 还在为其堆栈开发集群管束功能。

    传统的云系统具有弹性,或者跟着需求的增长动态添加更多节点来处理申请,但基于 GPU 的云则有所不同。由于 GPU 价钱腾贵,用户每每会在数月或数年内开心使用固定数目的 GPU。Lattner 默示,从资本管束的角度来看,这与购买和出售土产货 GPU 访佛。

    此外,像聊天机器东说念主这样的生成式 AI 职责负载是有现象的;也等于说,它们需要存储并造访用户之前的输入,以供将来的会话使用。这意味着处理来自统一用户的查询的最灵验容颜是在统一节点上进行,而不是将查询发送到任何可用的 CPU。

    将异构硬件类型(以至是具有不同大小内存的 Nvidia GPU)添加到可能受内存或算计排除的 LLM 层,平台团队的复杂性就会加多。这些团队濒临着管束 AI 业务中多个工程团队不停变化的职责负载和需求的压力。

    Modular 构建了数据和适度平面,不错在节点之间一致地路由申请,管束所有这个词这个词集群的现象和远隔。

    “你需要一定进度的抽象,这样你才能说,‘我念念把这个(职责负载)放到这样多机器上’,”拉特纳说。“是以你需要或者笃定哪种模子在什么情况下运行最好。每每情况下,莫得东说念主真确贯穿这些东西是奈何运作的,但咱们知说念。咱们不错期骗对所有这个词这个词堆栈的贯穿,说‘好吧,咱们将构建这个智能路由器,咱们会把东西放进去,让它超等容易部署和扩张。这等于咱们目下正在接头的,它相配令东说念主旺盛。”

    其理念是在斟酌到批量大小和序列长度缓助等成分的量度下,将查询在正确的时辰智能地路由到正确的硬件。Lattner 默示,将部单干作负载分派到最合适的 GPU 上是名次前十的公司或者作念到的事情,但真的所有这个词其他公司皆不肯斟酌。

    “咱们不会褫夺你的东说念主工智能,而是会提供器用和技能,让你不错在算计机上部署它,不管是在土产货照旧在云表,”他说。“这与好多[公司]以为东说念主工智能太难的说法截然相悖,他们说唯有把你的所特别据、所有这个词模子皆给咱们,咱们就能帮你贬责。咱们的主张是:东说念主工智能依然民主化了。让咱们把它交还给软件开发者。让咱们让平台团队领有东说念主工智能。

    Nvidia 对这个 CUDA 替代决议有何见识?Modular 是否符合 CUDA 生态系统?

    “这很复杂,”拉特纳说,并指出 Nvidia 依然晓谕了一些行将推出的软件功能,他以为这些功能受到了 Modular 的启发,其中包括一些与 Modular 的 Pythonic 编程要点相呼应的功能。

    “[Nvidia 的增强功能] 尚不存在,它无法在所有这个词 GPU 上运行,我推测它耐久不会在其他任何东说念主的 GPU 上运行,”Lattner 说。“但我以为这是对 Modular 方法的极大招供。我宽宥这个畛域的好主意,而且我很欢畅他们 [Nvidia] 也以为咱们正在野着正确的所在发愤。”

    *免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或缓助,若是有任何异议,宽宥连络半导体行业不雅察。

    今天是《半导体行业不雅察》为您分享的第4167期内容,宽宥原谅。

    加星标⭐️第一时辰看推送,小号防走丢

    求保举



    Powered by 开云「中国」Kaiyun官网登录入口 @2013-2022 RSS地图 HTML地图