llama.cpp作者创业，用纯C语言框架降低大模型运行成本

首页 > AI资讯 > 最新资讯 > llama.cpp作者创业，用纯C语言框架降低大模型运行成本

llama.cpp作者创业，用纯C语言框架降低大模型运行成本

新火种 2023-10-31

通常，神经网络的推理代码是使用 Python 语言编写的。但相比于 Python，C/C++ 代码运行速度更快，编写过程更严谨，因此一些开发者尝试用 C/C++ 语言实现神经网络。

在众多使用 C/C++ 语言编写神经网络代码的开发者中，Georgi Gerganov 是一位佼佼者。Georgi Gerganov 是资深的开源社区开发者，曾为 OpenAI 的 Whisper 自动语音识别模型开发 whisper.cpp。

Georgi Gerganov

今年 3 月 Georgi Gerganov 又构建了开源项目 llama.cpp，llama.cpp 让开发者在没有 GPU 的条件下也能运行 Meta 的 LLaMA 模型。llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。项目发布后，很快就有开发者尝试并成功在 MacBook 和树莓派上运行 LLaMA。

打开 Georgi Gerganov 的个人主页，我们发现全是开源项目，满满的干货。

现在，Georgi Gerganov 宣布创立一家新公司 ggml.ai，旨在支持 ggml 的开发。ggml 是 Georgi Gerganov 使用 C/C++ 构建了机器学习张量库，能够帮助开发者在消费级硬件上实现大模型，并提升模型性能。ggml 张量库具有以下特点：

用 C 语言编写；

支持 16bit 浮点数；

支持整数量化（包括 4 位、5 位、8 位）；

自动微分；

内置优化算法（例如 ADAM、L-BFGS）；

为 Apple 芯片设置特定优化；

在 x86 架构上使用 AVX / AVX2 Intrinsic；

通过 WebAssembly 和 WASM SIMD 提供 Web 支持；

无第三方依赖；

运行时零内存分配；

支持指导型语言输出。

作为纯 C 语言编写的框架，ggml 大幅降低了大模型的运行成本。llama.cpp 和 whisper.cpp 都使用了 ggml，我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。

下图是一个在树莓派上使用 whisper.cpp 检测短语音命令的例子：

在单个 M1 Pro 上同时运行 LLaMA-13B + Whisper Small 的 4 个实例，如下图所示：

在 M2 Max 上以 40 tok/s 的速度运行 LLaMA-7B，如下图所示：

总体来说，ggml 让本地运行大型语言模型变得更容易，操作更便捷。Georgi Gerganov 成立新公司之后，简单高效的 ggml 张量库将获得更多开发者和投资者的支持。我们相信随着开发人员在技术层面做出努力，大模型的应用前景将会越来越广泛。

参考链接：http://ggml.ai/

Tags:

人工智能框架模型

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

llama.cpp作者创业，用纯C语言框架降低大模型运行成本

上海国投公司牵头成立上海人工智能生态基金，规模上百亿元

上海国投牵头徐汇资本、米哈游、商汤等成立百亿人工智能生态基金

工业和信息化部与北京市召开推动人工智能赋能新型工业化座谈会

软银、索尼加码AI，诺贝尔奖公布后日本人工智能企业股价飙升

温网取消147年司线裁判明年起采用人工智能

热门文章

三六零开源升级版自研大模型360Zhinao2-7B：数学推理能力提升，医疗教育领域更实用

特斯拉Optimus展示新一代灵巧手，机器人产业ETF（159551）涨超3%

马斯克“开怼”SEC：六年骚扰还不够？律师公开质问幕后黑手

“人工智能+”，河南怎么“+”？

《金融大模型应用评测指南》发布，系全国首个以金融业务能力为核心的团体标准

AIGC“重塑”影视制作产业快手可灵AI用户超600万探索多元变现模式

北京：预计全市2024年人工智能产业规模突破3000亿元

中央经济工作会议：以科技创新引领新质生产力发展建设现代化产业体系

《中国语言服务发展报告（2024）》（语言服务蓝皮书）发布