比 MP3 小 10 倍，Meta 公开全新音频压缩技术

2022-11-08 發表於开源资讯

Meta 近日在一篇题为 “High Fidelity Neural Audio Compression”（高保真神经音频压缩）的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术，该技术由 AI 驱动，可以在音频质量没有损失的前提下，将音频压缩到比 MP3 格式还要小 10 倍的程度。

Meta 将这项技术的实现方法分成了一个由三部分组成的系统，经过训练后的 AI 可以将音频压缩到所需的目标大小，其实现过程如下：

首先，编码器将未压缩的数据转换为较低帧率的 "latent space" 表示（representation）；
然后，量化器将这个表示压缩到目标大小，同时跟踪最重要的信息，这些信息以后将被用于重建原始信号（这个压缩信号将通过网络发送或保存在磁盘上）；
最后，解码器使用单个 CPU 上的神经网络将压缩的数据实时地转变回音频；

至于应用，Meta 表示这种由人工智能驱动的 "超压缩音频" 可以在恶劣的网络条件下获得更快、更优质的通话效果。作为一家 “梭哈” 元宇宙的公司，这项技术还可以提供更加丰富的元宇宙体验（视频会议、影音流媒体、VR 游戏等），而不需要提高带宽。

除了语音通话，这项技术同样可以应用于音乐领域，未来我们有望可以获得高品质、小体积的音频文件。目前这项技术仍处于研究阶段，源代码和一些音频样本都已公开在 GitHub 上。

相關推薦

AI 军备竞赛，Meta 推出全新大型语言模型

2023-02-28

mple 表示：与 Chinchilla、PaLM 或 GPT-3 不同，我们只使用公开的数据集，使我们的工作与开源兼容并可重现，而大多数现有模型依赖的数据要么不公开，要么没有记录。目前 LLaMA 的一个精简版可在 GitHub 上找到，Meta 暂时还没

ModStartBlog v8.3.0 支持音频 MP3 文件，表单快速编辑优化

2023-10-09

ider增加按业务变更方法 [新功能] 富文本增加MP3文件等音频内容 [新功能] ImageSelector支持show-preview-url参数，图片预览是否显示链接 [新功能] 移动端增加c-rich-html组件，支持多端富文本兼容显示 [系统优化] 后台注册登

新的开源图像格式 QOI ，压缩速度比 PNG 快 100 倍

2021-12-22

一些优势，但它仍然存在相当多的问题。比如，作为一个全新的图像文件格式， QOI 对伽马/色度/ICC 等内容的支持几乎是空白的。从实现过程来看， QOI 是将整个图像文件加载到 RAM 中，并且没有针对性能进行优化，这使得它在处

Alluxio AI 全新产品发布：无缝对接低成本对象存储 AI 训练解决方案

2023-10-21

Day 在美西时间 10 月 25 日的 AI Infra Day 上，Alluxio 将首次公开展示其最新发布的 Alluxio Enterprise AI 平台。AI Infra Day 是面向开发者的线上活动，主要探讨构建高性能、可扩展且经济高效的 AI 基础设施中的挑战及各种方案。特邀嘉

Meta 正在构建新开源大模型，性能超越 Llama 2、比肩 GPT-4

2023-09-12

类似人类的表达。长期以来，Meta 一直在采用开源方法公开其大模型产品，是业内众所周知的最大贡献者之一。仅今年它就向人工智能社区发布了大量人工智能模型和训练数据集。其中包括针对编程任务优化的 Code Llama 大语言

ModStartCMS v7.3.0，富文本 MP3支持，后台组件优化

2023-09-22

数据技术都能四世同堂，凭什么开发 30 岁就要被干掉？ ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用，支持后台一键快速安装，让开发者能快的实现业务功能开发。系统完全开源，基于 Apache

openGemini 正式加入 openEuler DB SIG，携手开展全方面技术创新

2023-03-17

（AIOps）等领域与 openEuler 社区展开合作，充分利用自身技术竞争优势，增强 openEuler 社区的影响力和竞争力的同时，不断挖掘新的机遇和技术创新点，进一步提升 openGemini 的技术实力和社区品牌知名度。项目地址 https://githu

Meta 发布开源 AI 工具 AudioCraft，文本自动生成音乐

2023-08-04

这款人工智能工具将 AudioGen、EnCodec 和 MusicGen 三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。比如用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频，或更复杂的音乐，适用于游戏开发、社交、视频

苹果发布 M3 系列芯片，采用 3nm 工艺、支持“动态缓存”技术

2023-11-01

。这款图形处理器不仅速度更快、能效更高，还引入一项全新技术 —— 动态缓存，同时带来首次登陆 Mac 的硬件加速光线追踪和网格着色等全新渲染功能。渲染速度与 M1 系列芯片相比最快可达 2.5 倍。中央处理器搭载的高性能

Turbopack 公布性能基准测试，Vite 创建者尤雨溪再度发声

2022-11-02

HMR（模块热加载）方面的性能差异，并将测试方法和数据公开在 GitHub 仓库中 (https://github.com/yyx990803/vite-vs-next-turbo-hmr)。最终的测试结果显示，Turbopack 的热加载速度确实比 Vite 快，但远远没有 10 倍的差距。尤雨溪承认了两者的

扎克伯格：开源是 AI 积极发展的必要条件

2024-07-25

伯格也发布了一封名为“Open Source AI Is the Path Forward”的公开信，描绘了 AI 发展的未来愿景。他以闭源版 Unix 和开源 Linux 的发展为例，类比了 AI 行业的发展。 “在高性能计算的早期，当时的各大科技公司都投入巨资开发自己

阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地

2022-09-06

法框架，助力大模型快速且高效的落地。 EasyNLP 背后的技术框架如何设计？未来有哪些规划？今天一起来深入了解。二 EasyNLP简介 EasyNLP 是 PAI 算法团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架，支持常用的中文预训练

将 Python 程序移植到 Mojo，性能提升 250 倍、速度比 C 还快

2023-09-13

者大会精彩演讲回顾 Aydyn Tairov 是一名开源作者，也是 Meta 前工程师，他此前将 GitHub 上火热的纯 C 语言实现的llama2.c项目移植到了 Python ——llama2.py。上周 Mojo 编程语言正式开放下载，并且声称比 Python 快 68000 倍。于是&

多场景下 3-11 倍性能提升，Apache Doris 1.2 新版本性能揭秘！

2022-11-30

Apache Doris 最新的开发进展与 RoadMap。在此诚挚向全体社区公开征集演讲议题，如果您有好的idea、包括但不限于业务最佳实践、技术深度解析、行业趋势解读、数据生态方案等，欢迎您提交议题参与分享，与社区各领域专家深入

熱門推薦