UAC音频同步实现-公会争霸-《龙魂觉醒》德林斯大陆活动站

UAC音频同步实现

4057 2025-11-07 08:00:40

UAC音频同步实现

2022-01-15

本文链接为:http://www.usbzh.com/article/detail-763.html ,欢迎转载，转载请附上本文链接。

USB总线比较复杂，并不是为音频传输特别设置的传输方式。一个控制器通常需要对应多个设备，PC也有很多任务，其传输延迟会相对不那么稳定。

但是声卡设备需要与主机同步，否则会产生音画不同步问题，DAC也需要喂按采样率喂数据，因此就有了大家熟知的三种同步方式：SYNC、自适应、ASYNC模式（俗称“异步” 注意不要和Endpoint类型搞混）。顺带一提很多人有个误区，以为ASYNC是UAC2引入的，其实并不是。早在UAC1就已经支持ASYNC[5]，但因为各种原因（开发困难/成本高/效果一般）并没有被大规模采用。在UAC2时才因为XMOS等界面的出现降低了开发难度简化了实现而且效果好而被广为采用。

SYNC是将输出时钟与每个Frame的SOF包同步，但前文可以看到SOF包本身就允许较大的抖动。自适应是根据Host传送数据的速率调整输出频率（有点像SPDIF的工作方式不是么）。这两种同步方式下USB界面都是被动适应Host端的发送节奏，本身没有反馈机制，产生的Jitter受USB总线影响较大。当然芯片厂商为了减少影响也是绞尽脑汁，例如TI的所谓“SpAct时钟恢复”引入8xPLL等尽可能减少影响。最后根据某个外国人测出来大概PCM270x能把Jitter压到低于1us[6]（还是挺高的按照现在的标准）

ASYNC下，USB界面会额外申请一条Feedback传输端口。这里有两种实现，一种是显式Feedback，一种是隐式Feedback。

显式Feedback下，USB界面会将单位时间内该传多少Samples回传给Host（实际有一套相当复杂的计算方式，此处略），让Host计算并知道之后该“补”多少或者该“少”多少采样传给USB界面，这样就能与USB界面主时钟同步并保持不溢出/欠载的缓冲区。UAC1使用数据格式10.14（因为是1ms），UAC2使用数据格式16.16（因为是125us），有所不同

这里以俗知的Amanero界面为例：

Endpoint Descriptor:

------------------------------

0x07 bLength

0x05 bDescriptorType

0x05 bEndpointAddress (OUT Endpoint) #主机端->USB界面

0x05 bmAttributes (Transfer: Isochronous / Synch: Asynchronous / Usage: Data) #传输类型Isochronous 同步方式Asynchronous

0x0400 wMaxPacketSize (1024 Bytes) #最大包大小

0x01 bInterval #传输间隔 2^(1-1) x 125。也就是125us传输一次

Endpoint Descriptor:

------------------------------

0x07 bLength

0x05 bDescriptorType

0x81 bEndpointAddress (IN Endpoint) #USB界面->主机端

0x11 bmAttributes (Transfer: Isochronous / Synch: None / Usage: Feedback) #传输类型Isochronous 用于Feedback

0x0004 wMaxPacketSize (4 Bytes) #最大包大小4字节

0x06 bInterval #传输间隔 2^(6-1) x 125。也就是4000us(4ms)传输一次

这是一个典型的显式Feedback的ASYNC，上行反馈Endpoint，每4ms传输一次，最大包大小是4字节（因为只是反馈Rate不需要太大）。再来看看Linux的UAC驱动是如何处理反馈的节选：http://lxr.free-electrons.com/source/sound/usb/endpoint.c

...

1156 /*

1157 * process after playback sync complete

1158 *

1159 * Full speed devices report feedback values in 10.14 format as samples

1160 * per frame, high speed devices in 16.16 format as samples per

1161 * microframe.

1162 *

1163 * Because the Audio Class 1 spec was written before USB 2.0, many high

1164 * speed devices use a wrong interpretation, some others use an

1165 * entirely different format.

1166 *

1167 * Therefore, we cannot predict what format any particular device uses

1168 * and must detect it automatically.

1169 */

1170

1171 if (urb->iso_frame_desc[0].status != 0 ||

1172 urb->iso_frame_desc[0].actual_length < 3)

1173 return;

1174

1175 f = le32_to_cpup(urb->transfer_buffer);

1176 if (urb->iso_frame_desc[0].actual_length == 3)

1177 f &= 0x00ffffff;

1178 else

1179 f &= 0x0fffffff;

1180

1181 if (f == 0)

1182 return;

1183

1184 if (unlikely(sender->tenor_fb_quirk)) {

1185 /*

1186 * Devices based on Tenor 8802 chipsets (TEAC UD-H01

1187 * and others) sometimes change the feedback value

1188 * by +/- 0x1.0000.

1189 */

1190 if (f < ep->freqn - 0x8000)

1191 f += 0xf000;

1192 else if (f > ep->freqn + 0x8000)

1193 f -= 0xf000;

1194 } else if (unlikely(ep->freqshift == INT_MIN)) {

1195 /*

1196 * The first time we see a feedback value, determine its format

1197 * by shifting it left or right until it matches the nominal

1198 * frequency value. This assumes that the feedback does not

1199 * differ from the nominal value more than +50% or -25%.

1200 */

1201 shift = 0;

1202 while (f < ep->freqn - ep->freqn / 4) {

1203 f <<= 1;

1204 shift++;

1205 }

1206 while (f > ep->freqn + ep->freqn / 2) {

1207 f >>= 1;

1208 shift--;

1209 }

1210 ep->freqshift = shift;

1211 } else if (ep->freqshift >= 0)

1212 f <<= ep->freqshift;

1213 else

1214 f >>= -ep->freqshift;

1215

1216 if (likely(f >= ep->freqn - ep->freqn / 8 && f <= ep->freqmax)) {

1217 /*

1218 * If the frequency looks valid, set it.

1219 * This value is referred to in prepare_playback_urb().

1220 */

1221 spin_lock_irqsave(&ep->lock, flags);

1222 ep->freqm = f;

1223 spin_unlock_irqrestore(&ep->lock, flags);

1224 } else {

1225 /*

1226 * Out of range; maybe the shift value is wrong.

1227 * Reset it so that we autodetect again the next time.

1228 */

1229 ep->freqshift = INT_MIN;

1230 }

这里主要是处理来自于USB界面的反馈（并且应付一些不按标准做的USB界面），将获取的值保存进freqm。之后这个值会在snd_usb_endpoint_next_packet_size函数被使用。

145 int snd_usb_endpoint_next_packet_size(struct snd_usb_endpoint *ep)

146 {

147 unsigned long flags;

148 int ret;

149

150 if (ep->fill_max)

151 return ep->maxframesize;

152

153 spin_lock_irqsave(&ep->lock, flags);

154 ep->phase = (ep->phase & 0xffff)

155 + (ep->freqm << ep->datainterval);

156 ret = min(ep->phase >> 16, ep->maxframesize);

157 spin_unlock_irqrestore(&ep->lock, flags);

158

159 return ret;

160 }

这里将freqm转化为下一次的包大小，并供prepare_playback_urb使用节选http://lxr.free-electrons.com/source/sound/usb/pcm.c：

1451 static void prepare_playback_urb(struct snd_usb_substream *subs,

1452 struct urb *urb)

1453 {

1454 struct snd_pcm_runtime *runtime = subs->pcm_substream->runtime;

1455 struct snd_usb_endpoint *ep = subs->data_endpoint;

1456 struct snd_urb_ctx *ctx = urb->context;

1457 unsigned int counts, frames, bytes;

1458 int i, stride, period_elapsed = 0;

1459 unsigned long flags;

1460

1461 stride = runtime->frame_bits >> 3;

1462

1463 frames = 0;

1464 urb->number_of_packets = 0;

1465 spin_lock_irqsave(&subs->lock, flags);

1466 subs->frame_limit += ep->max_urb_frames;

1467 for (i = 0; i < ctx->packets; i++) {

1468 if (ctx->packet_size)

1469 counts = ctx->packet_size;

1470 else

1471 counts = snd_usb_endpoint_next_packet_size(ep);

...

prepare_playback_urb这个函数主要决定了音频回放的USB请求数据块（URB）准备工作，包括该传多少USB数据给界面，而这里可以看到snd_usb_endpoint_next_packet_size对于包大小很重要。除此之外没有什么其它作用

如果仔细读代码，可以发现ASYNC和别的同步方式的最大区别它如何影响主机发送数据的多少，其它是与对待别的同步方式一模一样的。

除显式反馈之外还有隐式反馈（这种Feedback是把主机传给USB设备的数据回传回来让主机自己计算数据速率）。这里就不说明了

ASYNC的最大好处是，USB界面决定了主机每次Frame中每个包该给多少Samples给它，这样USB界面可以自己决定主时钟并且用这个时钟去“校准”主机发送的数据速率，而不再需要适应Host的发送频率

通常高速需要有125us x 2的Buffer，全速需要1ms x 2的buffer。这些构成了USB音频的最小延迟。配合一定的USB Buffer以及合适的FIFO Buffer，就可以从根本上对USB总线的不稳定时钟“去耦”了。这就好比在线看视频听音乐，你的播放软件会维护一个缓冲区，缓冲网络上的数据，这样你就不需要下载所有数据以后才开始观看，并且播放软件实际上也会反馈给服务器相对应的发送速率（虽然实际情形中反馈方式并不像UAC这样）。我觉得没人会说从网络上在线听音乐会有“jitter”吧？最多是缓冲区欠载产生播放停顿或者缓冲区溢出程序没处理好造成程序崩溃

对于USB界面自身，需要监控自身主时钟与来自主机的SOF包之间的时间，计算出偏差不断给Host反馈。并且因为Host发送速率和实际播放速率并不一致，USB界面自身需要合成与播放相关的Clock（对于德西架构的DAC 最重要的是MCLK），这个合成实现具体做法十分影响最终出来的效果，这对嵌入式开发者是一个不小的挑战。早在十年前TAS1020就已经有异步模式，但需要自己开发单片机程序，开发难度高于像现在XMOS这样的一体式方案，最终出来的jitter也没有现在的XMOS/Amanero等界面那么优异。

另外还有一个常见的误区，就是异步每次数据包里包含的“采样数”可以变化很大，实际上并不是这样(从代码里就可以看出F有个合理范围，超出会认为错误)。USB规范中最多允许每个USB包包含的samples变化在±1内[7]。因此如果之前数据错误丢失了采样，也不可以因此“索取”更多的“采样”

而在实际应用中，解码器厂商需要做好对USB的电气隔离/地线隔离，以免影响USB界面的工作能力以及把PC传过来的共模干扰带进DAC里。

补充一下一些可能的“小技巧”。这些“技巧”与上文不同，没有什么可靠来源，仅供参考：1.尽可能单独一个控制器下挂解码器，减轻控制器与USB界面的负担。避免额外的HUB2.对于USB界面有独立供电的，可以考虑断开供电/地线，以及单边断开USB线的屏蔽层，避免诸如共地干扰这样的问题。3.使用合格的USB线4.PC优化ISR与DPC延迟，这对于降低延迟有好处。虽然低延迟对于高保真音频回放没什么用，只对监听有用。

以上的文章内容来自于我对USB2.0/UAC规范的理解。但为了“相对”严谨起见，我列出以下参考以便印证。如有错误欢迎指正。

[1]USB的英文维基百科：https://en.wikipedia.org/wiki/USB[2]USB协议以及其SOF包时间：http://www.beyondlogic.org/usbnutshell/usb3.shtml[3]共享带宽的方式：https://www.totalphase.com/support/articles/200349256-USB-Background/#s1.1.2.1[4]Isochronous的通信方式：http://www.beyondlogic.org/usbnutshell/usb4.shtml[5]UAC1规范：www.usb.org/developers/docs/devclass_docs/audio10.pdf[6]PCM2706的jitter测量以及主机电源如何影响时钟稳定性：https://www.audialonline.com/articles/spdif-or-usb/[7]关于XMOS界面的工作原理：https://www.xmos.com/download/private/USB-Audio-Software-Design-Guide(6.6.0rc5.a).pdf

本文链接为:http://www.usbzh.com/article/detail-763.html ,欢迎转载，转载请附上本文链接。

原文转自：http://www.erji.net/forum.php?mod=viewthread&tid=1987631

￥打赏

随手分享，手有余香

HID人机交互QQ群：564808376

UAC音频QQ群：218581009

UVC相机QQ群：331552032

BOT&UASP大容量存储QQ群：258159197

STC-USB单片机QQ群：315457461

USB技术交流QQ群2:580684376

USB技术交流QQ群：952873936

UAC音频同步实现

最新发布

莽荒记·太古洪荒觉醒限时全服庆典——跨服部落争霸与远古神兽驯服挑战

鑑的解释

《小镇英雄团》2025盛夏庆典：集结英雄小队赢限定皮肤与万元豪礼

ATLAS家选在哪里好?ATLAS阿特拉斯建家选址推荐

装备英雄：英勇装备挑战赛

星际联盟2025年银河争霸赛：跨星系联盟的终极对决

《青鸾繁华录》2025年盛大开启：仙侠世界探险与奇遇庆典活动

被遗忘的安妮：时空裂隙中的觉醒之旅——2025春日史诗冒险庆典

忾的解释

如何查看开源项目对应的Protobuf版本，并安装指定版本的Protobuf