Beamformer QRD Design Tutorial 技术深潜

开篇：这个模块解决什么问题？

想象你正在开发一个5G基站的波束成形（beamforming）系统。天线阵列接收到来自多个方向的信号，你需要实时计算每个方向的权重，以增强目标信号并抑制干扰。这个问题的核心是求解线性最小二乘问题——本质上是对一个矩阵进行QR分解（QRD）。

QR分解将矩阵 $$A$$ 分解为正交矩阵 $$Q$$ 和上三角矩阵 $$R$$ ，使得 $$A = QR$$ 。对于波束成形，这允许我们通过回代（back-substitution）快速求解权重向量。然而，在FPGA上实现QRD面临严峻挑战：算法需要复杂的数值运算（开方、除法），数据依赖性强，且必须在严格的实时约束内完成。

Modified Gram-Schmidt（MGS）QRD 是一种数值稳定的算法，特别适合硬件实现。与Householder反射相比，MGS具有规则的计算模式——主要是向量内积和范数计算——这使得它更容易通过Vitis HLS进行流水线和并行化优化。

本模块提供了一个完整的MGS QRD硬件内核实现，针对Xilinx Versal架构优化，可作为波束成形系统中自适应权重计算的核心计算引擎。

架构全景：模块如何组织？

核心组件与角色

本模块的核心是一个Vitis HLS内核，配置如下：

属性	值	说明
Top函数	`mgs_qrd`	MGS QRD算法的HLS入口
时钟周期	3ns (333MHz)	积极的时序目标，反映实时处理需求
目标器件	xcvp1202-vsva2785-1LP-i-L	Versal Premium系列，含AI Engine和可编程逻辑
输出格式	IP Catalog	生成可在Vivado中集成的IP核

架构数据流图

flowchart LR A[输入矩阵 A
m_axi接口] --> B[列正交化引擎
MGS核心] B --> C[Q矩阵输出
正交基] B --> D[R矩阵输出
上三角] E[控制参数
s_axilite] --> B style B fill:#f9f,stroke:#333,stroke-width:2px

流程说明：

输入阶段：待分解矩阵 $$A$$ 通过 m_axi 接口从DDR/PLRAM加载。AXI4-Full协议支持突发传输（burst），最大化内存带宽利用率。
计算阶段：MGS核心逐列处理矩阵。对于每一列 $$k$$ ，计算其与之前所有正交列的内积，减去投影分量，然后归一化。这是计算密集型阶段，通过#pragma HLS PIPELINE实现指令级并行。
输出阶段：生成的 $$Q$$ （正交矩阵）和 $$R$$ （上三角矩阵）写回内存。 $$R$$ 的非零元素仅需存储上三角部分，节省带宽。
控制路径：标量参数（矩阵维度、迭代次数）通过 s_axilite 接口配置，与数据路径解耦。

算法核心：Modified Gram-Schmidt 的硬件映射

为什么选MGS？

经典Gram-Schmidt（CGS）在浮点运算中数值不稳定——正交性损失随矩阵条件数恶化。Modified Gram-Schmidt通过迭代正交化（iterative orthogonalization）缓解了这一问题：

v_k^{(i+1)} = v_k^{(i)} - \text{proj}_{q_i}(v_k^{(i)})

在硬件层面，MGS的优势在于计算规律性：

操作主要是点积（ $\langle u, v \rangle$ ）和向量减法和缩放
数据依赖是列级串行但元素级并行——适合HLS的循环展开和流水线
无需复杂控制流（如Householder的反射向量计算）

硬件友好的MGS算法

对于 $m \times n$ 矩阵 $$A$$ （ $m \geq n$ ），MGS的伪代码如下：

// 输入: A[m][n], 输出: Q[m][n], R[n][n]
for (int k = 0; k < n; k++) {
    // 1. 计算范数 r_kk = ||a_k||
    float norm_sq = 0;
    for (int i = 0; i < m; i++) {
        norm_sq += A[i][k] * A[i][k];
    }
    R[k][k] = sqrt(norm_sq);
    
    // 2. 归一化 q_k = a_k / r_kk
    for (int i = 0; i < m; i++) {
        Q[i][k] = A[i][k] / R[k][k];
    }
    
    // 3. 正交化后续列
    for (int j = k + 1; j < n; j++) {
        // 计算 r_kj = q_k^T * a_j
        float dot = 0;
        for (int i = 0; i < m; i++) {
            dot += Q[i][k] * A[i][j];
        }
        R[k][j] = dot;
        
        // 更新 a_j = a_j - r_kj * q_k
        for (int i = 0; i < m; i++) {
            A[i][j] -= R[k][j] * Q[i][k];
        }
    }
}

HLS优化映射

上述算法在Vitis HLS中通过以下策略映射到高效硬件：

1. 循环流水线（Pipeline）

#pragma HLS PIPELINE II=1

内积循环（for i）和向量操作循环被完全流水线化，每个时钟周期启动一次新的迭代。这需要数组被分区（partition）以提供足够的读端口。

2. 数组分区（Array Partition）

#pragma HLS ARRAY_PARTITION variable=A complete dim=2

列维度被完全分区，使得一列的所有元素可以同时访问。这是实现内积并行累加的关键——否则存储器端口成为瓶颈，无法达到II=1。

3. 循环展开（Unroll）

#pragma HLS UNROLL factor=4

对于较小的固定维度（如 $n \leq 8$ 的波束数），外层循环被完全展开，创建并行的处理单元（PE）阵列。每个PE处理一列的正交化。

4. 数据流（Dataflow）

#pragma HLS DATAFLOW

将算法分解为三个阶段（范数计算→归一化→正交化）作为并发进程，通过FIFO通道通信。这隐藏了延迟，提高了总体吞吐量。

关键设计决策与权衡

1. 算法选择：MGS vs Householder vs Givens

算法	数值稳定性	硬件复杂度	并行性	适用场景
MGS	中等（优于CGS）	低（规整点积）	高（列间独立）	选中：波束成形的小矩阵（n≤16）
Householder	高	中（反射向量）	中（块级并行）	大矩阵，高精度需求
Givens旋转	高	高（对角消除）	低（依赖链）	稀疏矩阵，QR更新

决策理由：波束成形通常涉及天线阵列的小规模矩阵（如8x8或16x16）。MGS的规整计算模式允许激进的HLS优化（完全展开+流水线），在小矩阵上实现比Householder更高的吞吐量。

2. 数值精度：浮点 vs 定点

权衡分析：

浮点（IEEE-754）：动态范围大，简化算法设计，但消耗更多DSP资源和布线资源。适用于原型验证和动态范围未知的场景。
定点：面积和功耗更优，但需要仔细的位宽分析（整数位+小数位）以避免溢出或精度损失。

本模块选择：基于配置文件的上下文（Vitis HLS教程），实现可能采用单精度浮点或可配置的定点。浮点模式使用Xilinx的浮点运算IP核（FAdd、FMul、FSqrt），通过#pragma HLS BIND_OP绑定到DSP48或软逻辑。

3. 存储架构：片外DDR vs 片上BRAM

关键问题：矩阵 $$A$$ 、 $$Q$$ 、 $$R$$ 存储在何处？

设计选项：

全片外：所有数据通过m_axi接口流式传输，最小化片上存储，但受限于DDR带宽。
片上缓冲：整个矩阵存储在BRAM/URAM中，最大化带宽，但受限于容量（Versal URAM单块容量32Kb）。
分层存储：活跃列在BRAM中，完整矩阵在DDR，通过ping-pong缓冲隐藏延迟。

推荐策略：对于小矩阵（如 $16 \\times 16$ 单精度浮点 = 1KB），完全存储在片上BRAM/URAM是最佳选择。这消除了DDR带宽瓶颈，允许每个时钟周期并行访问矩阵元素。配置中的m_axi接口可能用于更大矩阵的流式处理或批量处理场景。

4. 接口设计：AXIS vs AXI4-Full vs AXI4-Lite

配置解读：

flow_target=vivado
package.output.format=ip_catalog

这表明内核被封装为标准IP核，接口遵循Xilinx接口协议：

接口类型	用途	协议	配置参数
数据输入	矩阵 $$A$$	`m_axi`	突发长度、缓存策略
数据输出	矩阵 $$Q$$ , $$R$$	`m_axi`	写响应策略
控制	维度 $$m,n$$	`s_axilite`	寄存器映射

关键设计决策：使用m_axi而非hls::stream（AXIS）作为数据接口，允许内核作为内存映射加速器工作，与DMA引擎（如Xilinx Datamover）直接集成。这简化了与AIE或ARM主机的集成，因为数据可以通过标准内存拷贝语义传输。

依赖关系与集成模式

上游调用者

本模块作为**计算内核（Compute Kernel）**被更高层的系统集成代码调用：

// 典型的主机端调用模式（基于AIE控制依赖推断）
#include "xrt/xrt_device.h"
#include "xrt/xrt_kernel.h"

int main() {
    xrt::device device = xrt::device(0);
    xrt::uuid xclbin_id = device.load_xclbin("mgs_qrd.xclbin");
    
    // 实例化HLS内核
    xrt::kernel mgs_qrd = xrt::kernel(device, xclbin_id, "mgs_qrd");
    
    // 分配缓冲区并传输数据
    xrt::bo in_buff = xrt::bo(device, matrix_size, mgs_qrd.group_id(0));
    xrt::bo q_buff = xrt::bo(device, q_size, mgs_qrd.group_id(1));
    xrt::bo r_buff = xrt::bo(device, r_size, mgs_qrd.group_id(2));
    
    // 同步执行
    xrt::run run = mgs_qrd(in_buff, q_buff, r_buff, m, n);
    run.wait();
}

关键集成点：

XRT运行时：内核通过Xilinx Runtime (XRT) API被调度，支持标准缓冲区管理和同步语义。
AIE控制集成：外部依赖AI_Engine_Development.AIE.Design_Tutorials.02-super_sampling_rate_fir.DualSSR16_hw.sw.Makefile.aie_control_xrt.cpp表明本内核设计为与AIE阵列协同工作。典型场景是AIE执行前端信号预处理（如FFT、滤波），HLS内核执行复杂的矩阵分解。
内存一致性：m_axi接口假设与主机共享物理内存（或一致的缓存层次），数据在内核执行前必须被flush到DDR。

下游依赖

本模块的下游依赖主要是数学运算IP核和Xilinx运行时库：

依赖	类型	用途
`hls_math.h`	HLS库	提供`sqrtf`、`rsqrtf`等浮点运算，映射到FPGA DSP或软逻辑
`ap_fixed.h`	HLS库	定点数类型（如使用定点模式）
`hls_stream.h`	HLS库	流式数据类型，用于内部FIFO
XRT	系统库	主机端内核管理和缓冲区分配

关键设计约束：浮点开方和除法在FPGA上代价高昂（延迟高、面积大）。优化策略包括：

使用hls::rsqrt计算逆平方根，然后乘法替代除法
对定点实现，使用CORDIC算法或查找表近似
通过#pragma HLS ALLOCATION限制运算单元实例数，平衡面积与吞吐量

性能架构与优化策略

时序目标分析

配置文件指定 clock=3ns，对应目标频率 333 MHz。这在Versal架构上是激进的但可实现的目标，考虑到：

DSP48延迟：浮点乘加（FMA）在DSP58（Versal新架构）上需要2-3周期流水线
开方延迟：sqrtf通常需要10-20周期（取决于近似算法）
存储器访问：BRAM读延迟1周期，但大阵列分区后路由延迟增加

实现策略：通过#pragma HLS PIPELINE II=1，每个周期启动新的列处理迭代，但内部运算被充分流水线化以隐藏延迟。例如，第k列的开方计算与第k-1列的归一化重叠执行（通过DATAFLOW）。

吞吐量模型

对于 $m \\times n$ 矩阵（假设 $$m=n$$ 以简化）：

操作	计算复杂度	硬件并行度	周期估算
范数计算	$$O(m)$$	$$m$$ 乘加并行	$$O(1)$$ 周期（流水线）
开方	$$O(1)$$	专用单元	$\\sim 10$ 周期
归一化	$$O(m)$$	$$m$$ 除法并行	$$O(1)$$ 周期（流水线）
内积（每后续列）	$$O(m)$$	$$m$$ 乘加并行	$$O(1)$$ 周期
向量更新	$$O(m)$$	$$m$$ 乘加并行	$$O(1)$$ 周期

总吞吐量：对于 $n \\times n$ 矩阵，总周期约为 $$O(n^2)$$ （考虑列间串行依赖），但每周期输出的有效吞吐量通过并行内积单元大幅提升。

资源利用估算（Versal xcvp1202）

基于配置和典型MGS QRD实现：

资源类型	估算用量	设计决策影响
DSP58	80-160	浮点乘加、开方迭代。通过`allocation`限制并行度以平衡面积。
BRAM/URAM	20-40块	存储矩阵A、Q、R的ping-pong缓冲。URAM用于大矩阵（32Kb/块）。
LUT	15000-30000	控制逻辑、浮点指数/尾数处理、地址生成。
FF	20000-40000	流水线寄存器、状态机、数据路径缓冲。
全局时钟缓冲	1-2	单时钟域简化时序收敛。

关键优化：Versal的URAM（UltraRAM）支持级联模式，适合实现深而窄的矩阵存储（如 $64 \\times 8$ 浮点矩阵），比BRAM更节省面积。

设计决策与权衡分析

决策1：MGS vs Householder反射

选择MGS的原因：

计算规律性：MGS的核心是点积和向量更新，适合HLS的自动优化。Householder需要计算反射向量 $$v = x - ||x||e_1$$ 和矩阵-向量乘法 $$H = I - 2vv^T$$ ，控制流更复杂。
增量处理：MGS可以逐列输出Q和R，适合流式处理（streaming）。Householder通常需要存储中间反射向量。

MGS的代价：

数值稳定性：对于病态矩阵（条件数大），MGS的正交性损失比Householder严重。解决方案是使用带重正交化的MGS（MGS2），或限制输入矩阵的条件数（在波束成形中通常是良态的）。

决策2：浮点 vs 定点实现

浮点模式（推测默认）：

优势：动态范围大，无需繁琐的位宽分析，适合算法验证和通用场景。
代价：DSP使用率高（浮点乘加需要多个DSP48级联），开方和除法需要迭代算法，延迟大。

定点模式（可选优化）：

优势：面积小，功耗低，可定制位宽以匹配信噪比需求（波束成形通常不需要IEEE-754的精度）。
挑战：需要确定整数位宽（防止溢出）和小数位宽（精度）。对于QRD，输入通常需要16-24位，中间结果需要扩展位宽。

设计建议：教程可能提供两种模式，通过#ifdef或模板参数选择。

决策3：纯HLS vs AIE+HLS协同

外部依赖的启示：配置文件中的外部依赖AI_Engine_Development.AIE.Design_Tutorials.02-super_sampling_rate_fir.DualSSR16_hw.sw.Makefile.aie_control_xrt.cpp暗示了HLS-AIE协同设计模式。

典型系统架构：

[AIE阵列] --AXI-Stream--> [HLS QRD内核] --AXI-Stream--> [AIE阵列]
     |                        |                          |
   前端信号               QR分解计算                   权重应用
   预处理                 (本模块)                     波束输出

设计优势：

任务划分：AIE擅长向量化和并行FFT/FIR，HLS擅长不规则控制流和矩阵分解。
内存层次：AIE使用本地L1/L2内存，HLS通过m_axi访问PLRAM，减少争用。
时序隔离：AIE和PL使用独立时钟域，通过异步FIFO耦合。

决策4：标量接口 vs 流式接口

当前选择：标量+m_axi混合接口

配置文件显示syn.top=mgs_qrd和flow_target=vivado，暗示标准标量C接口（指针+标量参数）。这种方式：

优势：与XRT驱动模型兼容，主机代码使用标准xrt::bo缓冲区管理。
局限：批量处理延迟高（必须等待整个矩阵传输完成才能启动计算）。

替代方案：AXI-Stream流式接口

如果模块改为hls::stream<matrix_row_t>接口：

优势：行级流式处理，计算与传输重叠，延迟低至 $$O(m)$$ 而非 $$O(mn)$$ 。
代价：需要上游AIE或DMA以流式模式发送数据，控制逻辑更复杂（需处理TLAST、TKEEP信号）。

设计建议：当前标量接口适合批处理模式（如一次处理一个子帧的协方差矩阵）。若需实时流式处理（如每采样点更新QR），应考虑改为AXI-Stream接口，并添加行缓冲逻辑。

内存模型与数据布局

矩阵存储格式

MGS QRD涉及三个矩阵：输入 $$A$$ 、输出 $$Q$$ 、输出 $$R$$ 。它们的存储布局直接影响HLS的综合质量：

列优先（Column-Major）vs 行优先（Row-Major）

MGS算法按列访问数据（范数计算、归一化都是列操作）。因此：

推荐：使用行优先存储，但在HLS内部通过#pragma HLS ARRAY_RESHAPE或显式索引计算转置为列访问模式。
或：直接使用列优先存储，但注意到C/C++默认是行优先，主机代码需要转置。

R矩阵的特殊存储：

$$R$$ 是上三角矩阵，零元素无需存储。可采用打包存储（packed storage）：

// 将R的上三角按行打包到一维数组
// 元素 (i,j) 的索引为 i*n - i*(i-1)/2 + (j-i)
float R_packed[n*(n+1)/2];

这减少50%的存储和传输开销（当 $$n$$ 较大时）。

片上存储层次

Versal架构提供多级存储，本模块的可能使用模式：

存储层级	容量	延迟	使用场景
寄存器	无限（逻辑综合决定）	0周期	流水线中间结果、累加器
LUTRAM	小规模（~KB）	1周期	小查找表、控制状态
BRAM36K	36Kb/块	1-2周期	活跃列缓冲、R矩阵
URAM288K	288Kb/块	2-3周期	完整矩阵A和Q（大矩阵）
PLRAM/HBM	GB级	高（DRAM）	超大规模矩阵、多批次缓冲

关键优化：通过#pragma HLS BIND_STORAGE显式绑定数组到特定存储类型：

#pragma HLS BIND_STORAGE variable=A type=RAM_1P impl=URAM
#pragma HLS BIND_STORAGE variable=R type=RAM_1P impl=BRAM

这确保大矩阵使用高密度的URAM，而频繁访问的R矩阵使用低延迟BRAM。

新贡献者指南：边界情况与陷阱

1. 数值稳定性陷阱

问题：MGS对于病态矩阵（条件数 $\\kappa(A) > 10^8$ ）会丧失正交性，导致 $Q^T Q \\neq I$ 。

检测方法：在内核中添加调试模式，计算正交性误差 $$||Q^T Q - I||_F$$ ，通过ap_uint<1>标志位输出。

缓解策略：

使用MGS2（双正交化）：对每列执行两次正交化步骤
限制输入矩阵的条件数（在波束成形中，协方差矩阵通常是良态的）
使用定点数时，增加小数位宽以提高精度

2. 死锁风险：DATAFLOW与hls::stream

问题：如果#pragma HLS DATAFLOW区域内的函数使用hls::stream，但生产者-消费者速率不匹配，会导致死锁。

示例陷阱：

void producer(hls::stream<float>& out) {
    for (int i = 0; i < N; i++) {
        #pragma HLS PIPELINE
        out.write(data[i]);  // 每周期写一次
    }
}

void consumer(hls::stream<float>& in) {
    for (int i = 0; i < N; i++) {
        // 忘记添加 PIPELINE pragma!
        // 结果：消费者每周期只读一次，但生产者期待每周期写
        // 实际上由于未流水线化，消费者速率慢10倍，导致FIFO满后死锁
        float val = in.read();
        process(val);
    }
}

解决方案：

所有DATAFLOW进程必须使用#pragma HLS PIPELINE II=1
确保所有循环边界是常量（或相同的标量变量）
使用hls::stream::depth显式设置FIFO深度，防止意外的阻塞

3. 时序收敛失败：开方和除法的延迟

问题：sqrtf和/运算在组合逻辑中延迟高，可能导致时序违规（无法达到3ns周期）。

诊断方法：查看综合报告中的"Timing Estimation"部分，检查关键路径是否包含：

fmul -> fadd -> fsqrt 链
fdiv 的迭代逻辑

解决方案：

完全流水线化：确保sqrtf和/在循环中被#pragma HLS PIPELINE包围，工具会自动插入流水线寄存器。
使用近似：对于对精度要求不高的场景，使用hls::rsqrt（逆平方根）配合牛顿迭代，比sqrtf更快。
迭代展开：对于除法，使用hls::recip获取倒数，然后乘法替代除法。

4. 数组边界溢出：列分区后的索引计算

问题：使用ARRAY_PARTITION complete后，数组在逻辑上被拆分，但代码中仍使用原始索引。如果分区维度计算错误，会导致编译错误或访问越界。

陷阱示例：

float A[MAX_M][MAX_N];
#pragma HLS ARRAY_PARTITION variable=A complete dim=2  // 列完全分区

// 错误：尝试动态索引访问分区后的数组
int col = some_runtime_value();  // 0到N-1之间
for (int i = 0; i < M; i++) {
    float val = A[i][col];  // 编译错误！分区后不能使用变量索引
}

根本原因：完全分区（complete partition）创建独立的标量变量（如A_0, A_1, ... A_{N-1}），而非数组。变量索引无法在编译时映射到具体变量。

解决方案：

使用部分分区（factor=N）：如果列数较大，按因子N分区，允许在分区块内使用变量索引。
```
#pragma HLS ARRAY_PARTITION variable=A cyclic factor=4 dim=2
```

循环展开：确保访问分区数组的循环被UNROLL，使索引在编译时可知。

for (int j = 0; j < N; j++) {
    #pragma HLS UNROLL
    A[i][j] = ...;  // OK: j在编译时已知
}

使用ap_memory接口：如果必须使用变量索引，改用ap_memory接口（标准RAM接口），而非完全分区，牺牲并行性换取灵活性。

总结与最佳实践

核心设计洞察

算法-架构协同设计：MGS算法的选择并非纯粹基于数学，而是基于其在HLS工具链中的可优化性。规整的计算模式（点积、向量更新）允许激进的ARRAY_PARTITION和PIPELINE优化。
内存层次感知：小矩阵完全驻留片上（BRAM/URAM），消除了DDR带宽瓶颈。这是Versal架构的优势（大容量URAM），在传统7系列FPGA上难以实现。
延迟与吞吐量权衡：通过DATAFLOW实现任务级并行，列处理的三个阶段（范数→归一化→正交化）并发执行，隐藏了开方和除法的高延迟。

使用建议

何时使用此模块：

波束成形、MIMO检测、自适应滤波等需要实时QRD的场景
矩阵规模较小（ $n \\leq 16$ 到 32），适合片上存储
与AIE阵列协同，作为后处理单元执行复杂矩阵运算

何时考虑替代方案：

矩阵规模很大（ $$n > 64$$ ）：考虑基于外部存储的分块QRD算法
极高数值稳定性要求：考虑Householder反射或Givens旋转
纯CPU处理：使用Eigen、LAPACK等优化库

扩展方向

动态精度支持：通过C++模板参数化数据类型（float vs ap_fixed<W,I>），在编译时选择精度，避免代码重复。
分块（Blocked）QRD：对于大矩阵，实现分块MGS，利用L2缓存/URAM局部性，将 $$O(n^3)$$ 运算划分为可在片上执行的块。
AIE集成优化：将本HLS内核嵌入AIE图（graph），使用adf::port声明PLIO接口，让工具自动处理AIE-PL时钟域转换和同步。
稀疏矩阵支持：对于天线阵列的稀疏配置，修改算法跳过零元素计算，使用CSR/CSC格式存储，大幅降低计算量。

参考与延伸阅读

Xilinx官方文档：

Vitis High-Level Synthesis User Guide (UG1399) - HLS优化策略权威参考
Versal Architecture Prime Series Data Sheet (DS950) - 器件资源与时序规格
AI Engine Programming Environment User Guide (UG1076) - AIE与PL集成

算法与数值分析：

Matrix Computations (Golub & Van Loan) - QR分解算法圣经，第5章
Numerical Linear Algebra (Trefethen & Bau) - MGS与Householder的理论分析

相关模块：

AIE_Design_Graphs_and_Algorithms-filtering_multirate_and_farrow_designs - 多速率滤波设计，常与QRD联合用于波束成形
AIE_Design_System_Integration-baseline_aie_pl_integration_examples - AIE与PL集成基础，展示如何将本HLS内核接入完整系统
Vitis_HLS_Tutorials-code_analyzer_feature_tutorial_progression - Vitis HLS代码分析工具，用于优化本模块的时序和吞吐量

文档版本：1.0
最后更新：基于Vitis 2023.2工具链与Versal Premium架构分析
作者提示：本文档基于配置文件的元数据分析。如需实现细节（确切的HLS pragmas、流水线调度报告），请综合Vitis HLS的综合报告（csynth.rpt）和协同仿真波形。

操作	计算复杂度	硬件并行度	周期估算
范数计算	$\(O(m)\)$	$\(m\)$ 乘加并行	$\(O(1)\)$ 周期（流水线）
开方	$\(O(1)\)$	专用单元	$\\sim 10$ 周期
归一化	$\(O(m)\)$	$\(m\)$ 除法并行	$\(O(1)\)$ 周期（流水线）
内积（每后续列）	$\(O(m)\)$	$\(m\)$ 乘加并行	$\(O(1)\)$ 周期
向量更新	$\(O(m)\)$	$\(m\)$ 乘加并行	$\(O(1)\)$ 周期

接口类型	用途	协议	配置参数
数据输入	矩阵 $\(A\)$	`m_axi`	突发长度、缓存策略
数据输出	矩阵 $\(Q\)$ , $\(R\)$	`m_axi`	写响应策略
控制	维度 $\(m,n\)$	`s_axilite`	寄存器映射