Changed the format removed comments and duplicate variable

2026-01-29 11:02:11 +05:30 · 2026-01-29 11:02:11 +05:30 · 1d4d342deb
parent 3b9b4df2da
commit 1d4d342deb
1 changed files with 14 additions and 32 deletions
--- a/ggml/src/ggml-cpu/arch/arm/repack.cpp
+++ b/ggml/src/ggml-cpu/arch/arm/repack.cpp
@ -3039,7 +3039,7 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
    UNUSED(blocklen);

 #if defined(__aarch64__) && defined(__ARM_FEATURE_SVE) && defined(__ARM_FEATURE_MATMUL_INT8)
-    if (svcntb()*8 == 256) {
+    if (svcntb() * 8 == 256) {
        constexpr int    q8_k_blocklen = 4;
        const svuint8_t m4b_1          = svdup_n_u8(0x0f);
        // 8 accumulators: 2 row pairs × 4 col pairs
@ -3053,11 +3053,9 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,

        for (int y = 0; y < nr / q8_k_blocklen; y++) {
            const block_q8_Kx4 * GGML_RESTRICT q8_ptr = (const block_q8_Kx4 *) vy + (y * nb);
-            const block_q8_Kx4 * GGML_RESTRICT q8_ptr_1 = (const block_q8_Kx4 *) vy + (y * nb);

            for (int x = 0; x < nc / ncols_interleaved; x++) {
                const block_q4_Kx8 * GGML_RESTRICT q4_ptr = (const block_q4_Kx8 *) vx + (x * nb);
-                const block_q4_Kx8 * GGML_RESTRICT q4_ptr_1 = (const block_q4_Kx8 *) vx + (x * nb);

                acc_f32_01 = svdup_n_f32(0);
                acc_f32_23 = svdup_n_f32(0);
@ -3065,7 +3063,8 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                acc_f32_67 = svdup_n_f32(0);

                for (int b = 0; b < nb; b++) {
-                    // bsums pairs belongs to the same q8_k subblock   // 64 elemnts loaded and made sum of 0-7 and 8-15 sum || 16-23 and 24 - 31 sum
+                    // bsums pairs belongs to the same q8_k subblock
+                    // 64 elemnts loaded and made sum of 0-7 and 8-15 sum || 16-23 and 24 - 31 sum
                    const int16x8_t bsums[4]{
                        vpaddq_s16(vld1q_s16(q8_ptr[b].bsums + 16 * 0), vld1q_s16(q8_ptr[b].bsums + 16 * 0 + 8)),
                        vpaddq_s16(vld1q_s16(q8_ptr[b].bsums + 16 * 1), vld1q_s16(q8_ptr[b].bsums + 16 * 1 + 8)),
@ -3112,10 +3111,10 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                        {
                            // 2-superblock I am working on
                            const int offset = sb * 24 + 0 * 12;
-                            const uint8_t * scales_in = &q4_ptr_1[b].scales[offset];
+                            const uint8_t * scales_in = &q4_ptr[b].scales[offset];

                            const int offset1 = sb * 24 + 12;
-                            const uint8_t * scales_in1 = &q4_ptr_1[b].scales[offset1];
+                            const uint8_t * scales_in1 = &q4_ptr[b].scales[offset1];

                            constexpr uint32_t kmask1 = 0x3f3f3f3f;
                            constexpr uint32_t kmask2 = 0x0f0f0f0f;
@ -3159,39 +3158,23 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                            svuint32_t R01 = svdup_n_u32(scales_u32_2);
                            svuint32_t R23 = svdup_n_u32(scales_u32_3);

-                            svint8_t S01_b = svreinterpret_s8_u32(S01);  // s0 s1 s2 s3 ...
-                            svint8_t S23_b = svreinterpret_s8_u32(S23);  // s4 s5 s6 s7 ...
-                            svint8_t R01_b = svreinterpret_s8_u32(R01);  // r0 r1 r2 r3 ...
-                            svint8_t R23_b = svreinterpret_s8_u32(R23);  // r4 r5 r6 r7 ...
+                            svint8_t S01_b = svreinterpret_s8_u32(S01);
+                            svint8_t S23_b = svreinterpret_s8_u32(S23);
+                            svint8_t R01_b = svreinterpret_s8_u32(R01);
+                            svint8_t R23_b = svreinterpret_s8_u32(R23);

                            svint32_t S01_d = svunpklo_s32(svunpklo_s16(svzip1_s8(S01_b, S01_b)));
-                            // s0 s0 s1 s1 s2 s2 s3 s3 ...
-
                            svint32_t R01_d = svunpklo_s32(svunpklo_s16(svzip1_s8(R01_b, R01_b)));
-                            // r0 r0 r1 r1 r2 r2 r3 r3 ...
-
                            svint32_t S23_d = svunpklo_s32(svunpklo_s16(svzip1_s8(S23_b, S23_b)));
-                            // s4 s4 s5 s5 s6 s6 s7 s7 ...
-
                            svint32_t R23_d = svunpklo_s32(svunpklo_s16(svzip1_s8(R23_b, R23_b)));
-                            // r4 r4 r5 r5 r6 r6 r7 r7 ...

                            block_scale_0 = svtbl_s32(svzip1_s32(S01_d, R01_d), idx);
-                            // s0 s0 s1 s1 r0 r0 r1 r1
-
                            block_scale_1 = svtbl_s32(svzip2_s32(S01_d, R01_d), idx);
-                            // s2 s2 s3 s3 r2 r2 r3 r3
-
                            block_scale_2 = svtbl_s32(svzip1_s32(S23_d, R23_d), idx);
-                            // s4 s4 s5 s5 r4 r4 r5 r5
-
                            block_scale_3 = svtbl_s32(svzip2_s32(S23_d, R23_d), idx);
-                            // s6 s6 s7 s7 r6 r6 r7 r7
                        }

-                        // q8_ptr[b].qs has interleaved Q8 rows (01, 23)
-                        // const int8_t * q8_base = q8_ptr[b].qs + sb * 256;
-                        const int8_t * q8_base_1 = q8_ptr_1[b].qs + sb * 256;
+                        const int8_t * q8_base_1 = q8_ptr[b].qs + sb * 256;

                        // Load 32-byte per row pair, 1 subblock each time
                        // predicate for activating higher lanes for 16 int8 elements
@ -3215,10 +3198,10 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                            sb_acc_0 = svdup_n_s32(0);
                            sb_acc_2 = svdup_n_s32(0);

-                            svuint8_t q4_qs_cp_00 = svld1rq_u8(svptrue_b8(), q4_ptr_1[b].qs + sb * QK_K + 16 * cp + 0);
-                            svuint8_t q4_qs_cp_01 = svld1rq_u8(svptrue_b8(), q4_ptr_1[b].qs + sb * QK_K + 16 * cp + 64);
-                            svuint8_t q4_qs_cp_02 = svld1rq_u8(svptrue_b8(), q4_ptr_1[b].qs + sb * QK_K + 16 * cp + 128);
-                            svuint8_t q4_qs_cp_03 = svld1rq_u8(svptrue_b8(), q4_ptr_1[b].qs + sb * QK_K + 16 * cp + 192);
+                            svuint8_t q4_qs_cp_00 = svld1rq_u8(svptrue_b8(), q4_ptr[b].qs + sb * QK_K + 16 * cp + 0);
+                            svuint8_t q4_qs_cp_01 = svld1rq_u8(svptrue_b8(), q4_ptr[b].qs + sb * QK_K + 16 * cp + 64);
+                            svuint8_t q4_qs_cp_02 = svld1rq_u8(svptrue_b8(), q4_ptr[b].qs + sb * QK_K + 16 * cp + 128);
+                            svuint8_t q4_qs_cp_03 = svld1rq_u8(svptrue_b8(), q4_ptr[b].qs + sb * QK_K + 16 * cp + 192);

                            svint8_t q4_nibbles_00  = svreinterpret_s8_u8(svlsr_n_u8_m(pl16, svand_u8_m(ph16, q4_qs_cp_00, m4b_1), 4));
                            svint8_t q4_nibbles_01  = svreinterpret_s8_u8(svlsr_n_u8_m(pl16, svand_u8_m(ph16, q4_qs_cp_01, m4b_1), 4));
@ -3269,7 +3252,6 @@ void ggml_gemm_q4_K_8x8_q8_K(int                        n,
                    }  // for sb


-                    // acc[0..3]                 // acc[4..7]
                    acc_00 = svadd_s32_z(svptrue_pat_b32(SV_VL4), acc_00, svext_s32(acc_00, acc_00, 4));
                    acc_11 = svadd_s32_z(svptrue_pat_b32(SV_VL4), acc_11, svext_s32(acc_11, acc_11, 4));
                    acc_22 = svadd_s32_z(svptrue_pat_b32(SV_VL4), acc_22, svext_s32(acc_22, acc_22, 4));