diff options
Diffstat (limited to 'encoder/arm/ih264e_half_pel.s')
-rwxr-xr-x | encoder/arm/ih264e_half_pel.s | 951 |
1 files changed, 951 insertions, 0 deletions
diff --git a/encoder/arm/ih264e_half_pel.s b/encoder/arm/ih264e_half_pel.s new file mode 100755 index 0000000..1b9a87a --- /dev/null +++ b/encoder/arm/ih264e_half_pel.s @@ -0,0 +1,951 @@ +@/****************************************************************************** +@ * +@ * Copyright (C) 2015 The Android Open Source Project +@ * +@ * Licensed under the Apache License, Version 2.0 (the "License"); +@ * you may not use this file except in compliance with the License. +@ * You may obtain a copy of the License at: +@ * +@ * http://www.apache.org/licenses/LICENSE-2.0 +@ * +@ * Unless required by applicable law or agreed to in writing, software +@ * distributed under the License is distributed on an "AS IS" BASIS, +@ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +@ * See the License for the specific language governing permissions and +@ * limitations under the License. +@ * +@ ***************************************************************************** +@ * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore +@*/ +@/** +@ ******************************************************************************* +@ * @file +@ * ih264e_half_pel.s +@ * +@ * @brief +@ * +@ * +@ * @author +@ * Ittiam +@ * +@ * @par List of Functions: +@ * ih264e_sixtapfilter_horz +@ * ih264e_sixtap_filter_2dvh_vert +@ +@ * +@ * @remarks +@ * None +@ * +@ ******************************************************************************* +@ */ + + +.text +.p2align 2 + +@ /** +@/******************************************************************************* +@* +@* @brief +@* Interprediction luma filter for horizontal input(Filter run for width = 17 and height =16) +@* +@* @par Description: +@* Applies a 6 tap horizontal filter .The output is clipped to 8 bits +@* sec 8.4.2.2.1 titled "Luma sample interpolation process" +@* +@* @param[in] pu1_src +@* UWORD8 pointer to the source +@* +@* @param[out] pu1_dst +@* UWORD8 pointer to the destination +@* +@* @param[in] src_strd +@* integer source stride +@* +@* @param[in] dst_strd +@* integer destination stride +@* +@* +@* @returns +@* +@* @remarks +@* None +@* +@******************************************************************************* +@*/ +@void ih264e_sixtapfilter_horz(UWORD8 *pu1_src, +@ UWORD8 *pu1_dst, +@ WORD32 src_strd, +@ WORD32 dst_strd); + + +.equ HALFPEL_WIDTH , 17 + 1 @( make it even, two rows are processed at a time) + + + .global ih264e_sixtapfilter_horz_a9q +ih264e_sixtapfilter_horz_a9q: + stmfd sp!, {lr} + + vmov.i8 d0, #5 + sub r0, r0, #2 + + vmov.i8 d1, #20 + mov r14, #HALFPEL_WIDTH + vpush {d8-d15} + +filter_horz_loop: + + + vld1.8 {d2, d3, d4}, [r0], r2 @// Load row0 + vld1.8 {d5, d6, d7}, [r0], r2 @// Load row1 + + @// Processing row0 and row1 + + vext.8 d31, d2, d3, #5 @//extract a[5] (column1,row0) + vext.8 d30, d3, d4, #5 @//extract a[5] (column2,row0) + + vaddl.u8 q4, d31, d2 @// a0 + a5 (column1,row0) + vext.8 d29, d4, d4, #5 @//extract a[5] (column3,row0) + vaddl.u8 q5, d30, d3 @// a0 + a5 (column2,row0) + vext.8 d28, d5, d6, #5 @//extract a[5] (column1,row1) + vaddl.u8 q6, d29, d4 @// a0 + a5 (column3,row0) + vext.8 d27, d6, d7, #5 @//extract a[5] (column2,row1) + vaddl.u8 q7, d28, d5 @// a0 + a5 (column1,row1) + vext.8 d26, d7, d7, #5 @//extract a[5] (column3,row1) + + vaddl.u8 q8, d27, d6 @// a0 + a5 (column2,row1) + vext.8 d31, d2, d3, #2 @//extract a[2] (column1,row0) + vaddl.u8 q9, d26, d7 @// a0 + a5 (column3,row1) + vext.8 d30, d3, d4, #2 @//extract a[2] (column2,row0) + vmlal.u8 q4, d31, d1 @// a0 + a5 + 20a2 (column1,row0) + vext.8 d29, d4, d4, #2 @//extract a[2] (column3,row0) + vmlal.u8 q5, d30, d1 @// a0 + a5 + 20a2 (column2,row0) + vext.8 d28, d5, d6, #2 @//extract a[2] (column1,row1) + vmlal.u8 q6, d29, d1 @// a0 + a5 + 20a2 (column3,row0) + vext.8 d27, d6, d7, #2 @//extract a[2] (column2,row1) + vmlal.u8 q7, d28, d1 @// a0 + a5 + 20a2 (column1,row1) + vext.8 d26, d7, d7, #2 @//extract a[2] (column3,row1) + + vmlal.u8 q8, d27, d1 @// a0 + a5 + 20a2 (column2,row1) + vext.8 d31, d2, d3, #3 @//extract a[3] (column1,row0) + vmlal.u8 q9, d26, d1 @// a0 + a5 + 20a2 (column3,row1) + vext.8 d30, d3, d4, #3 @//extract a[3] (column2,row0) + vmlal.u8 q4, d31, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vext.8 d29, d4, d4, #3 @//extract a[3] (column3,row0) + vmlal.u8 q5, d30, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vext.8 d28, d5, d6, #3 @//extract a[3] (column1,row1) + vmlal.u8 q6, d29, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vext.8 d27, d6, d7, #3 @//extract a[3] (column2,row1) + vmlal.u8 q7, d28, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row1) + vext.8 d26, d7, d7, #3 @//extract a[3] (column3,row1) + + vmlal.u8 q8, d27, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row1) + vext.8 d31, d2, d3, #1 @//extract a[1] (column1,row0) + vmlal.u8 q9, d26, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row1) + vext.8 d30, d3, d4, #1 @//extract a[1] (column2,row0) + vmlsl.u8 q4, d31, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vext.8 d29, d4, d4, #1 @//extract a[1] (column3,row0) + vmlsl.u8 q5, d30, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vext.8 d28, d5, d6, #1 @//extract a[1] (column1,row1) + vmlsl.u8 q6, d29, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vext.8 d27, d6, d7, #1 @//extract a[1] (column2,row1) + vmlsl.u8 q7, d28, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row1) + vext.8 d26, d7, d7, #1 @//extract a[1] (column3,row1) + + vmlsl.u8 q8, d27, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row1) + vext.8 d31, d2, d3, #4 @//extract a[4] (column1,row0) + vmlsl.u8 q9, d26, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row1) + vext.8 d30, d3, d4, #4 @//extract a[4] (column2,row0) + vmlsl.u8 q4, d31, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + vext.8 d29, d4, d4, #4 @//extract a[4] (column3,row0) + vmlsl.u8 q5, d30, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + vext.8 d28, d5, d6, #4 @//extract a[4] (column1,row1) + vmlsl.u8 q6, d29, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + vext.8 d27, d6, d7, #4 @//extract a[4] (column2,row1) + vmlsl.u8 q7, d28, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row1) + vext.8 d26, d7, d7, #4 @//extract a[4] (column3,row1) + + vmlsl.u8 q8, d27, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row1) + vmlsl.u8 q9, d26, d0 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row1) + + vqrshrun.s16 d20, q4, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vqrshrun.s16 d21, q5, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vqrshrun.s16 d22, q6, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vqrshrun.s16 d23, q7, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row1) + vqrshrun.s16 d24, q8, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row1) + vqrshrun.s16 d25, q9, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row1) + + vst1.8 {d20, d21, d22}, [r1], r3 @//Store dest row0 + vst1.8 {d23, d24, d25}, [r1], r3 @//Store dest row1 + + subs r14, r14, #2 @ decrement counter + + bne filter_horz_loop + + vpop {d8-d15} + ldmfd sp!, {pc} + + + + + + + + + +@/** +@******************************************************************************* +@* +@* @brief +@* This function implements a two stage cascaded six tap filter. It +@* applies the six tap filter in the vertical direction on the +@* predictor values, followed by applying the same filter in the +@* horizontal direction on the output of the first stage. The six tap +@* filtering operation is described in sec 8.4.2.2.1 titled "Luma sample +@* interpolation process" +@* (Filter run for width = 17 and height =17) +@* @par Description: +@* The function interpolates +@* the predictors first in the vertical direction and then in the +@* horizontal direction to output the (1/2,1/2). The output of the first +@* stage of the filter is stored in the buffer pointed to by pi16_pred1(only in C) +@* in 16 bit precision. +@* +@* +@* @param[in] pu1_src +@* UWORD8 pointer to the source +@* +@* @param[out] pu1_dst1 +@* UWORD8 pointer to the destination(vertical filtered output) +@* +@* @param[out] pu1_dst2 +@* UWORD8 pointer to the destination(out put after applying horizontal filter to the intermediate vertical output) +@* +@* @param[in] src_strd +@* integer source stride +@* +@* @param[in] dst_strd +@* integer destination stride of pu1_dst +@* +@* @param[in]pi16_pred1 +@* Pointer to 16bit intermediate buffer(used only in c) +@* +@* @param[in] pi16_pred1_strd +@* integer destination stride of pi16_pred1 +@* +@* +@* @returns +@* +@* @remarks +@* None +@* +@******************************************************************************* +@*/ +@void ih264e_sixtap_filter_2dvh_vert(UWORD8 *pu1_src, +@ UWORD8 *pu1_dst1, +@ UWORD8 *pu1_dst2, +@ WORD32 src_strd, +@ WORD32 dst_strd, +@ WORD32 *pi16_pred1,/* Pointer to 16bit intermmediate buffer (used only in c)*/ +@ WORD32 pi16_pred1_strd) + + + + + .global ih264e_sixtap_filter_2dvh_vert_a9q + +ih264e_sixtap_filter_2dvh_vert_a9q: + stmfd sp!, {r10, r11, r12, lr} + +@//r0 - pu1_ref +@//r3 - u4_ref_width + vpush {d8-d15} + @// Load six rows for vertical interpolation + lsl r12, r3, #1 + sub r0, r0, r12 + sub r0, r0, #2 + vld1.8 {d2, d3, d4}, [r0], r3 + vld1.8 {d5, d6, d7}, [r0], r3 + vld1.8 {d8, d9, d10}, [r0], r3 + mov r12, #5 + vld1.8 {d11, d12, d13}, [r0], r3 + mov r14, #20 + vld1.8 {d14, d15, d16}, [r0], r3 + vmov.16 d0[0], r12 + vmov.16 d0[1], r14 + vld1.8 {d17, d18, d19}, [r0], r3 + vmov.i8 d1, #20 + +@// r12 - u2_buff1_width +@// r14 - u2_buff2_width + ldr r12, [sp, #80] + add r11, r1, #6 + + mov r14, r12 + + mov r10, #3 @loop counter + + +filter_2dvh_loop: + + @// ////////////// ROW 1 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vaddl.u8 q10, d2, d17 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d8, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d11, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d5, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d14, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + + vaddl.u8 q11, d3, d18 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d9, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d12, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d6, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d15, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d4, d19 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d10, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d13, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d7, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d16, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + + vqrshrun.s16 d2, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d3, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d4, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d2, d2, d3, #2 + vst1.8 {d3, d4}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d2}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q1, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q1, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q1, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q1, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q1, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q1, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d2, d3, d4}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + @//VQRSHRUN.s16 D27,Q14,#2 ;// half,half gird set3,4 + @//VSHRN.s32 D28,Q11,#8 ;// shift by 8 and later we will shift by 2 more with rounding (set5) + + @//VQRSHRUN.s16 D28,Q14,#2 ;// half,half gird set5 + + @//VST1.8 {D26,D27,D28},[r2],r14 ;// store 1/2,1,2 grif values + @// ////////////// ROW 2 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vaddl.u8 q10, d5, d2 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d11, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d14, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d8, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d17, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vaddl.u8 q11, d6, d3 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d12, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d15, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d9, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d18, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d7, d4 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d13, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d16, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d10, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d19, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + vqrshrun.s16 d5, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d6, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d7, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d5, d5, d6, #2 + vst1.8 {d6, d7}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d5}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q3, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q3, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q3, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q3, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q3, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q3, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d5, d6, d7}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + @//VQRSHRUN.s16 D27,Q14,#2 ;// half,half gird set3,4 + @//VSHRN.s32 D28,Q11,#8 ;// shift by 8 and later we will shift by 2 more with rounding (set5) + + @//VQRSHRUN.s16 D28,Q14,#2 ;// half,half gird set5 + + @//VST1.8 {D26,D27,D28},[r2],r14 ;// store 1/2,1,2 grif values + @// ////////////// ROW 3 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vaddl.u8 q10, d8, d5 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d14, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d17, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d11, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d2, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vaddl.u8 q11, d9, d6 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d15, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d18, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d12, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d3, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d10, d7 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d16, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d19, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d13, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d4, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + vqrshrun.s16 d8, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d9, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d10, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d8, d8, d9, #2 + vst1.8 {d9, d10}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d8}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q4, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q4, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q4, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q4, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q4, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q4, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d8, d9, d10}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + @//VQRSHRUN.s16 D27,Q14,#2 ;// half,half gird set3,4 + @//VSHRN.s32 D28,Q11,#8 ;// shift by 8 and later we will shift by 2 more with rounding (set5) + + @//VQRSHRUN.s16 D28,Q14,#2 ;// half,half gird set5 + + @//VST1.8 {D26,D27,D28},[r2],r14 ;// store 1/2,1,2 grif values + @// ////////////// ROW 4 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vaddl.u8 q10, d11, d8 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d17, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d2, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d14, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d5, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vaddl.u8 q11, d12, d9 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d18, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d3, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d15, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d6, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d13, d10 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d19, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d4, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d16, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d7, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + vqrshrun.s16 d11, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d12, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d13, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d11, d11, d12, #2 + vst1.8 {d12, d13}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d11}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q6, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q6, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q6, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q6, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q6, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q6, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d11, d12, d13}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + @//VQRSHRUN.s16 D27,Q14,#2 ;// half,half gird set3,4 + @//VSHRN.s32 D28,Q11,#8 ;// shift by 8 and later we will shift by 2 more with rounding (set5) + + @//VQRSHRUN.s16 D28,Q14,#2 ;// half,half gird set5 + + @//VST1.8 {D26,D27,D28},[r2],r14 ;// store 1/2,1,2 grif values + @// ////////////// ROW 5 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vaddl.u8 q10, d14, d11 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d2, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d5, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d17, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d8, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vaddl.u8 q11, d15, d12 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d3, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d6, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d18, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d9, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d16, d13 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d4, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d7, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d19, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d10, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + vqrshrun.s16 d14, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d15, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d16, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d14, d14, d15, #2 + vst1.8 {d15, d16}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d14}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q7, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q7, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q7, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q7, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q7, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q7, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d14, d15, d16}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + @//VQRSHRUN.s16 D27,Q14,#2 ;// half,half gird set3,4 + @//VSHRN.s32 D28,Q11,#8 ;// shift by 8 and later we will shift by 2 more with rounding (set5) + + @//VQRSHRUN.s16 D28,Q14,#2 ;// half,half gird set5 + + @//VST1.8 {D26,D27,D28},[r2],r14 ;// store 1/2,1,2 grif values + @// ////////////// ROW 6 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + + cmp r10, #1 @// if it 17 rows are complete skip + beq filter_2dvh_skip_row + vaddl.u8 q10, d17, d14 @// a0 + a5 (column1,row0) + vmov.i8 d31, #5 + vmlal.u8 q10, d5, d1 @// a0 + a5 + 20a2 (column1,row0) + vmlal.u8 q10, d8, d1 @// a0 + a5 + 20a2 + 20a3 (column1,row0) + vmlsl.u8 q10, d2, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column1,row0) + vmlsl.u8 q10, d11, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column1,row0) + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vaddl.u8 q11, d18, d15 @// a0 + a5 (column2,row0) + vmlal.u8 q11, d6, d1 @// a0 + a5 + 20a2 (column2,row0) + vmlal.u8 q11, d9, d1 @// a0 + a5 + 20a2 + 20a3 (column2,row0) + vmlsl.u8 q11, d3, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column2,row0) + vmlsl.u8 q11, d12, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column2,row0) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + vext.16 d30, d20, d21, #2 @//extract a[2] (set1) + + vaddl.u8 q12, d19, d16 @// a0 + a5 (column3,row0) + vext.16 d29, d20, d21, #3 @//extract a[3] (set1) + vmlal.u8 q12, d7, d1 @// a0 + a5 + 20a2 (column3,row0) + vmlal.u8 q12, d10, d1 @// a0 + a5 + 20a2 + 20a3 (column3,row0) + vmlsl.u8 q12, d4, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 (column3,row0) + vmlsl.u8 q12, d13, d31 @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (column3,row0) + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + vqrshrun.s16 d17, q10, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column1,row0) + vext.16 d31, d21, d22, #1 @//extract a[5] (set1) + vqrshrun.s16 d18, q11, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column2,row0) + vext.16 d28, d20, d21, #1 @//extract a[1] (set1) + + vaddl.s16 q13, d31, d20 @// a0 + a5 (set1) + vext.16 d31, d22, d23, #1 @//extract a[5] (set2) + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set1) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set1) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set1) + vmlsl.s16 q13, d21, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set1) + vext.16 d30, d21, d22, #2 @//extract a[2] (set2) + + vqrshrun.s16 d19, q12, #5 @// (a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 + 16) >> 5 (column3,row0) + vext.16 d29, d21, d22, #3 @//extract a[3] (set2) + + vext.16 d28, d21, d22, #1 @//extract a[1] (set2) + vaddl.s16 q10, d31, d21 @// a0 + a5 (set2) + vmlal.s16 q10, d30, d0[1] @// a0 + a5 + 20a2 (set2) + vmlal.s16 q10, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set2) + vmlsl.s16 q10, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set2) + vmlsl.s16 q10, d22, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set2) + vext.16 d31, d23, d24, #1 @//extract a[5] (set3) + + vext.8 d17, d17, d18, #2 + vst1.8 {d18, d19}, [r11], r12 @// store row1 - 1,1/2 grid + vst1.8 {d17}, [r1], r12 @// store row1 - 1,1/2 grid + + vext.16 d30, d22, d23, #2 @//extract a[2] (set3) + vext.16 d29, d22, d23, #3 @//extract a[3] (set3) + + vaddl.s16 q9, d31, d22 @// a0 + a5 (set3) + vext.16 d28, d22, d23, #1 @//extract a[1] (set3) + vmlal.s16 q9, d30, d0[1] @// a0 + a5 + 20a2 (set3) + vmlal.s16 q9, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set3) + vmlsl.s16 q9, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set3) + vmlsl.s16 q9, d23, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set3) + vext.16 d31, d24, d25, #1 @//extract a[5] (set4) + + vshrn.s32 d21, q10, #8 @// shift by 8 and later we will shift by 2 more with rounding (set2) + vext.16 d30, d23, d24, #2 @//extract a[2] (set4) + vshrn.s32 d20, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set1) + vext.16 d29, d23, d24, #3 @//extract a[3] (set4) + + vaddl.s16 q13, d31, d23 @// a0 + a5 (set4) + vext.16 d28, d23, d24, #1 @//extract a[1] (set4) + vext.16 d31, d25, d25, #1 @//extract a[5] (set5) ;//here only first element in the row is valid + vmlal.s16 q13, d30, d0[1] @// a0 + a5 + 20a2 (set4) + vmlal.s16 q13, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set4) + vmlsl.s16 q13, d28, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set4) + vmlsl.s16 q13, d24, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set4) + vext.16 d30, d24, d25, #2 @//extract a[2] (set5) + + vaddl.s16 q11, d31, d24 @// a0 + a5 (set5) + vext.16 d29, d24, d25, #3 @//extract a[3] (set5) + + vext.16 d31, d24, d25, #1 @//extract a[1] (set5) + vshrn.s32 d28, q9, #8 @// shift by 8 and later we will shift by 2 more with rounding (set3) + + vld1.8 {d17, d18, d19}, [r0], r3 @// Load next Row data + vmlal.s16 q11, d30, d0[1] @// a0 + a5 + 20a2 (set5) + vmlal.s16 q11, d29, d0[1] @// a0 + a5 + 20a2 + 20a3 (set5) + vmlsl.s16 q11, d31, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 (set5) + vmlsl.s16 q11, d25, d0[0] @// a0 + a5 + 20a2 + 20a3 - 5a1 - 5a4 (set5) + vshrn.s32 d29, q13, #8 @// shift by 8 and later we will shift by 2 more with rounding (set4) + vqrshrun.s16 d26, q10, #2 @// half,half gird set1,2 + + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + + subs r10, r10, #1 @//decrement loop counter + + bne filter_2dvh_loop + + +@// Process first vertical interpolated row +@// each column is + @// ////////////// ROW 13 /////////////////////// + +@// Process first vertical interpolated row +@// each column is + vpop {d8-d15} + ldmfd sp!, {r10, r11, r12, pc} + +filter_2dvh_skip_row: + + vqrshrun.s16 d27, q14, #2 @// half,half gird set3,4 + vshrn.s32 d28, q11, #8 @// shift by 8 and later we will shift by 2 more with rounding (set5) + + vqrshrun.s16 d28, q14, #2 @// half,half gird set5 + + vst1.8 {d26, d27, d28}, [r2], r14 @// store 1/2,1,2 grif values + vpop {d8-d15} + ldmfd sp!, {r10, r11, r12, pc} + + + + |