common/arm64/ihevc_intra_pred_luma_dc.s


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519

///*****************************************************************************
//*
//* Copyright (C) 2012 Ittiam Systems Pvt Ltd, Bangalore
//*
//* Licensed under the Apache License, Version 2.0 (the "License");
//* you may not use this file except in compliance with the License.
//* You may obtain a copy of the License at:
//*
//* http://www.apache.org/licenses/LICENSE-2.0
//*
//* Unless required by applicable law or agreed to in writing, software
//* distributed under the License is distributed on an "AS IS" BASIS,
//* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
//* See the License for the specific language governing permissions and
//* limitations under the License.
//*
//*****************************************************************************/
///**
//*******************************************************************************
//* @file
//*  ihevc_intra_pred_filters_dc.s
//*
//* @brief
//*  contains function definitions for intra prediction dc filtering.
//* functions are coded using neon  intrinsics and can be compiled using

//* rvct
//*
//* @author
//*  akshaya mukund
//*
//* @par list of functions:
//*
//*
//* @remarks
//*  none
//*
//*******************************************************************************
//*/
///**
//*******************************************************************************
//*
//* @brief
//*    luma intraprediction filter for dc input
//*
//* @par description:
//*
//* @param[in] pu1_ref
//*  uword8 pointer to the source
//*
//* @param[out] pu1_dst
//*  uword8 pointer to the destination
//*
//* @param[in] src_strd
//*  integer source stride
//*
//* @param[in] dst_strd
//*  integer destination stride
//*
//* @param[in] pi1_coeff
//*  word8 pointer to the planar coefficients
//*
//* @param[in] nt
//*  size of tranform block
//*
//* @param[in] mode
//*  type of filtering
//*
//* @returns
//*
//* @remarks
//*  none
//*
//*******************************************************************************
//*/

//void ihevc_intra_pred_luma_dc(uword8 *pu1_ref,
//                              word32 src_strd,
//                              uword8 *pu1_dst,
//                              word32 dst_strd,
//                              word32 nt,
//                              word32 mode)
//
//**************variables vs registers*****************************************
//x0 => *pu1_ref
//x1 => src_strd
//x2 => *pu1_dst
//x3 => dst_strd

//stack contents from #40
//    nt
//    mode
//    pi1_coeff

.text
.align 4
.include "ihevc_neon_macros.s"


.globl ihevc_intra_pred_luma_dc_av8

.type ihevc_intra_pred_luma_dc_av8, %function

ihevc_intra_pred_luma_dc_av8:

    // stmfd sp!, {x4-x12, x14}            //stack stores the values of the arguments
    push_v_regs
    stp         x19, x20,[sp,#-16]!


//********** testing
    //mov        x6, #128
    //b        prologue_cpy_32
//********** testing

    mov         x11, #2                     //mov #2 to x11 (to be used to add to 2dc_val & 3dc_val)
    mov         x9, #0
    mov         v17.s[0], w11
    mov         v17.s[1], w9

    clz         w5,w4

    add         x6, x0, x4                  //&src[nt]
    sub         x20, x5, #32                //log2nt
    neg         x5, x20
    add         x7, x0, x4, lsl #1          //&src[2nt]

    add         x8, x7, #1                  //&src[2nt+1]
    mvn         x5, x5
    add         x5, x5, #1
    dup         v8.2s,w5

    ldrb        w14, [x8]
    sxtw        x14,w14
    shl         d8, d8,#32

    sub         x9, x7, #1                  //&src[2nt-1]
    sshr        d8, d8,#32

    mov         x7, x8                      //x7 also stores 2nt+1

    ldrb        w12, [x9]
    sxtw        x12,w12
    add         x14, x14, x12               //src[2nt+1] + src[2nt-1]
    add         x14, x14, x11               //src[2nt+1] + src[2nt-1] + 2

    cmp         x4, #4
    beq         dc_4

    mov         x10, x4                     //nt

add_loop:
    ld1         {v0.8b},[x6],#8             //load from src[nt]
    mov         x5, #0                      //
    ld1         {v1.8b},[x8],#8             //load from src[2nt+1]

    uaddlp      v2.4h,  v0.8b

    mov         v6.s[0], w4
    mov         v6.s[1], w5                 //store nt to accumulate
    uaddlp      v3.4h,  v1.8b

    ld1         {v0.8b},[x6],#8             //load from src[nt] (extra load for 8)

    ld1         {v1.8b},[x8],#8             //load from src[2nt+1] (extra load for 8)
    add         v4.4h,  v2.4h ,  v3.4h


    uaddlp      v5.2s,  v4.4h


    uadalp      v6.1d,  v5.2s               //accumulate all inp into d6 (end for nt==8)

    subs        x10, x10,#8
    beq         epil_add_loop

core_loop_add:
    uaddlp      v2.4h,  v0.8b
    subs        x10, x10,#8
    uaddlp      v3.4h,  v1.8b


    add         v4.4h,  v2.4h ,  v3.4h
    ld1         {v0.8b},[x6],#8             //load from src[nt] (extra load for 16)

    uaddlp      v5.2s,  v4.4h
    ld1         {v1.8b},[x8],#8             //load from src[2nt+1] (extra load for 16)

    uadalp      v6.1d,  v5.2s               //accumulate all inp into d6
    bne         core_loop_add

epil_add_loop:

    sshl        d9, d6, d8                  //(dc_val) shr by log2nt+1
    cmp         x4, #32

    mov         v28.s[0], w14
    mov         v28.s[1], w5                //src[2nt+1]+2+src[2nt-1] moved to d28
    mov         x20,#128
    csel        x6, x20, x6,eq

    dup         v16.8b, v9.8b[0]            //dc_val
    shl         d13, d9,#1                  //2*dc

    beq         prologue_cpy_32

    add         d14,  d13 ,  d28            //src[2nt+1]+2+src[2nt-1]+2dc_val
    mov         x20,#0
    csel        x6, x20, x6,ne              //nt

    ushr        v15.4h, v14.4h,#2           //final dst[0]'s value in d15[0]
    csel        x10, x4, x10,ne

    add         d11,  d13 ,  d9             //3*dc
    sub         x12, x3, x3, lsl #3         //-7*strd

    add         d11,  d11 ,  d17            //3*dc + 2
    add         x12, x12, #8                //offset after one 8x8 block (-7*strd + 8)

    dup         v24.8h, v11.4h[0]           //3*dc + 2 (moved to all lanes)
    sub         x0, x3, x4                  //strd - nt

prologue_col:
    //0th column and 0-7 rows done here
    //x8 and x9 (2nt+1+col 2nt-1-row)

    mov         x8, x7                      //&src[2nt+1]

    add         x0, x0, #8                  //strd - nt + 8
    ld1         {v0.8b},[x8],#8             //col 1::7 load (prol)
    sub         x9, x9, #7                  //&src[2nt-1-row]

    ld1         {v1.8b},[x9]                //row 7::1 (0 also) load (prol)
    sub         x9, x9, #8

    uxtl        v20.8h, v0.8b

    ld1         {v6.8b},[x8]                //col 8::15 load (prol extra)
    add         v20.8h,  v20.8h ,  v24.8h   //col 1::7 add 3dc+2 (prol)

    uxtl        v22.8h, v1.8b
    sqshrun     v2.8b, v20.8h,#2            //columns shx2 movn (prol)

    uxtl        v26.8h, v6.8b
    add         v22.8h,  v22.8h ,  v24.8h   //row 1::7 add 3dc+2 (prol)

    movi        d19, #0x00000000000000ff    //
    sqshrun     v3.8b, v22.8h,#2            //rows shx2 movn (prol)

    bsl         v19.8b,  v15.8b ,  v2.8b    //first row with dst[0]
    add         v26.8h,  v26.8h ,  v24.8h   //col 8::15 add 3dc+2 (prol extra)

    rev64       v3.8b,  v3.8b

    st1         {v19.8b},[x2], x3           //store row 0 (prol)
    sshr        d3, d3,#8                   //row 0 shift (prol) (first value to be ignored)

    movi        d20, #0x00000000000000ff    //byte mask row 1 (prol)

loop_again_col_row:

    bsl         v20.8b,  v3.8b ,  v16.8b    //row 1    (prol)

    movi        d21, #0x00000000000000ff    //byte mask row 2 (prol)
    sshr        d3, d3,#8                   //row 1 shift (prol)

    st1         {v20.8b},[x2], x3           //store row 1 (prol)
    sqshrun     v4.8b, v26.8h,#2            //columns shx2 movn (prol extra)


    bsl         v21.8b,  v3.8b ,  v16.8b    //row 2 (prol)

    movi        d20, #0x00000000000000ff    //byte mask row 3 (prol)
    sshr        d3, d3,#8                   //row 2 shift (prol)

    st1         {v21.8b},[x2], x3           //store row 2 (prol)


    bsl         v20.8b,  v3.8b ,  v16.8b    //row 3    (prol)

    movi        d21, #0x00000000000000ff    //byte mask row 4 (prol)
    sshr        d3, d3,#8                   //row 3 shift (prol)

    st1         {v20.8b},[x2], x3           //store row 3 (prol)


    bsl         v21.8b,  v3.8b ,  v16.8b    //row 4 (prol)

    movi        d20, #0x00000000000000ff    //byte mask row 5 (prol)
    sshr        d3, d3,#8                   //row 4 shift (prol)

    st1         {v21.8b},[x2], x3           //store row 4 (prol)


    bsl         v20.8b,  v3.8b ,  v16.8b    //row 5 (prol)

    movi        d21, #0x00000000000000ff    //byte mask row 6 (prol)
    sshr        d3, d3,#8                   //row 5 shift (prol)

    st1         {v20.8b},[x2], x3           //store row 5 (prol)

    ld1         {v1.8b},[x9]                //row 8::15 load (prol extra)

    bsl         v21.8b,  v3.8b ,  v16.8b    //row 6 (prol)

    uxtl        v22.8h, v1.8b

    movi        d20, #0x00000000000000ff    //byte mask row 7 (prol)
    sshr        d3, d3,#8                   //row 6 shift (prol)

    st1         {v21.8b},[x2], x3           //store row 6 (prol)

    bsl         v20.8b,  v3.8b ,  v16.8b    //row 7 (prol)
    add         v22.8h,  v22.8h ,  v24.8h   //row 8::15 add 3dc+2 (prol extra)

    sshr        d3, d3,#8                   //row 7 shift (prol)
    st1         {v20.8b},[x2], x12          //store row 7 (prol)

    subs        x10, x10, #8                //counter for cols

    beq         end_func
    blt         copy_16


    movi        d20, #0x00000000000000ff    //byte mask row 9 (prol)
    sqshrun     v3.8b, v22.8h,#2            //rows shx2 movn (prol)

    rev64       v3.8b,  v3.8b

    st1         {v4.8b},[x2], x3            //store 2nd col (for 16x16)

    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x0           //go to next row for 16


    bsl         v20.8b,  v3.8b ,  v16.8b    //row 9    (prol)
    subs        x10, x10, #8

    st1         {v20.8b},[x2], x3           //store row 9 (prol)
    sshr        d3, d3,#8                   //row 9 shift (prol)

    movi        d20, #0x00000000000000ff    //byte mask row 9 (prol)

    b           loop_again_col_row


copy_16:
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2], x3
    st1         {v16.8b},[x2]

    b           end_func

prologue_cpy_32:
    mov         x9, #128
    //sub        x7, x3, #-24
    add         x5, x2, x3
    add         x8, x5, x3
    add         x10, x8, x3
    dup         v20.16b, v16.8b[0]
    lsl         x6, x3, #2
    add         x6, x6, #-16

    st1         {v20.16b}, [x2],#16
    st1         {v20.16b}, [x5],#16
    st1         {v20.16b}, [x8],#16
    st1         {v20.16b}, [x10],#16

    st1         {v20.16b}, [x2], x6
    st1         {v20.16b}, [x5], x6
    st1         {v20.16b}, [x8], x6
    st1         {v20.16b}, [x10], x6

    sub         x9, x9, #32                 //32x32 prol/epil counter dec

kernel_copy:
    st1         {v20.16b}, [x2],#16
    st1         {v20.16b}, [x5],#16
    st1         {v20.16b}, [x8],#16
    st1         {v20.16b}, [x10],#16

    st1         {v20.16b}, [x2], x6
    st1         {v20.16b}, [x5], x6
    st1         {v20.16b}, [x8], x6
    st1         {v20.16b}, [x10], x6

    subs        x9, x9, #32

    st1         {v20.16b}, [x2],#16
    st1         {v20.16b}, [x5],#16
    st1         {v20.16b}, [x8],#16
    st1         {v20.16b}, [x10],#16

    st1         {v20.16b}, [x2], x6
    st1         {v20.16b}, [x5], x6
    st1         {v20.16b}, [x8], x6
    st1         {v20.16b}, [x10], x6

    bne         kernel_copy

epilogue_copy:
    st1         {v20.16b}, [x2],#16
    st1         {v20.16b}, [x5],#16
    st1         {v20.16b}, [x8],#16
    st1         {v20.16b}, [x10],#16

    st1         {v20.16b}, [x2]
    st1         {v20.16b}, [x5]
    st1         {v20.16b}, [x8]
    st1         {v20.16b}, [x10]

    b           end_func


dc_4:
    ld1         {v0.8b},[x6],#8             //load from src[nt]
    ld1         {v1.8b},[x8],#8             //load from src[2nt+1]

    uaddlp      v2.4h,  v0.8b
    mov         x5, #0                      //
    mov         v6.s[0], w4
    mov         v6.s[1], w5                 //store nt to accumulate
    uaddlp      v3.4h,  v1.8b

    add         v4.4h,  v2.4h ,  v3.4h


    uaddlp      v5.2s,  v4.4h
    movi        d30, #0x00000000ffffffff

    and         v5.8b,  v5.8b ,  v30.8b

    mov         v28.s[0], w14
    mov         v28.s[1], w5                //src[2nt+1]+2+src[2nt-1] moved to d28
    add         d6,  d6 ,  d5               //accumulate all inp into d6 (end for nt==8)

    sshl        d9, d6, d8                  //(dc_val) shr by log2nt+1
    mov         x8, x7                      //&src[2nt+1]

    shl         d13, d9,#1                  //2*dc
    sub         x9, x9, #3                  //&src[2nt-1-row]

    dup         v16.8b, v9.8b[0]            //dc_val
    add         d14,  d13 ,  d28            //src[2nt+1]+2+src[2nt-1]+2dc_val

    ushr        v15.4h, v14.4h,#2           //final dst[0]'s value in d15[0]
    sub         x12, x3, x3, lsl #2         //-3*strd
    add         d11,  d13 ,  d9             //3*dc

    add         d11,  d11 ,  d17            //3*dc + 2
    add         x12, x12, #4                //offset after one 4x4 block (-3*strd + 4)

    dup         v24.8h, v11.4h[0]           //3*dc + 2 (moved to all lanes)
    sub         x0, x3, x4                  //strd - nt


    ld1         {v0.8b},[x8]                //col 1::3 load (prol)
    ld1         {v1.8b},[x9]                //row 3::1 (0 also) load (prol)

    uxtl        v20.8h, v0.8b

    uxtl        v22.8h, v1.8b
    add         v20.8h,  v20.8h ,  v24.8h   //col 1::7 add 3dc+2 (prol)

    add         v22.8h,  v22.8h ,  v24.8h   //row 1::7 add 3dc+2 (prol)

    movi        d19, #0x00000000000000ff    //
    sqshrun     v2.8b, v20.8h,#2            //columns shx2 movn (prol)

    movi        d20, #0x00000000000000ff    //byte mask row 1 (prol)
    sqshrun     v3.8b, v22.8h,#2            //rows shx2 movn (prol)


    bsl         v19.8b,  v15.8b ,  v2.8b    //first row with dst[0]

    rev64       v3.8b,  v3.8b

    st1         {v19.s}[0],[x2], x3         //store row 0 (prol)
    sshr        d3, d3,#40                  //row 0 shift (prol) (first value to be ignored)

    movi        d21, #0x00000000000000ff    //byte mask row 2 (prol)

    bsl         v20.8b,  v3.8b ,  v16.8b    //row 1    (prol)
    sshr        d3, d3,#8                   //row 1 shift (prol)

    st1         {v20.s}[0],[x2], x3         //store row 1 (prol)

    bsl         v21.8b,  v3.8b ,  v16.8b    //row 2 (prol)

    movi        d20, #0x00000000000000ff    //byte mask row 3 (prol)

    sshr        d3, d3,#8                   //row 2 shift (prol)
    st1         {v21.s}[0],[x2], x3         //store row 2 (prol)

    bsl         v20.8b,  v3.8b ,  v16.8b    //row 3    (prol)
    st1         {v20.s}[0],[x2]             //store row 3 (prol)

epilogue_end:
end_func:
    // ldmfd sp!,{x4-x12,x15}                  //reload the registers from sp
    ldp         x19, x20,[sp],#16
    pop_v_regs
    ret