awt/medialib/mlib_v_ImageConvMxN_8.c

0N/A/*
2362N/A * Copyright (c) 1998, 2003, Oracle and/or its affiliates. All rights reserved.
0N/A * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
0N/A *
0N/A * This code is free software; you can redistribute it and/or modify it
0N/A * under the terms of the GNU General Public License version 2 only, as
2362N/A * published by the Free Software Foundation.  Oracle designates this
0N/A * particular file as subject to the "Classpath" exception as provided
2362N/A * by Oracle in the LICENSE file that accompanied this code.
0N/A *
0N/A * This code is distributed in the hope that it will be useful, but WITHOUT
0N/A * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
0N/A * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
0N/A * version 2 for more details (a copy is included in the LICENSE file that
0N/A * accompanied this code).
0N/A *
0N/A * You should have received a copy of the GNU General Public License version
0N/A * 2 along with this work; if not, write to the Free Software Foundation,
0N/A * Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
0N/A *
2362N/A * Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
2362N/A * or visit www.oracle.com if you need additional information or have any
2362N/A * questions.
0N/A */
0N/A
0N/A
0N/A
0N/A/*
0N/A * FUNCTION
0N/A *      mlib_convMxN_8nw - convolve a 8-bit image, MxN kernel,
0N/A *                         edge = no write
0N/A *
0N/A * SYNOPSIS
0N/A *      mlib_status mlib_convMxNnw_u8(mlib_image       *dst,
0N/A *                                    const mlib_image *src,
0N/A *                                    mlib_s32         kwid,
0N/A *                                    mlib_s32         khgt,
0N/A *                                    mlib_s32         khw,
0N/A *                                    mlib_s32         khh,
0N/A *                                    const mlib_s32   *skernel,
0N/A *                                    mlib_s32         discardbits,
0N/A *                                    mlib_s32         cmask)
0N/A *
0N/A * ARGUMENT
0N/A *      src       Ptr to source image structure
0N/A *      dst       Ptr to destination image structure
0N/A *      khgt         Kernel height (# of rows)
0N/A *      kwid         Kernel width (# of cols)
0N/A *      skernel      Ptr to convolution kernel
0N/A *      discardbits  The number of LSBits of the 32-bit accumulator that
0N/A *                   are discarded when the 32-bit accumulator is converted
0N/A *                   to 16-bit output data; discardbits must be 1-15 (it
0N/A *                   cannot be zero). Same as exponent N for scalefac=2**N.
0N/A *      cmask        Channel mask to indicate the channels to be convolved.
0N/A *                   Each bit of which represents a channel in the image. The
0N/A *                   channels corresponded to 1 bits are those to be processed.
0N/A *
0N/A * DESCRIPTION
0N/A *      A 2-D convolution (MxN kernel) for 8-bit images.
0N/A *
0N/A */
0N/A
0N/A#include "vis_proto.h"
0N/A#include "mlib_image.h"
0N/A#include "mlib_ImageConv.h"
0N/A#include "mlib_c_ImageConv.h"
0N/A#include "mlib_v_ImageConv.h"
0N/A#include "mlib_v_ImageChannelExtract.h"
0N/A#include "mlib_v_ImageChannelInsert.h"
0N/A
0N/A/***************************************************************/
0N/Astatic mlib_status mlib_convMxN_8nw_mask(mlib_image       *dst,
0N/A                                         const mlib_image *src,
0N/A                                         mlib_s32         m,
0N/A                                         mlib_s32         n,
0N/A                                         mlib_s32         dm,
0N/A                                         mlib_s32         dn,
0N/A                                         const mlib_s32   *kern,
0N/A                                         mlib_s32         scale,
0N/A                                         mlib_s32         cmask);
0N/A
0N/A/***************************************************************/
0N/Astatic const mlib_s32 mlib_round_8[16] = {
0N/A  0x00400040, 0x00200020, 0x00100010, 0x00080008,
0N/A  0x00040004, 0x00020002, 0x00010001, 0x00000000,
0N/A  0x00000000, 0x00000000, 0x00000000, 0x00000000,
0N/A  0x00000000, 0x00000000, 0x00000000, 0x00000000
0N/A};
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_convMxNnw_u8(mlib_image       *dst,
0N/A                              const mlib_image *src,
0N/A                              const mlib_s32   *kernel,
0N/A                              mlib_s32         kwid,
0N/A                              mlib_s32         khgt,
0N/A                              mlib_s32         khw,
0N/A                              mlib_s32         khh,
0N/A                              mlib_s32         discardbits,
0N/A                              mlib_s32         cmask)
0N/A{
0N/A  mlib_s32 nchannel, amask;
0N/A
0N/A  if (mlib_ImageConvVersion(kwid, khgt, discardbits, MLIB_BYTE) == 0)
0N/A    return mlib_c_convMxNnw_u8(dst, src, kernel, kwid, khgt, khw, khh,
0N/A                               discardbits, cmask);
0N/A
0N/A  nchannel = mlib_ImageGetChannels(src);
0N/A
0N/A  if (nchannel == 1)
0N/A    cmask = 1;
0N/A  amask = (1 << nchannel) - 1;
0N/A
0N/A  if ((cmask & amask) == amask) {
0N/A    return mlib_convMxN_8nw_f(dst, src, kwid, khgt, khw, khh, kernel, discardbits);
0N/A  }
0N/A  else {
0N/A    return mlib_convMxN_8nw_mask(dst, src, kwid, khgt, khw, khh, kernel,
0N/A                                 discardbits, cmask);
0N/A  }
0N/A}
0N/A
0N/A#define MAX_N   11
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_convMxN_8nw_mask(mlib_image       *dst,
0N/A                                  const mlib_image *src,
0N/A                                  mlib_s32         m,
0N/A                                  mlib_s32         n,
0N/A                                  mlib_s32         dm,
0N/A                                  mlib_s32         dn,
0N/A                                  const mlib_s32   *kern,
0N/A                                  mlib_s32         scale,
0N/A                                  mlib_s32         cmask)
0N/A{
0N/A  mlib_d64 *buffs_local[3 * (MAX_N + 1)], **buffs = buffs_local, **buff;
0N/A  mlib_d64 *buff0, *buff1, *buff2, *buff3, *buffn, *buffd, *buffe;
0N/A  mlib_d64 s00, s01, s10, s11, s20, s21, s30, s31, s0, s1, s2, s3;
0N/A  mlib_d64 d00, d01, d10, d11, d20, d21, d30, d31;
0N/A  mlib_d64 dd, d0, d1;
0N/A  mlib_s32 ik, jk, ik_last, jk_size, coff, off, doff;
0N/A  mlib_u8 *sl, *sp, *dl;
0N/A  mlib_s32 hgt = mlib_ImageGetHeight(src);
0N/A  mlib_s32 wid = mlib_ImageGetWidth(src);
0N/A  mlib_s32 sll = mlib_ImageGetStride(src);
0N/A  mlib_s32 dll = mlib_ImageGetStride(dst);
0N/A  mlib_u8 *adr_src = (mlib_u8 *) mlib_ImageGetData(src);
0N/A  mlib_u8 *adr_dst = (mlib_u8 *) mlib_ImageGetData(dst);
0N/A  mlib_s32 ssize, xsize, dsize, esize, buff_ind;
0N/A  mlib_d64 *pbuff, *dp;
0N/A  mlib_f32 *karr = (mlib_f32 *) kern;
0N/A  mlib_s32 gsr_scale = (31 - scale) << 3;
0N/A  mlib_d64 drnd = vis_to_double_dup(mlib_round_8[31 - scale]);
0N/A  mlib_s32 i, j, l, chan, testchan;
0N/A  mlib_s32 nchan = mlib_ImageGetChannels(dst);
0N/A  void (*p_proc_load) (const mlib_u8 *, mlib_u8 *, mlib_s32, mlib_s32);
0N/A  void (*p_proc_store) (const mlib_u8 *, mlib_u8 *, mlib_s32, mlib_s32);
0N/A
0N/A  if (n > MAX_N) {
0N/A    buffs = mlib_malloc(3 * (n + 1) * sizeof(mlib_d64 *));
0N/A
0N/A    if (buffs == NULL)
0N/A      return MLIB_FAILURE;
0N/A  }
0N/A
0N/A  buff = buffs + 2 * (n + 1);
0N/A
0N/A  adr_dst += dn * dll + dm * nchan;
0N/A
0N/A  ssize = wid;
0N/A  dsize = (ssize + 7) / 8;
0N/A  esize = dsize + 4;
0N/A  pbuff = mlib_malloc((n + 4) * esize * sizeof(mlib_d64));
0N/A
0N/A  if (pbuff == NULL) {
0N/A    if (buffs != buffs_local)
0N/A      mlib_free(buffs);
0N/A    return MLIB_FAILURE;
0N/A  }
0N/A
0N/A  for (i = 0; i < (n + 1); i++)
0N/A    buffs[i] = pbuff + i * esize;
0N/A  for (i = 0; i < (n + 1); i++)
0N/A    buffs[(n + 1) + i] = buffs[i];
0N/A  buffd = buffs[n] + esize;
0N/A  buffe = buffd + 2 * esize;
0N/A
0N/A  hgt -= (n - 1);
0N/A  xsize = ssize - (m - 1);
0N/A
0N/A  vis_write_gsr(gsr_scale + 7);
0N/A
0N/A  if (nchan == 2) {
0N/A    p_proc_load = &mlib_v_ImageChannelExtract_U8_21_D1;
0N/A    p_proc_store = &mlib_v_ImageChannelInsert_U8_12_D1;
0N/A  }
0N/A  else if (nchan == 3) {
0N/A    p_proc_load = &mlib_v_ImageChannelExtract_U8_31_D1;
0N/A    p_proc_store = &mlib_v_ImageChannelInsert_U8_13_D1;
0N/A  }
0N/A  else {
0N/A    p_proc_load = &mlib_v_ImageChannelExtract_U8_41_D1;
0N/A    p_proc_store = &mlib_v_ImageChannelInsert_U8_14_D1;
0N/A  }
0N/A
0N/A  testchan = 1;
0N/A  for (chan = 0; chan < nchan; chan++) {
0N/A    buff_ind = 0;
0N/A    sl = adr_src;
0N/A    dl = adr_dst;
0N/A
0N/A    if ((cmask & testchan) == 0) {
0N/A      testchan <<= 1;
0N/A      continue;
0N/A    }
0N/A
0N/A    for (l = 0; l < n; l++) {
0N/A      mlib_d64 *buffn = buffs[l];
0N/A      sp = sl + l * sll;
0N/A
0N/A      (*p_proc_load) ((mlib_u8 *) sp, (mlib_u8 *) buffn, ssize, testchan);
0N/A    }
0N/A
0N/A    /* init buffer */
0N/A#pragma pipeloop(0)
0N/A    for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A      buffd[2 * i] = drnd;
0N/A      buffd[2 * i + 1] = drnd;
0N/A    }
0N/A
0N/A    for (j = 0; j < hgt; j++) {
0N/A      mlib_d64 **buffc = buffs + buff_ind;
0N/A      mlib_f32 *pk = karr, k0, k1, k2, k3;
0N/A      sp = sl + n * sll;
0N/A
0N/A      for (l = 0; l < n; l++) {
0N/A        buff[l] = buffc[l];
0N/A      }
0N/A
0N/A      buffn = buffc[n];
0N/A
0N/A      (*p_proc_load) ((mlib_u8 *) sp, (mlib_u8 *) buffn, ssize, testchan);
0N/A
0N/A      ik_last = (m - 1);
0N/A
0N/A      for (jk = 0; jk < n; jk += jk_size) {
0N/A        jk_size = n - jk;
0N/A
0N/A        if (jk_size >= 6)
0N/A          jk_size = 4;
0N/A
0N/A        if (jk_size == 5)
0N/A          jk_size = 3;
0N/A
0N/A        coff = 0;
0N/A
0N/A        if (jk_size == 1) {
0N/A
0N/A          for (ik = 0; ik < m; ik++, coff++) {
0N/A            if (!jk && ik == ik_last)
0N/A              continue;
0N/A
0N/A            k0 = pk[ik];
0N/A
0N/A            doff = coff / 8;
0N/A            buff0 = buff[jk] + doff;
0N/A
0N/A            off = coff & 7;
0N/A            vis_write_gsr(gsr_scale + off);
0N/A
0N/A            s01 = buff0[0];
0N/A#pragma pipeloop(0)
0N/A            for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A              s00 = s01;
0N/A              s01 = buff0[i + 1];
0N/A              s0 = vis_faligndata(s00, s01);
0N/A
0N/A              d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A              d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A
0N/A              d0 = buffd[2 * i];
0N/A              d1 = buffd[2 * i + 1];
0N/A              d0 = vis_fpadd16(d00, d0);
0N/A              d1 = vis_fpadd16(d01, d1);
0N/A              buffd[2 * i] = d0;
0N/A              buffd[2 * i + 1] = d1;
0N/A            }
0N/A          }
0N/A
0N/A          pk += m;
0N/A        }
0N/A        else if (jk_size == 2) {
0N/A
0N/A          for (ik = 0; ik < m; ik++, coff++) {
0N/A            if (!jk && ik == ik_last)
0N/A              continue;
0N/A
0N/A            k0 = pk[ik];
0N/A            k1 = pk[ik + m];
0N/A
0N/A            doff = coff / 8;
0N/A            buff0 = buff[jk] + doff;
0N/A            buff1 = buff[jk + 1] + doff;
0N/A
0N/A            off = coff & 7;
0N/A            vis_write_gsr(gsr_scale + off);
0N/A
0N/A            s01 = buff0[0];
0N/A            s11 = buff1[0];
0N/A#pragma pipeloop(0)
0N/A            for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A              s00 = s01;
0N/A              s10 = s11;
0N/A              s01 = buff0[i + 1];
0N/A              s11 = buff1[i + 1];
0N/A              s0 = vis_faligndata(s00, s01);
0N/A              s1 = vis_faligndata(s10, s11);
0N/A
0N/A              d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A              d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A              d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A              d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A
0N/A              d0 = buffd[2 * i];
0N/A              d1 = buffd[2 * i + 1];
0N/A              d0 = vis_fpadd16(d00, d0);
0N/A              d0 = vis_fpadd16(d10, d0);
0N/A              d1 = vis_fpadd16(d01, d1);
0N/A              d1 = vis_fpadd16(d11, d1);
0N/A              buffd[2 * i] = d0;
0N/A              buffd[2 * i + 1] = d1;
0N/A            }
0N/A          }
0N/A
0N/A          pk += 2 * m;
0N/A        }
0N/A        else if (jk_size == 3) {
0N/A
0N/A          for (ik = 0; ik < m; ik++, coff++) {
0N/A            if (!jk && ik == ik_last)
0N/A              continue;
0N/A
0N/A            k0 = pk[ik];
0N/A            k1 = pk[ik + m];
0N/A            k2 = pk[ik + 2 * m];
0N/A
0N/A            doff = coff / 8;
0N/A            buff0 = buff[jk] + doff;
0N/A            buff1 = buff[jk + 1] + doff;
0N/A            buff2 = buff[jk + 2] + doff;
0N/A
0N/A            off = coff & 7;
0N/A            vis_write_gsr(gsr_scale + off);
0N/A
0N/A            if (off == 0) {
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s0 = buff0[i];
0N/A                s1 = buff1[i];
0N/A                s2 = buff2[i];
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d0 = vis_fpadd16(d20, d0);
0N/A                d0 = vis_fpadd16(d00, d0);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d1 = vis_fpadd16(d21, d1);
0N/A                d1 = vis_fpadd16(d01, d1);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A            else if (off == 4) {
0N/A              s01 = buff0[0];
0N/A              s11 = buff1[0];
0N/A              s21 = buff2[0];
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s00 = s01;
0N/A                s10 = s11;
0N/A                s20 = s21;
0N/A                s01 = buff0[i + 1];
0N/A                s11 = buff1[i + 1];
0N/A                s21 = buff2[i + 1];
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_lo(s00), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_hi(s01), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_lo(s10), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_hi(s11), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_lo(s20), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_hi(s21), k2);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d0 = vis_fpadd16(d20, d0);
0N/A                d0 = vis_fpadd16(d00, d0);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d1 = vis_fpadd16(d21, d1);
0N/A                d1 = vis_fpadd16(d01, d1);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A            else {
0N/A              s01 = buff0[0];
0N/A              s11 = buff1[0];
0N/A              s21 = buff2[0];
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s00 = s01;
0N/A                s10 = s11;
0N/A                s20 = s21;
0N/A                s01 = buff0[i + 1];
0N/A                s11 = buff1[i + 1];
0N/A                s21 = buff2[i + 1];
0N/A                s0 = vis_faligndata(s00, s01);
0N/A                s1 = vis_faligndata(s10, s11);
0N/A                s2 = vis_faligndata(s20, s21);
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d0 = vis_fpadd16(d20, d0);
0N/A                d0 = vis_fpadd16(d00, d0);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d1 = vis_fpadd16(d21, d1);
0N/A                d1 = vis_fpadd16(d01, d1);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A          }
0N/A
0N/A          pk += 3 * m;
0N/A        }
0N/A        else {                              /* jk_size == 4 */
0N/A
0N/A          for (ik = 0; ik < m; ik++, coff++) {
0N/A            if (!jk && ik == ik_last)
0N/A              continue;
0N/A
0N/A            k0 = pk[ik];
0N/A            k1 = pk[ik + m];
0N/A            k2 = pk[ik + 2 * m];
0N/A            k3 = pk[ik + 3 * m];
0N/A
0N/A            doff = coff / 8;
0N/A            buff0 = buff[jk] + doff;
0N/A            buff1 = buff[jk + 1] + doff;
0N/A            buff2 = buff[jk + 2] + doff;
0N/A            buff3 = buff[jk + 3] + doff;
0N/A
0N/A            off = coff & 7;
0N/A            vis_write_gsr(gsr_scale + off);
0N/A
0N/A            if (off == 0) {
0N/A
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s0 = buff0[i];
0N/A                s1 = buff1[i];
0N/A                s2 = buff2[i];
0N/A                s3 = buff3[i];
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A                d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
0N/A                d31 = vis_fmul8x16au(vis_read_lo(s3), k3);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d20 = vis_fpadd16(d20, d30);
0N/A                d0 = vis_fpadd16(d0, d00);
0N/A                d0 = vis_fpadd16(d0, d20);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d21 = vis_fpadd16(d21, d31);
0N/A                d1 = vis_fpadd16(d1, d01);
0N/A                d1 = vis_fpadd16(d1, d21);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A            else if (off == 4) {
0N/A
0N/A              s01 = buff0[0];
0N/A              s11 = buff1[0];
0N/A              s21 = buff2[0];
0N/A              s31 = buff3[0];
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s00 = s01;
0N/A                s10 = s11;
0N/A                s20 = s21;
0N/A                s30 = s31;
0N/A                s01 = buff0[i + 1];
0N/A                s11 = buff1[i + 1];
0N/A                s21 = buff2[i + 1];
0N/A                s31 = buff3[i + 1];
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_lo(s00), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_hi(s01), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_lo(s10), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_hi(s11), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_lo(s20), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_hi(s21), k2);
0N/A                d30 = vis_fmul8x16au(vis_read_lo(s30), k3);
0N/A                d31 = vis_fmul8x16au(vis_read_hi(s31), k3);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d20 = vis_fpadd16(d20, d30);
0N/A                d0 = vis_fpadd16(d0, d00);
0N/A                d0 = vis_fpadd16(d0, d20);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d21 = vis_fpadd16(d21, d31);
0N/A                d1 = vis_fpadd16(d1, d01);
0N/A                d1 = vis_fpadd16(d1, d21);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A            else {
0N/A
0N/A              s01 = buff0[0];
0N/A              s11 = buff1[0];
0N/A              s21 = buff2[0];
0N/A              s31 = buff3[0];
0N/A#pragma pipeloop(0)
0N/A              for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A                d0 = buffd[2 * i];
0N/A                d1 = buffd[2 * i + 1];
0N/A
0N/A                s00 = s01;
0N/A                s10 = s11;
0N/A                s20 = s21;
0N/A                s30 = s31;
0N/A                s01 = buff0[i + 1];
0N/A                s11 = buff1[i + 1];
0N/A                s21 = buff2[i + 1];
0N/A                s31 = buff3[i + 1];
0N/A                s0 = vis_faligndata(s00, s01);
0N/A                s1 = vis_faligndata(s10, s11);
0N/A                s2 = vis_faligndata(s20, s21);
0N/A                s3 = vis_faligndata(s30, s31);
0N/A
0N/A                d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A                d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A                d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A                d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A                d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A                d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A                d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
0N/A                d31 = vis_fmul8x16au(vis_read_lo(s3), k3);
0N/A
0N/A                d00 = vis_fpadd16(d00, d10);
0N/A                d20 = vis_fpadd16(d20, d30);
0N/A                d0 = vis_fpadd16(d0, d00);
0N/A                d0 = vis_fpadd16(d0, d20);
0N/A                d01 = vis_fpadd16(d01, d11);
0N/A                d21 = vis_fpadd16(d21, d31);
0N/A                d1 = vis_fpadd16(d1, d01);
0N/A                d1 = vis_fpadd16(d1, d21);
0N/A                buffd[2 * i] = d0;
0N/A                buffd[2 * i + 1] = d1;
0N/A              }
0N/A            }
0N/A          }
0N/A
0N/A          pk += 4 * m;
0N/A        }
0N/A      }
0N/A
0N/A      /*****************************************
0N/A       *****************************************
0N/A       **          Final iteration            **
0N/A       *****************************************
0N/A       *****************************************/
0N/A
0N/A      jk_size = n;
0N/A
0N/A      if (jk_size >= 6)
0N/A        jk_size = 4;
0N/A
0N/A      if (jk_size == 5)
0N/A        jk_size = 3;
0N/A
0N/A      k0 = karr[ik_last];
0N/A      k1 = karr[ik_last + m];
0N/A      k2 = karr[ik_last + 2 * m];
0N/A      k3 = karr[ik_last + 3 * m];
0N/A
0N/A      off = ik_last;
0N/A      doff = off / 8;
0N/A      off &= 7;
0N/A      buff0 = buff[0] + doff;
0N/A      buff1 = buff[1] + doff;
0N/A      buff2 = buff[2] + doff;
0N/A      buff3 = buff[3] + doff;
0N/A      vis_write_gsr(gsr_scale + off);
0N/A
0N/A      if (jk_size == 1) {
0N/A        dp = buffe;
0N/A
0N/A        s01 = buff0[0];
0N/A#pragma pipeloop(0)
0N/A        for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A          s00 = s01;
0N/A          s01 = buff0[i + 1];
0N/A          s0 = vis_faligndata(s00, s01);
0N/A
0N/A          d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A          d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A
0N/A          d0 = buffd[2 * i];
0N/A          d1 = buffd[2 * i + 1];
0N/A          d0 = vis_fpadd16(d0, d00);
0N/A          d1 = vis_fpadd16(d1, d01);
0N/A
0N/A          dd = vis_fpack16_pair(d0, d1);
0N/A          dp[i] = dd;
0N/A
0N/A          buffd[2 * i] = drnd;
0N/A          buffd[2 * i + 1] = drnd;
0N/A        }
0N/A      }
0N/A      else if (jk_size == 2) {
0N/A        dp = buffe;
0N/A
0N/A        s01 = buff0[0];
0N/A        s11 = buff1[0];
0N/A#pragma pipeloop(0)
0N/A        for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A          s00 = s01;
0N/A          s10 = s11;
0N/A          s01 = buff0[i + 1];
0N/A          s11 = buff1[i + 1];
0N/A          s0 = vis_faligndata(s00, s01);
0N/A          s1 = vis_faligndata(s10, s11);
0N/A
0N/A          d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A          d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A          d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A          d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A
0N/A          d0 = buffd[2 * i];
0N/A          d1 = buffd[2 * i + 1];
0N/A          d0 = vis_fpadd16(d0, d00);
0N/A          d0 = vis_fpadd16(d0, d10);
0N/A          d1 = vis_fpadd16(d1, d01);
0N/A          d1 = vis_fpadd16(d1, d11);
0N/A
0N/A          dd = vis_fpack16_pair(d0, d1);
0N/A          dp[i] = dd;
0N/A
0N/A          buffd[2 * i] = drnd;
0N/A          buffd[2 * i + 1] = drnd;
0N/A        }
0N/A      }
0N/A      else if (jk_size == 3) {
0N/A
0N/A        dp = buffe;
0N/A
0N/A        s01 = buff0[0];
0N/A        s11 = buff1[0];
0N/A        s21 = buff2[0];
0N/A#pragma pipeloop(0)
0N/A        for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A          s00 = s01;
0N/A          s10 = s11;
0N/A          s20 = s21;
0N/A          s01 = buff0[i + 1];
0N/A          s11 = buff1[i + 1];
0N/A          s21 = buff2[i + 1];
0N/A          s0 = vis_faligndata(s00, s01);
0N/A          s1 = vis_faligndata(s10, s11);
0N/A          s2 = vis_faligndata(s20, s21);
0N/A
0N/A          d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A          d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A          d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A          d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A          d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A          d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A
0N/A          d0 = buffd[2 * i];
0N/A          d1 = buffd[2 * i + 1];
0N/A          d0 = vis_fpadd16(d0, d00);
0N/A          d0 = vis_fpadd16(d0, d10);
0N/A          d0 = vis_fpadd16(d0, d20);
0N/A          d1 = vis_fpadd16(d1, d01);
0N/A          d1 = vis_fpadd16(d1, d11);
0N/A          d1 = vis_fpadd16(d1, d21);
0N/A
0N/A          dd = vis_fpack16_pair(d0, d1);
0N/A          dp[i] = dd;
0N/A
0N/A          buffd[2 * i] = drnd;
0N/A          buffd[2 * i + 1] = drnd;
0N/A        }
0N/A      }
0N/A      else {                                /* if (jk_size == 4) */
0N/A
0N/A        dp = buffe;
0N/A
0N/A        s01 = buff0[0];
0N/A        s11 = buff1[0];
0N/A        s21 = buff2[0];
0N/A        s31 = buff3[0];
0N/A#pragma pipeloop(0)
0N/A        for (i = 0; i < (xsize + 7) / 8; i++) {
0N/A          s00 = s01;
0N/A          s10 = s11;
0N/A          s20 = s21;
0N/A          s30 = s31;
0N/A          s01 = buff0[i + 1];
0N/A          s11 = buff1[i + 1];
0N/A          s21 = buff2[i + 1];
0N/A          s31 = buff3[i + 1];
0N/A          s0 = vis_faligndata(s00, s01);
0N/A          s1 = vis_faligndata(s10, s11);
0N/A          s2 = vis_faligndata(s20, s21);
0N/A          s3 = vis_faligndata(s30, s31);
0N/A
0N/A          d00 = vis_fmul8x16au(vis_read_hi(s0), k0);
0N/A          d01 = vis_fmul8x16au(vis_read_lo(s0), k0);
0N/A          d10 = vis_fmul8x16au(vis_read_hi(s1), k1);
0N/A          d11 = vis_fmul8x16au(vis_read_lo(s1), k1);
0N/A          d20 = vis_fmul8x16au(vis_read_hi(s2), k2);
0N/A          d21 = vis_fmul8x16au(vis_read_lo(s2), k2);
0N/A          d30 = vis_fmul8x16au(vis_read_hi(s3), k3);
0N/A          d31 = vis_fmul8x16au(vis_read_lo(s3), k3);
0N/A
0N/A          d0 = buffd[2 * i];
0N/A          d1 = buffd[2 * i + 1];
0N/A          d0 = vis_fpadd16(d0, d00);
0N/A          d0 = vis_fpadd16(d0, d10);
0N/A          d0 = vis_fpadd16(d0, d20);
0N/A          d0 = vis_fpadd16(d0, d30);
0N/A          d1 = vis_fpadd16(d1, d01);
0N/A          d1 = vis_fpadd16(d1, d11);
0N/A          d1 = vis_fpadd16(d1, d21);
0N/A          d1 = vis_fpadd16(d1, d31);
0N/A
0N/A          dd = vis_fpack16_pair(d0, d1);
0N/A          dp[i] = dd;
0N/A
0N/A          buffd[2 * i] = drnd;
0N/A          buffd[2 * i + 1] = drnd;
0N/A        }
0N/A      }
0N/A
0N/A      (*p_proc_store) ((mlib_u8 *) buffe, (mlib_u8 *) dl, xsize, testchan);
0N/A
0N/A      sl += sll;
0N/A      dl += dll;
0N/A
0N/A      buff_ind++;
0N/A
0N/A      if (buff_ind >= (n + 1))
0N/A        buff_ind = 0;
0N/A    }
0N/A
0N/A    testchan <<= 1;
0N/A  }
0N/A
0N/A  mlib_free(pbuff);
0N/A
0N/A  if (buffs != buffs_local)
0N/A    mlib_free(buffs);
0N/A
0N/A  return MLIB_SUCCESS;
0N/A}
0N/A
0N/A/***************************************************************/