awt/medialib/mlib_v_ImageAffine_BC.c

0N/A/*
2362N/A * Copyright (c) 1998, 2003, Oracle and/or its affiliates. All rights reserved.
0N/A * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER.
0N/A *
0N/A * This code is free software; you can redistribute it and/or modify it
0N/A * under the terms of the GNU General Public License version 2 only, as
2362N/A * published by the Free Software Foundation.  Oracle designates this
0N/A * particular file as subject to the "Classpath" exception as provided
2362N/A * by Oracle in the LICENSE file that accompanied this code.
0N/A *
0N/A * This code is distributed in the hope that it will be useful, but WITHOUT
0N/A * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
0N/A * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
0N/A * version 2 for more details (a copy is included in the LICENSE file that
0N/A * accompanied this code).
0N/A *
0N/A * You should have received a copy of the GNU General Public License version
0N/A * 2 along with this work; if not, write to the Free Software Foundation,
0N/A * Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA.
0N/A *
2362N/A * Please contact Oracle, 500 Oracle Parkway, Redwood Shores, CA 94065 USA
2362N/A * or visit www.oracle.com if you need additional information or have any
2362N/A * questions.
0N/A */
0N/A
0N/A
0N/A
0N/A/*
0N/A *      The functions step along the lines from xLeft to xRight and apply
0N/A *      the bicubic filtering.
0N/A *
0N/A */
0N/A
0N/A#include "vis_proto.h"
0N/A#include "mlib_ImageAffine.h"
0N/A#include "mlib_v_ImageFilters.h"
0N/A
0N/A/*#define MLIB_VIS2*/
0N/A
0N/A/***************************************************************/
0N/A#define DTYPE  mlib_u8
0N/A
0N/A#define FILTER_BITS  8
0N/A
0N/A/***************************************************************/
0N/A#ifdef MLIB_VIS2
0N/A#define MLIB_WRITE_BMASK(bmask) vis_write_bmask(bmask, 0)
0N/A#else
0N/A#define MLIB_WRITE_BMASK(bmask)
0N/A#endif /* MLIB_VIS2 */
0N/A
0N/A/***************************************************************/
0N/A#define sPtr srcPixelPtr
0N/A
0N/A/***************************************************************/
0N/A#define NEXT_PIXEL_1BC_U8()                                     \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                     \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                     \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + xSrc
0N/A
0N/A/***************************************************************/
0N/A#ifndef MLIB_VIS2
0N/A
0N/A#define ALIGN_ADDR(da, dp)                                      \
0N/A  da = vis_alignaddr(dp, 0)
0N/A
0N/A#else
0N/A
0N/A#define ALIGN_ADDR(da, dp)                                      \
0N/A  vis_alignaddr(dp, 0);                                         \
0N/A  da = (mlib_d64*)(((mlib_addr)(dp)) &~ 7)
0N/A
0N/A#endif /* MLIB_VIS2 */
0N/A
0N/A/***************************************************************/
0N/A#define LOAD_BC_U8_1CH_1PIXEL(mlib_filters_u8)                         \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row00 = vis_faligndata(data0, data1);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row10 = vis_faligndata(data0, data1);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row20 = vis_faligndata(data0, data1);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row30 = vis_faligndata(data0, data1);                                \
0N/A  filterposy = (Y >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  filterposx = (X >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  xFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposx));  \
0N/A  X += dX;                                                             \
0N/A  Y += dY
0N/A
0N/A/***************************************************************/
0N/A#ifndef MLIB_VIS2
0N/A
0N/A#define SUM_4x16(v1, v3)                                        \
0N/A  vis_alignaddr((void*)2, 0);                                   \
0N/A  v0 = vis_faligndata(v3, v3);                                  \
0N/A  v2 = vis_fpadd16(v3, v0);                                     \
0N/A  v1 = vis_write_lo(v1, vis_fpadd16s(vis_read_hi(v2), vis_read_lo(v2)))
0N/A
0N/A#else
0N/A
0N/A#define SUM_4x16(v1, v3)                                              \
0N/A  v2 = vis_freg_pair(vis_fpadd16s(vis_read_hi(v3), vis_read_lo(v3)),  \
0N/A                     vis_fpadd16s(vis_read_hi(v3), vis_read_lo(v3))); \
0N/A  v3 = vis_bshuffle(v2, v2);                                          \
0N/A  v1 = vis_write_lo(v1, vis_fpadd16s(vis_read_hi(v3), vis_read_lo(v3)))
0N/A
0N/A#endif /* MLIB_VIS2 */
0N/A
0N/A/***************************************************************/
0N/A#define RESULT_1BC_U8_1PIXEL(ind)                                    \
0N/A  v0 = vis_fmul8x16au(vis_read_hi(row0##ind), vis_read_hi(yFilter)); \
0N/A  v1 = vis_fmul8x16al(vis_read_hi(row1##ind), vis_read_hi(yFilter)); \
0N/A  sum = vis_fpadd16(v0, v1);                                         \
0N/A  v2 = vis_fmul8x16au(vis_read_hi(row2##ind), vis_read_lo(yFilter)); \
0N/A  sum = vis_fpadd16(sum, v2);                                        \
0N/A  v3 = vis_fmul8x16al(vis_read_hi(row3##ind), vis_read_lo(yFilter)); \
0N/A  sum = vis_fpadd16(sum, v3);                                        \
0N/A  v0 = vis_fmul8sux16(sum, xFilter);                                 \
0N/A  v1 = vis_fmul8ulx16(sum, xFilter);                                 \
0N/A  v3 = vis_fpadd16(v1, v0);                                          \
0N/A  SUM_4x16(v1, v3);                                                  \
0N/A  res = vis_write_lo(res, vis_fpack16(v1))
0N/A
0N/A/***************************************************************/
0N/A#define BC_U8_1CH(index, ind1, ind2, mlib_filters_u8)                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  v0 = vis_fmul8x16au(vis_read_hi(row0##ind1), vis_read_hi(yFilter));  \
0N/A  filterposy = (Y >> FILTER_SHIFT);                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  v1 = vis_fmul8x16al(vis_read_hi(row1##ind1), vis_read_hi(yFilter));  \
0N/A  row0##ind2 = vis_faligndata(data0, data1);                           \
0N/A  filterposx = (X >> FILTER_SHIFT);                                    \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  sum = vis_fpadd16(v0, v1);                                           \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  v2 = vis_fmul8x16au(vis_read_hi(row2##ind1), vis_read_lo(yFilter));  \
0N/A  X += dX;                                                             \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row1##ind2 = vis_faligndata(data0, data1);                           \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  Y += dY;                                                             \
0N/A  sum = vis_fpadd16(sum, v2);                                          \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                            \
0N/A  v3 = vis_fmul8x16al(vis_read_hi(row3##ind1), vis_read_lo(yFilter));  \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                            \
0N/A  sum = vis_fpadd16(sum, v3);                                          \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  filterposy &= FILTER_MASK;                                           \
0N/A  v0 = vis_fmul8sux16(sum, xFilter);                                   \
0N/A  row2##ind2 = vis_faligndata(data0, data1);                           \
0N/A  sPtr += srcYStride;                                                  \
0N/A  v1 = vis_fmul8ulx16(sum, xFilter);                                   \
0N/A  filterposx &= FILTER_MASK;                                           \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  d##index = vis_fpadd16(v0, v1);                                      \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row3##ind2 = vis_faligndata(data0, data1);                           \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  xFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposx));  \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + xSrc
0N/A
0N/A/***************************************************************/
0N/A#ifndef MLIB_VIS2
0N/A
0N/A#define FADD_1BC_U8()                                           \
0N/A  p0 = vis_fpadd16s(vis_read_hi(d0), vis_read_lo(d0));          \
0N/A  p1 = vis_fpadd16s(vis_read_hi(d1), vis_read_lo(d1));          \
0N/A  p2 = vis_fpadd16s(vis_read_hi(d2), vis_read_lo(d2));          \
0N/A  p3 = vis_fpadd16s(vis_read_hi(d3), vis_read_lo(d3));          \
0N/A  m02 = vis_fpmerge(p0, p2);                                    \
0N/A  m13 = vis_fpmerge(p1, p3);                                    \
0N/A  m0213 = vis_fpmerge(vis_read_hi(m02), vis_read_hi(m13));      \
0N/A  e0 = vis_fpmerge(vis_read_hi(m0213), vis_read_lo(m0213));     \
0N/A  m0213 = vis_fpmerge(vis_read_lo(m02), vis_read_lo(m13));      \
0N/A  e1 = vis_fpmerge(vis_read_hi(m0213), vis_read_lo(m0213));     \
0N/A  res = vis_fpadd16(e0, e1)
0N/A
0N/A#else
0N/A
0N/A#define FADD_1BC_U8()                                                 \
0N/A  v0 = vis_freg_pair(vis_fpadd16s(vis_read_hi(d0), vis_read_lo(d0)),  \
0N/A                     vis_fpadd16s(vis_read_hi(d1), vis_read_lo(d1))); \
0N/A  v1 = vis_freg_pair(vis_fpadd16s(vis_read_hi(d2), vis_read_lo(d2)),  \
0N/A                     vis_fpadd16s(vis_read_hi(d3), vis_read_lo(d3))); \
0N/A  v2 = vis_bshuffle(v0, v0);                                          \
0N/A  v3 = vis_bshuffle(v1, v1);                                          \
0N/A  res = vis_freg_pair(vis_fpadd16s(vis_read_hi(v2), vis_read_lo(v2)), \
0N/A                      vis_fpadd16s(vis_read_hi(v3), vis_read_lo(v3)))
0N/A
0N/A#endif /* MLIB_VIS2 */
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_ImageAffine_u8_1ch_bc (mlib_affine_param *param)
0N/A{
0N/A  DECLAREVAR_BC();
0N/A  mlib_s32  filterposx, filterposy;
0N/A  mlib_d64  data0, data1;
0N/A  mlib_d64  sum;
0N/A  mlib_d64  row00, row10, row20, row30;
0N/A  mlib_d64  row01, row11, row21, row31;
0N/A  mlib_d64  xFilter, yFilter;
0N/A  mlib_d64  v0, v1, v2, v3;
0N/A  mlib_d64  d0, d1, d2, d3;
0N/A#ifndef MLIB_VIS2
0N/A  mlib_f32  p0, p1, p2, p3;
0N/A  mlib_d64  e0, e1;
0N/A  mlib_d64  m02, m13, m0213;
0N/A#endif /* MLIB_VIS2 */
0N/A  mlib_d64  *dpSrc;
0N/A  mlib_s32  align, cols, i;
0N/A  mlib_d64  res;
0N/A  const mlib_s16 *mlib_filters_table;
0N/A
0N/A  if (filter == MLIB_BICUBIC) {
0N/A    mlib_filters_table = mlib_filters_u8_bc;
0N/A  } else {
0N/A    mlib_filters_table = mlib_filters_u8_bc2;
0N/A  }
0N/A
0N/A  for (j = yStart; j <= yFinish; j++) {
0N/A
0N/A    vis_write_gsr(3 << 3);
0N/A    MLIB_WRITE_BMASK(0x0145ABEF);
0N/A
0N/A    CLIP(1);
0N/A
0N/A    cols = xRight - xLeft + 1;
0N/A    align = (4 - ((mlib_addr)dstPixelPtr) & 3) & 3;
0N/A    align = (cols < align)? cols : align;
0N/A
0N/A    for (i = 0; i < align; i++) {
0N/A      NEXT_PIXEL_1BC_U8();
0N/A      LOAD_BC_U8_1CH_1PIXEL(mlib_filters_table);
0N/A      RESULT_1BC_U8_1PIXEL(0);
0N/A      vis_st_u8(res, dstPixelPtr++);
0N/A    }
0N/A
0N/A    if (i <= cols - 10) {
0N/A
0N/A      NEXT_PIXEL_1BC_U8();
0N/A      LOAD_BC_U8_1CH_1PIXEL(mlib_filters_table);
0N/A
0N/A      NEXT_PIXEL_1BC_U8();
0N/A
0N/A      BC_U8_1CH(0, 0, 1, mlib_filters_table);
0N/A      BC_U8_1CH(1, 1, 0, mlib_filters_table);
0N/A      BC_U8_1CH(2, 0, 1, mlib_filters_table);
0N/A      BC_U8_1CH(3, 1, 0, mlib_filters_table);
0N/A
0N/A      FADD_1BC_U8();
0N/A
0N/A      BC_U8_1CH(0, 0, 1, mlib_filters_table);
0N/A      BC_U8_1CH(1, 1, 0, mlib_filters_table);
0N/A      BC_U8_1CH(2, 0, 1, mlib_filters_table);
0N/A      BC_U8_1CH(3, 1, 0, mlib_filters_table);
0N/A
0N/A#pragma pipeloop(0)
0N/A      for (; i <= cols - 14; i+=4) {
0N/A        *(mlib_f32*)dstPixelPtr = vis_fpack16(res);
0N/A        FADD_1BC_U8();
0N/A        BC_U8_1CH(0, 0, 1, mlib_filters_table);
0N/A        BC_U8_1CH(1, 1, 0, mlib_filters_table);
0N/A        BC_U8_1CH(2, 0, 1, mlib_filters_table);
0N/A        BC_U8_1CH(3, 1, 0, mlib_filters_table);
0N/A        dstPixelPtr += 4;
0N/A      }
0N/A
0N/A      *(mlib_f32*)dstPixelPtr = vis_fpack16(res);
0N/A      dstPixelPtr += 4;
0N/A      FADD_1BC_U8();
0N/A      *(mlib_f32*)dstPixelPtr = vis_fpack16(res);
0N/A      dstPixelPtr += 4;
0N/A
0N/A      RESULT_1BC_U8_1PIXEL(0);
0N/A      vis_st_u8(res, dstPixelPtr++);
0N/A
0N/A      LOAD_BC_U8_1CH_1PIXEL(mlib_filters_table);
0N/A      RESULT_1BC_U8_1PIXEL(0);
0N/A      vis_st_u8(res, dstPixelPtr++);
0N/A      i += 10;
0N/A    }
0N/A
0N/A    for (; i < cols; i++) {
0N/A      NEXT_PIXEL_1BC_U8();
0N/A      LOAD_BC_U8_1CH_1PIXEL(mlib_filters_table);
0N/A      RESULT_1BC_U8_1PIXEL(0);
0N/A      vis_st_u8(res, dstPixelPtr++);
0N/A    }
0N/A  }
0N/A
0N/A  return MLIB_SUCCESS;
0N/A}
0N/A
0N/A/***************************************************************/
0N/A#define FADD_2BC_U8()                                           \
0N/A  d0 = vis_fpadd16(d00, d10);                                   \
0N/A  d1 = vis_fpadd16(d01, d11);                                   \
0N/A  d2 = vis_fpadd16(d02, d12);                                   \
0N/A  d3 = vis_fpadd16(d03, d13);                                   \
0N/A  p0 = vis_fpadd16s(vis_read_hi(d0), vis_read_lo(d0));          \
0N/A  p1 = vis_fpadd16s(vis_read_hi(d1), vis_read_lo(d1));          \
0N/A  p2 = vis_fpadd16s(vis_read_hi(d2), vis_read_lo(d2));          \
0N/A  p3 = vis_fpadd16s(vis_read_hi(d3), vis_read_lo(d3));          \
0N/A  e0 = vis_freg_pair(p0, p1);                                   \
0N/A  e1 = vis_freg_pair(p2, p3);                                   \
0N/A  res = vis_fpack16_pair(e0, e1)
0N/A
0N/A/***************************************************************/
0N/A#define LOAD_BC_U8_2CH_1PIXEL(mlib_filters_u8)                         \
0N/A  filterposy = (Y >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  filterposx = (X >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  xFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposx));  \
0N/A  X += dX;                                                             \
0N/A  Y += dY;                                                             \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row0 = vis_faligndata(data0, data1);                                 \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row1 = vis_faligndata(data0, data1);                                 \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row2 = vis_faligndata(data0, data1);                                 \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row3 = vis_faligndata(data0, data1)
0N/A
0N/A/***************************************************************/
0N/A#define NEXT_PIXEL_2BC_U8()                                     \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                     \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                     \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (xSrc<<1)
0N/A
0N/A/***************************************************************/
0N/A#define RESULT_2BC_U8_1PIXEL()                                   \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row0), vis_read_hi(yFilter)); \
0N/A  dr = vis_fpmerge(vis_read_hi(xFilter), vis_read_lo(xFilter));  \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row0), vis_read_hi(yFilter)); \
0N/A  dr = vis_fpmerge(vis_read_hi(dr), vis_read_lo(dr));            \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row1), vis_read_hi(yFilter)); \
0N/A  dr1 = vis_fpmerge(vis_read_lo(dr), vis_read_lo(dr));           \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row1), vis_read_hi(yFilter)); \
0N/A  dr = vis_fpmerge(vis_read_hi(dr), vis_read_hi(dr));            \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row2), vis_read_lo(yFilter)); \
0N/A  xFilter0 = vis_fpmerge(vis_read_hi(dr), vis_read_hi(dr1));     \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row2), vis_read_lo(yFilter)); \
0N/A  xFilter1 = vis_fpmerge(vis_read_lo(dr), vis_read_lo(dr1));     \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row3), vis_read_lo(yFilter)); \
0N/A  sum0 = vis_fpadd16(v00, v10);                                  \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row3), vis_read_lo(yFilter)); \
0N/A  sum1 = vis_fpadd16(v01, v11);                                  \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                 \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                 \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                 \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                 \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                          \
0N/A  v01 = vis_fmul8sux16(sum1, xFilter1);                          \
0N/A  v10 = vis_fmul8ulx16(sum0, xFilter0);                          \
0N/A  sum0 = vis_fpadd16(v00, v10);                                  \
0N/A  v11 = vis_fmul8ulx16(sum1, xFilter1);                          \
0N/A  sum1 = vis_fpadd16(v01, v11);                                  \
0N/A  d0 = vis_fpadd16(sum0, sum1);                                  \
0N/A  v00 = vis_write_lo(v00, vis_fpadd16s(vis_read_hi(d0),          \
0N/A                                       vis_read_lo(d0)));        \
0N/A  res = vis_write_lo(res, vis_fpack16(v00))
0N/A
0N/A/***************************************************************/
0N/A#define BC_U8_2CH(index, mlib_filters_u8)                              \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row0), vis_read_hi(yFilter));       \
0N/A  dr = vis_fpmerge(vis_read_hi(xFilter), vis_read_lo(xFilter));        \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row0), vis_read_hi(yFilter));       \
0N/A  dr = vis_fpmerge(vis_read_hi(dr), vis_read_lo(dr));                  \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row1), vis_read_hi(yFilter));       \
0N/A  dr1 = vis_fpmerge(vis_read_lo(dr), vis_read_lo(dr));                 \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row1), vis_read_hi(yFilter));       \
0N/A  dr = vis_fpmerge(vis_read_hi(dr), vis_read_hi(dr));                  \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row2), vis_read_lo(yFilter));       \
0N/A  xFilter0 = vis_fpmerge(vis_read_hi(dr), vis_read_hi(dr1));           \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row2), vis_read_lo(yFilter));       \
0N/A  xFilter1 = vis_fpmerge(vis_read_lo(dr), vis_read_lo(dr1));           \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row3), vis_read_lo(yFilter));       \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row3), vis_read_lo(yFilter));       \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  sum0 = vis_fpadd16(v00, v10);                                        \
0N/A  filterposy = (Y >> FILTER_SHIFT);                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row0 = vis_faligndata(data0, data1);                                 \
0N/A  filterposx = (X >> FILTER_SHIFT);                                    \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  sum1 = vis_fpadd16(v01, v11);                                        \
0N/A  X += dX;                                                             \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                       \
0N/A  row1 = vis_faligndata(data0, data1);                                 \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  Y += dY;                                                             \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                       \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                            \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                            \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                       \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  filterposy &= FILTER_MASK;                                           \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                       \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                                \
0N/A  row2 = vis_faligndata(data0, data1);                                 \
0N/A  v01 = vis_fmul8sux16(sum1, xFilter1);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  v10 = vis_fmul8ulx16(sum0, xFilter0);                                \
0N/A  filterposx &= FILTER_MASK;                                           \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  v11= vis_fmul8ulx16(sum1, xFilter1);                                 \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  d0##index = vis_fpadd16(v00, v10);                                   \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  row3 = vis_faligndata(data0, data1);                                 \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  d1##index = vis_fpadd16(v01, v11);                                   \
0N/A  xFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposx));  \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (xSrc<<1)
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_ImageAffine_u8_2ch_bc (mlib_affine_param *param)
0N/A{
0N/A  DECLAREVAR_BC();
0N/A  DTYPE  *dstLineEnd;
0N/A  mlib_s32  filterposx, filterposy;
0N/A  mlib_d64  data0, data1;
0N/A  mlib_d64  sum0, sum1;
0N/A  mlib_d64  row0, row1, row2, row3;
0N/A  mlib_f32  p0, p1, p2, p3;
0N/A  mlib_d64  xFilter;
0N/A  mlib_d64  xFilter0, xFilter1, yFilter;
0N/A  mlib_d64  v00, v10, v20, v30;
0N/A  mlib_d64  v01, v11, v21, v31;
0N/A  mlib_d64  d0, d1, d2, d3;
0N/A  mlib_d64  d00, d01, d02, d03;
0N/A  mlib_d64  d10, d11, d12, d13;
0N/A  mlib_d64  e0, e1;
0N/A  mlib_d64  *dpSrc;
0N/A  mlib_s32  cols, i, mask, off;
0N/A  mlib_d64  dr, dr1;
0N/A  mlib_d64  res, *dp;
0N/A  const mlib_s16 *mlib_filters_table;
0N/A
0N/A  if (filter == MLIB_BICUBIC) {
0N/A    mlib_filters_table = mlib_filters_u8_bc;
0N/A  } else {
0N/A    mlib_filters_table = mlib_filters_u8_bc2;
0N/A  }
0N/A
0N/A  for (j = yStart; j <= yFinish; j++) {
0N/A
0N/A    vis_write_gsr(3 << 3);
0N/A
0N/A    CLIP(2);
0N/A    dstLineEnd  = (DTYPE*)dstData + 2 * xRight;
0N/A
0N/A    cols = xRight - xLeft + 1;
0N/A    dp = vis_alignaddr(dstPixelPtr, 0);
0N/A    off = dstPixelPtr - (mlib_u8*)dp;
0N/A    dstLineEnd += 1;
0N/A    mask = vis_edge8(dstPixelPtr, dstLineEnd);
0N/A    i = 0;
0N/A
0N/A    if (i <= cols - 10) {
0N/A
0N/A      NEXT_PIXEL_2BC_U8();
0N/A      LOAD_BC_U8_2CH_1PIXEL(mlib_filters_table);
0N/A
0N/A      NEXT_PIXEL_2BC_U8();
0N/A
0N/A      BC_U8_2CH(0, mlib_filters_table);
0N/A      BC_U8_2CH(1, mlib_filters_table);
0N/A      BC_U8_2CH(2, mlib_filters_table);
0N/A      BC_U8_2CH(3, mlib_filters_table);
0N/A
0N/A      FADD_2BC_U8();
0N/A
0N/A      BC_U8_2CH(0, mlib_filters_table);
0N/A      BC_U8_2CH(1, mlib_filters_table);
0N/A      BC_U8_2CH(2, mlib_filters_table);
0N/A      BC_U8_2CH(3, mlib_filters_table);
0N/A
0N/A#pragma pipeloop(0)
0N/A      for (; i <= cols-14; i+=4) {
0N/A        vis_alignaddr((void *)(8 - (mlib_addr)dstPixelPtr), 0);
0N/A        res = vis_faligndata(res, res);
0N/A        vis_pst_8(res, dp++, mask);
0N/A        vis_pst_8(res, dp, ~mask);
0N/A        FADD_2BC_U8();
0N/A        BC_U8_2CH(0, mlib_filters_table);
0N/A        BC_U8_2CH(1, mlib_filters_table);
0N/A        BC_U8_2CH(2, mlib_filters_table);
0N/A        BC_U8_2CH(3, mlib_filters_table);
0N/A      }
0N/A
0N/A      vis_alignaddr((void *)(8 - (mlib_addr)dstPixelPtr), 0);
0N/A      res = vis_faligndata(res, res);
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A
0N/A      FADD_2BC_U8();
0N/A      vis_alignaddr((void *)(8 - (mlib_addr)dstPixelPtr), 0);
0N/A      res = vis_faligndata(res, res);
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A
0N/A      dstPixelPtr = (mlib_u8*)dp + off;
0N/A
0N/A      RESULT_2BC_U8_1PIXEL();
0N/A      vis_alignaddr((void *)7, 0);
0N/A      vis_st_u8(res, dstPixelPtr+1);
0N/A      res = vis_faligndata(res, res);
0N/A      vis_st_u8(res, dstPixelPtr);
0N/A      dstPixelPtr += 2;
0N/A
0N/A      LOAD_BC_U8_2CH_1PIXEL(mlib_filters_table);
0N/A      RESULT_2BC_U8_1PIXEL();
0N/A      vis_alignaddr((void *)7, 0);
0N/A      vis_st_u8(res, dstPixelPtr+1);
0N/A      res = vis_faligndata(res, res);
0N/A      vis_st_u8(res, dstPixelPtr);
0N/A      dstPixelPtr += 2;
0N/A      i += 10;
0N/A    }
0N/A
0N/A    for (; i < cols; i++) {
0N/A      NEXT_PIXEL_2BC_U8();
0N/A      LOAD_BC_U8_2CH_1PIXEL(mlib_filters_table);
0N/A      RESULT_2BC_U8_1PIXEL();
0N/A      vis_alignaddr((void *)7, 0);
0N/A      vis_st_u8(res, dstPixelPtr+1);
0N/A      res = vis_faligndata(res, res);
0N/A      vis_st_u8(res, dstPixelPtr);
0N/A      dstPixelPtr += 2;
0N/A    }
0N/A  }
0N/A
0N/A  return MLIB_SUCCESS;
0N/A}
0N/A
0N/A/***************************************************************/
0N/A#ifndef MLIB_VIS2
0N/A
0N/A#define FADD_3BC_U8()                                           \
0N/A  vis_alignaddr((void*)6, 0);                                   \
0N/A  d3 = vis_faligndata(d0, d1);                                  \
0N/A  vis_alignaddr((void*)2, 0);                                   \
0N/A  d4 = vis_faligndata(d1, d2);                                  \
0N/A  d0 = vis_fpadd16(d0, d3);                                     \
0N/A  d2 = vis_fpadd16(d2, d4);                                     \
0N/A  d1 = vis_faligndata(d2, d2);                                  \
0N/A  d0 = vis_fpadd16(d0, d1);                                     \
0N/A  f0.f = vis_fpack16(d0)
0N/A
0N/A#else
0N/A
0N/A#define FADD_3BC_U8()                                           \
0N/A  vis_alignaddr((void*)4, 0);                                   \
0N/A  d3 = vis_bshuffle(d0, d1);                                    \
0N/A  d1 = vis_faligndata(d1, d2);                                  \
0N/A  d2 = vis_faligndata(d2, d2);                                  \
0N/A  d4 = vis_bshuffle(d1, d2);                                    \
0N/A  d0 = vis_fpadd16(d0, d3);                                     \
0N/A  d1 = vis_fpadd16(d1, d4);                                     \
0N/A  d0 = vis_fpadd16(d0, d1);                                     \
0N/A  f0.f = vis_fpack16(d0)
0N/A
0N/A#endif /* MLIB_VIS2 */
0N/A
0N/A/***************************************************************/
0N/A#define LOAD_BC_U8_3CH_1PIXEL(mlib_filters_u8, mlib_filters_u8_3)      \
0N/A  filterposy = (Y >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  filterposx = (X >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  xPtr=((mlib_d64 *)((mlib_u8 *)mlib_filters_u8_3+3*filterposx));      \
0N/A  xFilter0 = xPtr[0];                                                  \
0N/A  xFilter1 = xPtr[1];                                                  \
0N/A  xFilter2 = xPtr[2];                                                  \
0N/A  X += dX;                                                             \
0N/A  Y += dY;                                                             \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row00 = vis_faligndata(data0, data1);                                \
0N/A  row01 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row10 = vis_faligndata(data0, data1);                                \
0N/A  row11 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row20 = vis_faligndata(data0, data1);                                \
0N/A  row21 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row30 = vis_faligndata(data0, data1);                                \
0N/A  row31 = vis_faligndata(data1, data2)
0N/A
0N/A/***************************************************************/
0N/A#define STORE_BC_U8_3CH_1PIXEL()                                \
0N/A dstPixelPtr[0] = f0.t[0];                                      \
0N/A dstPixelPtr[1] = f0.t[1];                                      \
0N/A dstPixelPtr[2] = f0.t[2];                                      \
0N/A dstPixelPtr += 3
0N/A
0N/A/***************************************************************/
0N/A#define NEXT_PIXEL_3BC_U8()                                     \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                     \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                     \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (3*xSrc)
0N/A
0N/A/***************************************************************/
0N/A#define RESULT_3BC_U8_1PIXEL()                                    \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row00), vis_read_hi(yFilter)); \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row00), vis_read_hi(yFilter)); \
0N/A  v02 = vis_fmul8x16au(vis_read_hi(row01), vis_read_hi(yFilter)); \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row10), vis_read_hi(yFilter)); \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row10), vis_read_hi(yFilter)); \
0N/A  v12 = vis_fmul8x16al(vis_read_hi(row11), vis_read_hi(yFilter)); \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row20), vis_read_lo(yFilter)); \
0N/A  sum0 = vis_fpadd16(v00, v10);                                   \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row20), vis_read_lo(yFilter)); \
0N/A  sum1 = vis_fpadd16(v01, v11);                                   \
0N/A  v22 = vis_fmul8x16au(vis_read_hi(row21), vis_read_lo(yFilter)); \
0N/A  sum2 = vis_fpadd16(v02, v12);                                   \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row30), vis_read_lo(yFilter)); \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                  \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row30), vis_read_lo(yFilter)); \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                  \
0N/A  v32 = vis_fmul8x16al(vis_read_hi(row31), vis_read_lo(yFilter)); \
0N/A  sum2 = vis_fpadd16(sum2, v22);                                  \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                  \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                  \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                           \
0N/A  sum2 = vis_fpadd16(sum2, v32);                                  \
0N/A  v01 = vis_fmul8ulx16(sum0, xFilter0);                           \
0N/A  v10 = vis_fmul8sux16(sum1, xFilter1);                           \
0N/A  d0 = vis_fpadd16(v00, v01);                                     \
0N/A  v11 = vis_fmul8ulx16(sum1, xFilter1);                           \
0N/A  v20 = vis_fmul8sux16(sum2, xFilter2);                           \
0N/A  d1 = vis_fpadd16(v10, v11);                                     \
0N/A  v21 = vis_fmul8ulx16(sum2, xFilter2);                           \
0N/A  d2 = vis_fpadd16(v20, v21);                                     \
0N/A  FADD_3BC_U8();
0N/A
0N/A/***************************************************************/
0N/A#define BC_U8_3CH(mlib_filters_u8, mlib_filters_u8_3)                 \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row00), vis_read_hi(yFilter));     \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row00), vis_read_hi(yFilter));     \
0N/A  v02 = vis_fmul8x16au(vis_read_hi(row01), vis_read_hi(yFilter));     \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  filterposy = (Y >> FILTER_SHIFT);                                   \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row10), vis_read_hi(yFilter));     \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row10), vis_read_hi(yFilter));     \
0N/A  sum0 = vis_fpadd16(v00, v10);                                       \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row00 = vis_faligndata(data0, data1);                               \
0N/A  v12 = vis_fmul8x16al(vis_read_hi(row11), vis_read_hi(yFilter));     \
0N/A  row01 = vis_faligndata(data1, data2);                               \
0N/A  filterposx = (X >> FILTER_SHIFT);                                   \
0N/A  sPtr += srcYStride;                                                 \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row20), vis_read_lo(yFilter));     \
0N/A  sum1 = vis_fpadd16(v01, v11);                                       \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  X += dX;                                                            \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row20), vis_read_lo(yFilter));     \
0N/A  sum2 = vis_fpadd16(v02, v12);                                       \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row10 = vis_faligndata(data0, data1);                               \
0N/A  v22 = vis_fmul8x16au(vis_read_hi(row21), vis_read_lo(yFilter));     \
0N/A  row11 = vis_faligndata(data1, data2);                               \
0N/A  sPtr += srcYStride;                                                 \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  Y += dY;                                                            \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                           \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row30), vis_read_lo(yFilter));     \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                      \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                           \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row30), vis_read_lo(yFilter));     \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                      \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  filterposy &= FILTER_MASK;                                          \
0N/A  row20 = vis_faligndata(data0, data1);                               \
0N/A  v32 = vis_fmul8x16al(vis_read_hi(row31), vis_read_lo(yFilter));     \
0N/A  row21 = vis_faligndata(data1, data2);                               \
0N/A  sPtr += srcYStride;                                                 \
0N/A  filterposx &= FILTER_MASK;                                          \
0N/A  sum2 = vis_fpadd16(sum2, v22);                                      \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                      \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                      \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                               \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  sum2 = vis_fpadd16(sum2, v32);                                      \
0N/A  v01 = vis_fmul8ulx16(sum0, xFilter0);                               \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row30 = vis_faligndata(data0, data1);                               \
0N/A  v10 = vis_fmul8sux16(sum1, xFilter1);                               \
0N/A  d0 = vis_fpadd16(v00, v01);                                         \
0N/A  row31 = vis_faligndata(data1, data2);                               \
0N/A  yFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  v11 = vis_fmul8ulx16(sum1, xFilter1);                               \
0N/A  xPtr=((mlib_d64 *)((mlib_u8 *)mlib_filters_u8_3+3*filterposx));     \
0N/A  xFilter0 = xPtr[0];                                                 \
0N/A  v20 = vis_fmul8sux16(sum2, xFilter2);                               \
0N/A  d1 = vis_fpadd16(v10, v11);                                         \
0N/A  xFilter1 = xPtr[1];                                                 \
0N/A  v21 = vis_fmul8ulx16(sum2, xFilter2);                               \
0N/A  xFilter2 = xPtr[2];                                                 \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (3*xSrc);                        \
0N/A  d2 = vis_fpadd16(v20, v21)
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_ImageAffine_u8_3ch_bc (mlib_affine_param *param)
0N/A{
0N/A  DECLAREVAR_BC();
0N/A  mlib_s32  filterposx, filterposy;
0N/A  mlib_d64  data0, data1, data2;
0N/A  mlib_d64  sum0, sum1, sum2;
0N/A  mlib_d64  row00, row10, row20, row30;
0N/A  mlib_d64  row01, row11, row21, row31;
0N/A  mlib_d64  xFilter0, xFilter1, xFilter2, yFilter;
0N/A  mlib_d64  v00, v10, v20, v30;
0N/A  mlib_d64  v01, v11, v21, v31;
0N/A  mlib_d64  v02, v12, v22, v32;
0N/A  mlib_d64  d0, d1, d2, d3, d4;
0N/A  mlib_d64  *dpSrc;
0N/A  mlib_s32  cols, i;
0N/A  mlib_d64  *xPtr;
0N/A  union {
0N/A    mlib_u8 t[4];
0N/A    mlib_f32 f;
0N/A  } f0;
0N/A  const mlib_s16 *mlib_filters_table  ;
0N/A  const mlib_s16 *mlib_filters_table_3;
0N/A
0N/A  if (filter == MLIB_BICUBIC) {
0N/A    mlib_filters_table   = mlib_filters_u8_bc;
0N/A    mlib_filters_table_3 = mlib_filters_u8_bc_3;
0N/A  } else {
0N/A    mlib_filters_table   = mlib_filters_u8_bc2;
0N/A    mlib_filters_table_3 = mlib_filters_u8_bc2_3;
0N/A  }
0N/A
0N/A  vis_write_gsr(3 << 3);
0N/A  MLIB_WRITE_BMASK(0x6789ABCD);
0N/A
0N/A  for (j = yStart; j <= yFinish; j ++) {
0N/A
0N/A    CLIP(3);
0N/A
0N/A    cols = xRight - xLeft + 1;
0N/A    i = 0;
0N/A
0N/A    if (i <= cols - 4) {
0N/A
0N/A      NEXT_PIXEL_3BC_U8();
0N/A      LOAD_BC_U8_3CH_1PIXEL(mlib_filters_table, mlib_filters_table_3);
0N/A
0N/A      NEXT_PIXEL_3BC_U8();
0N/A
0N/A      BC_U8_3CH(mlib_filters_table, mlib_filters_table_3);
0N/A      FADD_3BC_U8();
0N/A
0N/A      BC_U8_3CH(mlib_filters_table, mlib_filters_table_3);
0N/A
0N/A#pragma pipeloop(0)
0N/A      for (; i < cols-4; i++) {
0N/A        STORE_BC_U8_3CH_1PIXEL();
0N/A
0N/A        FADD_3BC_U8();
0N/A        BC_U8_3CH(mlib_filters_table, mlib_filters_table_3);
0N/A      }
0N/A
0N/A      STORE_BC_U8_3CH_1PIXEL();
0N/A
0N/A      FADD_3BC_U8();
0N/A      STORE_BC_U8_3CH_1PIXEL();
0N/A
0N/A      RESULT_3BC_U8_1PIXEL();
0N/A      STORE_BC_U8_3CH_1PIXEL();
0N/A
0N/A      LOAD_BC_U8_3CH_1PIXEL(mlib_filters_table, mlib_filters_table_3);
0N/A      RESULT_3BC_U8_1PIXEL();
0N/A      STORE_BC_U8_3CH_1PIXEL();
0N/A      i += 4;
0N/A    }
0N/A
0N/A    for (; i < cols; i++) {
0N/A      NEXT_PIXEL_3BC_U8();
0N/A      LOAD_BC_U8_3CH_1PIXEL(mlib_filters_table, mlib_filters_table_3);
0N/A      RESULT_3BC_U8_1PIXEL();
0N/A      STORE_BC_U8_3CH_1PIXEL();
0N/A    }
0N/A  }
0N/A
0N/A  return MLIB_SUCCESS;
0N/A}
0N/A
0N/A/***************************************************************/
0N/A#define FADD_4BC_U8()                                           \
0N/A  d0 = vis_fpadd16(d00, d10);                                   \
0N/A  d1 = vis_fpadd16(d20, d30);                                   \
0N/A  d0 = vis_fpadd16(d0, d1);                                     \
0N/A  d2 = vis_fpadd16(d01, d11);                                   \
0N/A  d3 = vis_fpadd16(d21, d31);                                   \
0N/A  d2 = vis_fpadd16(d2, d3);                                     \
0N/A  res = vis_fpack16_pair(d0, d2)
0N/A
0N/A/***************************************************************/
0N/A#define LOAD_BC_U8_4CH_1PIXEL(mlib_filters_u8, mlib_filters_u8_4)      \
0N/A  filterposy = (Y >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  yFilter = *((mlib_d64 *) ((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  filterposx = (X >> FILTER_SHIFT) & FILTER_MASK;                      \
0N/A  xPtr=((mlib_d64 *)((mlib_u8 *)mlib_filters_u8_4+4*filterposx));      \
0N/A  xFilter0 = xPtr[0];                                                  \
0N/A  xFilter1 = xPtr[1];                                                  \
0N/A  xFilter2 = xPtr[2];                                                  \
0N/A  xFilter3 = xPtr[3];                                                  \
0N/A  X += dX;                                                             \
0N/A  Y += dY;                                                             \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row00 = vis_faligndata(data0, data1);                                \
0N/A  row01 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row10 = vis_faligndata(data0, data1);                                \
0N/A  row11 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row20 = vis_faligndata(data0, data1);                                \
0N/A  row21 = vis_faligndata(data1, data2);                                \
0N/A  sPtr += srcYStride;                                                  \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                             \
0N/A  data0 = dpSrc[0];                                                    \
0N/A  data1 = dpSrc[1];                                                    \
0N/A  data2 = dpSrc[2];                                                    \
0N/A  row30 = vis_faligndata(data0, data1);                                \
0N/A  row31 = vis_faligndata(data1, data2)
0N/A
0N/A/***************************************************************/
0N/A#define NEXT_PIXEL_4BC_U8()                                     \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                     \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                     \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (4*xSrc)
0N/A
0N/A/***************************************************************/
0N/A#define RESULT_4BC_U8_1PIXEL(ind)                                 \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row00), vis_read_hi(yFilter)); \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row00), vis_read_hi(yFilter)); \
0N/A  v02 = vis_fmul8x16au(vis_read_hi(row01), vis_read_hi(yFilter)); \
0N/A  v03 = vis_fmul8x16au(vis_read_lo(row01), vis_read_hi(yFilter)); \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row10), vis_read_hi(yFilter)); \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row10), vis_read_hi(yFilter)); \
0N/A  sum0 = vis_fpadd16(v00, v10);                                   \
0N/A  v12 = vis_fmul8x16al(vis_read_hi(row11), vis_read_hi(yFilter)); \
0N/A  sum1 = vis_fpadd16(v01, v11);                                   \
0N/A  v13 = vis_fmul8x16al(vis_read_lo(row11), vis_read_hi(yFilter)); \
0N/A  sum2 = vis_fpadd16(v02, v12);                                   \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row20), vis_read_lo(yFilter)); \
0N/A  sum3 = vis_fpadd16(v03, v13);                                   \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row20), vis_read_lo(yFilter)); \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                  \
0N/A  v22 = vis_fmul8x16au(vis_read_hi(row21), vis_read_lo(yFilter)); \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                  \
0N/A  v23 = vis_fmul8x16au(vis_read_lo(row21), vis_read_lo(yFilter)); \
0N/A  sum2 = vis_fpadd16(sum2, v22);                                  \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row30), vis_read_lo(yFilter)); \
0N/A  sum3 = vis_fpadd16(sum3, v23);                                  \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row30), vis_read_lo(yFilter)); \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                  \
0N/A  v32 = vis_fmul8x16al(vis_read_hi(row31), vis_read_lo(yFilter)); \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                  \
0N/A  v33 = vis_fmul8x16al(vis_read_lo(row31), vis_read_lo(yFilter)); \
0N/A  sum2 = vis_fpadd16(sum2, v32);                                  \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                           \
0N/A  sum3 = vis_fpadd16(sum3, v33);                                  \
0N/A  v01 = vis_fmul8ulx16(sum0, xFilter0);                           \
0N/A  v10 = vis_fmul8sux16(sum1, xFilter1);                           \
0N/A  d0##ind = vis_fpadd16(v00, v01);                                \
0N/A  v11 = vis_fmul8ulx16(sum1, xFilter1);                           \
0N/A  v20 = vis_fmul8sux16(sum2, xFilter2);                           \
0N/A  d1##ind = vis_fpadd16(v10, v11);                                \
0N/A  v21 = vis_fmul8ulx16(sum2, xFilter2);                           \
0N/A  v30 = vis_fmul8sux16(sum3, xFilter3);                           \
0N/A  d2##ind = vis_fpadd16(v20, v21);                                \
0N/A  v31 = vis_fmul8ulx16(sum3, xFilter3);                           \
0N/A  d3##ind = vis_fpadd16(v30, v31)
0N/A
0N/A/***************************************************************/
0N/A#define BC_U8_4CH(ind, mlib_filters_u8, mlib_filters_u8_4)            \
0N/A  v00 = vis_fmul8x16au(vis_read_hi(row00), vis_read_hi(yFilter));     \
0N/A  v01 = vis_fmul8x16au(vis_read_lo(row00), vis_read_hi(yFilter));     \
0N/A  v02 = vis_fmul8x16au(vis_read_hi(row01), vis_read_hi(yFilter));     \
0N/A  v03 = vis_fmul8x16au(vis_read_lo(row01), vis_read_hi(yFilter));     \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  filterposy = (Y >> FILTER_SHIFT);                                   \
0N/A  v10 = vis_fmul8x16al(vis_read_hi(row10), vis_read_hi(yFilter));     \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v11 = vis_fmul8x16al(vis_read_lo(row10), vis_read_hi(yFilter));     \
0N/A  sum0 = vis_fpadd16(v00, v10);                                       \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row00 = vis_faligndata(data0, data1);                               \
0N/A  v12 = vis_fmul8x16al(vis_read_hi(row11), vis_read_hi(yFilter));     \
0N/A  row01 = vis_faligndata(data1, data2);                               \
0N/A  filterposx = (X >> FILTER_SHIFT);                                   \
0N/A  v13 = vis_fmul8x16al(vis_read_lo(row11), vis_read_hi(yFilter));     \
0N/A  sPtr += srcYStride;                                                 \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  v20 = vis_fmul8x16au(vis_read_hi(row20), vis_read_lo(yFilter));     \
0N/A  sum1 = vis_fpadd16(v01, v11);                                       \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  X += dX;                                                            \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v21 = vis_fmul8x16au(vis_read_lo(row20), vis_read_lo(yFilter));     \
0N/A  sum2 = vis_fpadd16(v02, v12);                                       \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row10 = vis_faligndata(data0, data1);                               \
0N/A  v22 = vis_fmul8x16au(vis_read_hi(row21), vis_read_lo(yFilter));     \
0N/A  row11 = vis_faligndata(data1, data2);                               \
0N/A  sPtr += srcYStride;                                                 \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  v23 = vis_fmul8x16au(vis_read_lo(row21), vis_read_lo(yFilter));     \
0N/A  sum3 = vis_fpadd16(v03, v13);                                       \
0N/A  Y += dY;                                                            \
0N/A  xSrc = (X>>MLIB_SHIFT)-1;                                           \
0N/A  v30 = vis_fmul8x16al(vis_read_hi(row30), vis_read_lo(yFilter));     \
0N/A  sum0 = vis_fpadd16(sum0, v20);                                      \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  ySrc = (Y>>MLIB_SHIFT)-1;                                           \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  v31 = vis_fmul8x16al(vis_read_lo(row30), vis_read_lo(yFilter));     \
0N/A  sum1 = vis_fpadd16(sum1, v21);                                      \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  filterposy &= FILTER_MASK;                                          \
0N/A  row20 = vis_faligndata(data0, data1);                               \
0N/A  v32 = vis_fmul8x16al(vis_read_hi(row31), vis_read_lo(yFilter));     \
0N/A  row21 = vis_faligndata(data1, data2);                               \
0N/A  sPtr += srcYStride;                                                 \
0N/A  filterposx &= FILTER_MASK;                                          \
0N/A  v33 = vis_fmul8x16al(vis_read_lo(row31), vis_read_lo(yFilter));     \
0N/A  sum2 = vis_fpadd16(sum2, v22);                                      \
0N/A  ALIGN_ADDR(dpSrc, sPtr);                                            \
0N/A  sum3 = vis_fpadd16(sum3, v23);                                      \
0N/A  sum0 = vis_fpadd16(sum0, v30);                                      \
0N/A  data0 = dpSrc[0];                                                   \
0N/A  sum1 = vis_fpadd16(sum1, v31);                                      \
0N/A  v00 = vis_fmul8sux16(sum0, xFilter0);                               \
0N/A  data1 = dpSrc[1];                                                   \
0N/A  sum2 = vis_fpadd16(sum2, v32);                                      \
0N/A  v01 = vis_fmul8ulx16(sum0, xFilter0);                               \
0N/A  sum3 = vis_fpadd16(sum3, v33);                                      \
0N/A  data2 = dpSrc[2];                                                   \
0N/A  row30 = vis_faligndata(data0, data1);                               \
0N/A  v10 = vis_fmul8sux16(sum1, xFilter1);                               \
0N/A  d0##ind = vis_fpadd16(v00, v01);                                    \
0N/A  row31 = vis_faligndata(data1, data2);                               \
0N/A  yFilter = *((mlib_d64 *)((mlib_u8 *)mlib_filters_u8 + filterposy)); \
0N/A  v11 = vis_fmul8ulx16(sum1, xFilter1);                               \
0N/A  xPtr=((mlib_d64 *)((mlib_u8 *)mlib_filters_u8_4+4*filterposx));     \
0N/A  xFilter0 = xPtr[0];                                                 \
0N/A  v20 = vis_fmul8sux16(sum2, xFilter2);                               \
0N/A  d1##ind = vis_fpadd16(v10, v11);                                    \
0N/A  xFilter1 = xPtr[1];                                                 \
0N/A  v21 = vis_fmul8ulx16(sum2, xFilter2);                               \
0N/A  xFilter2 = xPtr[2];                                                 \
0N/A  v30 = vis_fmul8sux16(sum3, xFilter3);                               \
0N/A  d2##ind = vis_fpadd16(v20, v21);                                    \
0N/A  v31 = vis_fmul8ulx16(sum3, xFilter3);                               \
0N/A  xFilter3 = xPtr[3];                                                 \
0N/A  sPtr = (mlib_u8 *)lineAddr[ySrc] + (4*xSrc);                        \
0N/A  d3##ind = vis_fpadd16(v30, v31)
0N/A
0N/A/***************************************************************/
0N/Amlib_status mlib_ImageAffine_u8_4ch_bc (mlib_affine_param *param)
0N/A{
0N/A  DECLAREVAR_BC();
0N/A  DTYPE  *dstLineEnd;
0N/A  mlib_s32  filterposx, filterposy;
0N/A  mlib_d64  data0, data1, data2;
0N/A  mlib_d64  sum0, sum1, sum2, sum3;
0N/A  mlib_d64  row00, row10, row20, row30;
0N/A  mlib_d64  row01, row11, row21, row31;
0N/A  mlib_d64  xFilter0, xFilter1, xFilter2, xFilter3, yFilter;
0N/A  mlib_d64  v00, v10, v20, v30;
0N/A  mlib_d64  v01, v11, v21, v31;
0N/A  mlib_d64  v02, v12, v22, v32;
0N/A  mlib_d64  v03, v13, v23, v33;
0N/A  mlib_d64  d0, d1, d2, d3;
0N/A  mlib_d64  d00, d10, d20, d30;
0N/A  mlib_d64  d01, d11, d21, d31;
0N/A  mlib_d64  *dpSrc;
0N/A  mlib_s32  cols, i;
0N/A  mlib_d64  res, *dp, *xPtr;
0N/A  mlib_s32  mask, emask, gsrd;
0N/A  const mlib_s16 *mlib_filters_table  ;
0N/A  const mlib_s16 *mlib_filters_table_4;
0N/A
0N/A  if (filter == MLIB_BICUBIC) {
0N/A    mlib_filters_table   = mlib_filters_u8_bc;
0N/A    mlib_filters_table_4 = mlib_filters_u8_bc_4;
0N/A  } else {
0N/A    mlib_filters_table   = mlib_filters_u8_bc2;
0N/A    mlib_filters_table_4 = mlib_filters_u8_bc2_4;
0N/A  }
0N/A
0N/A  for (j = yStart; j <= yFinish; j++) {
0N/A
0N/A    vis_write_gsr(3 << 3);
0N/A
0N/A    CLIP(4);
0N/A    dstLineEnd  = (DTYPE*)dstData + 4 * xRight;
0N/A    dstLineEnd += 3;
0N/A    dp = (mlib_d64*)vis_alignaddr(dstPixelPtr, 0);
0N/A    mask = vis_edge8(dstPixelPtr, dstLineEnd);
0N/A    gsrd = ((8 - (mlib_addr)dstPixelPtr) & 7);
0N/A
0N/A    cols = xRight - xLeft + 1;
0N/A    i = 0;
0N/A
0N/A    if (i <= cols - 6) {
0N/A
0N/A      NEXT_PIXEL_4BC_U8();
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A
0N/A      NEXT_PIXEL_4BC_U8();
0N/A
0N/A      BC_U8_4CH(0, mlib_filters_table, mlib_filters_table_4);
0N/A      BC_U8_4CH(1, mlib_filters_table, mlib_filters_table_4);
0N/A      FADD_4BC_U8();
0N/A
0N/A      BC_U8_4CH(0, mlib_filters_table, mlib_filters_table_4);
0N/A      BC_U8_4CH(1, mlib_filters_table, mlib_filters_table_4);
0N/A
0N/A#pragma pipeloop(0)
0N/A      for (; i <= cols-8; i+=2) {
0N/A        vis_alignaddr((void *)gsrd, 0);
0N/A        res = vis_faligndata(res, res);
0N/A
0N/A        vis_pst_8(res, dp++, mask);
0N/A        vis_pst_8(res, dp, ~mask);
0N/A
0N/A        FADD_4BC_U8();
0N/A        BC_U8_4CH(0, mlib_filters_table, mlib_filters_table_4);
0N/A        BC_U8_4CH(1, mlib_filters_table, mlib_filters_table_4);
0N/A      }
0N/A
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A
0N/A      FADD_4BC_U8();
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A
0N/A      RESULT_4BC_U8_1PIXEL(0);
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A      RESULT_4BC_U8_1PIXEL(1);
0N/A      FADD_4BC_U8();
0N/A
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A      i += 6;
0N/A    }
0N/A
0N/A    if (i <= cols-4) {
0N/A      NEXT_PIXEL_4BC_U8();
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A
0N/A      NEXT_PIXEL_4BC_U8();
0N/A
0N/A      BC_U8_4CH(0, mlib_filters_table, mlib_filters_table_4);
0N/A      BC_U8_4CH(1, mlib_filters_table, mlib_filters_table_4);
0N/A      FADD_4BC_U8();
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A
0N/A      RESULT_4BC_U8_1PIXEL(0);
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A      RESULT_4BC_U8_1PIXEL(1);
0N/A      FADD_4BC_U8();
0N/A
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A      i += 4;
0N/A    }
0N/A
0N/A    if (i <= cols-2) {
0N/A      NEXT_PIXEL_4BC_U8();
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A      RESULT_4BC_U8_1PIXEL(0);
0N/A
0N/A      NEXT_PIXEL_4BC_U8();
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A      RESULT_4BC_U8_1PIXEL(1);
0N/A      FADD_4BC_U8();
0N/A
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      vis_pst_8(res, dp++, mask);
0N/A      vis_pst_8(res, dp, ~mask);
0N/A      i += 2;
0N/A    }
0N/A
0N/A    if (i < cols) {
0N/A      NEXT_PIXEL_4BC_U8();
0N/A      LOAD_BC_U8_4CH_1PIXEL(mlib_filters_table, mlib_filters_table_4);
0N/A      RESULT_4BC_U8_1PIXEL(0);
0N/A
0N/A      d0 = vis_fpadd16(d00, d10);
0N/A      d1 = vis_fpadd16(d20, d30);
0N/A      d0 = vis_fpadd16(d0, d1);
0N/A      res = vis_fpack16_pair(d0, d0);
0N/A      vis_alignaddr((void *)gsrd, 0);
0N/A      res = vis_faligndata(res, res);
0N/A
0N/A      emask = vis_edge8(dp, dstLineEnd);
0N/A      vis_pst_8(res, dp++, emask & mask);
0N/A
0N/A      if ((mlib_u8*)dp <= (mlib_u8*)dstLineEnd) {
0N/A        mask = vis_edge8(dp, dstLineEnd);
0N/A        vis_pst_8(res, dp, mask);
0N/A      }
0N/A    }
0N/A  }
0N/A
0N/A  return MLIB_SUCCESS;
0N/A}
0N/A
0N/A/***************************************************************/