common/vis/__vhypot.S

/*
 * CDDL HEADER START
 *
 * The contents of this file are subject to the terms of the
 * Common Development and Distribution License (the "License").
 * You may not use this file except in compliance with the License.
 *
 * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
 * or http://www.opensolaris.org/os/licensing.
 * See the License for the specific language governing permissions
 * and limitations under the License.
 *
 * When distributing Covered Code, include this CDDL HEADER in each
 * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
 * If applicable, add the following below this CDDL HEADER, with the
 * fields enclosed by brackets "[]" replaced with your own identifying
 * information: Portions Copyright [yyyy] [name of copyright owner]
 *
 * CDDL HEADER END
 */
/*
 * Copyright 2011 Nexenta Systems, Inc.  All rights reserved.
 */
/*
 * Copyright 2006 Sun Microsystems, Inc.  All rights reserved.
 * Use is subject to license terms.
 */

    .file   "__vhypot.S"

#include "libm.h"

    RO_DATA
    .align  64

.CONST_TBL:
    .word   0x7ff00000, 0   ! DC0
    .word   0x7fe00000, 0   ! DC1
    .word   0x00100000, 0   ! DC2
    .word   0x41b00000, 0   ! D2ON28 = 268435456.0
    .word   0x7fd00000, 0   ! DC3

#define counter     %i0
#define tmp_counter %l3
#define tmp_px      %l5
#define tmp_py      %o7
#define stridex     %i2
#define stridey     %i4
#define stridez     %l0

#define DC0     %f8
#define DC0_HI      %f8
#define DC0_LO      %f9
#define DC1     %f46
#define DC2     %f48
#define DC3     %f0
#define D2ON28      %f62

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
!      !!!!!   algorithm   !!!!!
!  ((float*)&x)[0] = ((float*)px)[0];
!  ((float*)&x)[1] = ((float*)px)[1];
!
!  ((float*)&y)[0] = ((float*)py)[0];
!  ((float*)&y)[1] = ((float*)py)[1];
!
!  x = fabs(x);
!  y = fabs(y);
!
!  c0 = vis_fcmple32(DC1,x);
!  c2 = vis_fcmple32(DC1,y);
!  c1 = vis_fcmpgt32(DC2,x);
!  c3 = vis_fcmpgt32(DC2,y);
!
!  c0 |= c2;
!  c1 &= c3;
!  if ( (c0 & 2) != 0 )
!  {
!    lx = ((int*)px)[1];
!    ly = ((int*)py)[1];
!    hx = *(int*)px;
!    hy = *(int*)py;
!
!    hx &= 0x7fffffff;
!    hy &= 0x7fffffff;
!
!    j0 = hx;
!    if ( j0 < hy ) j0 = hy;
!    j0 &= 0x7ff00000;
!    if ( j0 >= 0x7ff00000 )
!    {
!      if ( hx == 0x7ff00000 && lx == 0 ) res = x == y ? y : x;
!      else if ( hy == 0x7ff00000 && ly == 0 ) res = x == y ? x : y;
!      else res = x * y;
!
!      ((float*)pz)[0] = ((float*)&res)[0];
!      ((float*)pz)[1] = ((float*)&res)[1];
!    }
!    else
!    {
!      diff = hy - hx;
!      j0 = diff >> 31;
!      if ( ((diff ^ j0) - j0) < 0x03600000 )
!      {!
!        x *= D2ONM1022;
!        y *= D2ONM1022;
!
!        x_hi = ( x + two28 ) - two28;
!        x_lo = x - x_hi;
!        y_hi = ( y + two28 ) - two28;
!        y_lo = y - y_hi;
!        res = (x_hi * x_hi + y_hi * y_hi);
!        res += ((x + x_hi) * x_lo + (y + y_hi) * y_lo);
!
!        res = sqrt(res);
!
!        res = D2ONP1022 * res;
!        ((float*)pz)[0] = ((float*)&res)[0];
!        ((float*)pz)[1] = ((float*)&res)[1];
!      }
!      else
!      {
!        res = x + y;
!        ((float*)pz)[0] = ((float*)&res)[0];
!        ((float*)pz)[1] = ((float*)&res)[1];
!      }
!    }
!    px += stridex;
!    py += stridey;
!    pz += stridez;
!    continue;
!  }
!  if ( (c1 & 2) != 0 )
!  {
!    x *= D2ONP1022;
!    y *= D2ONP1022;
!
!    x_hi = ( x + two28 ) - two28;
!    x_lo = x - x_hi;
!    y_hi = ( y + two28 ) - two28;
!    y_lo = y - y_hi;
!    res = (x_hi * x_hi + y_hi * y_hi);
!    res += ((x + x_hi) * x_lo + (y + y_hi) * y_lo);
!
!    res = sqrt(res);
!
!    res = D2ONM1022 * res;
!    ((float*)pz)[0] = ((float*)&res)[0];
!    ((float*)pz)[1] = ((float*)&res)[1];
!    px += stridex;
!    py += stridey;
!    pz += stridez;
!    continue;
!  }
!
!  dmax = x;
!  if ( dmax < y ) dmax = y;
!
!  dmax = vis_fand(dmax,DC0);
!  dnorm = vis_fpsub32(DC1,dmax);
!
!  x *= dnorm;
!  y *= dnorm;
!
!  x_hi = x + D2ON28;
!  x_hi -= D2ON28;
!  x_lo = x - x_hi;
!
!  y_hi = y + D2ON28;
!  y_hi -= D2ON28;
!  y_lo = y - y_hi;
!
!  res = x_hi * x_hi;
!  dtmp1 = x + x_hi;
!  dtmp0 = y_hi * y_hi;
!  dtmp2 = y + y_hi;
!
!  res += dtmp0;
!  dtmp1 *= x_lo;
!  dtmp2 *= y_lo;
!  dtmp1 += dtmp2;
!  res += dtmp1;
!
!  res = sqrt(res);
!
!  res = dmax * res;
!  ((float*)pz)[0] = ((float*)&res)[0];
!  ((float*)pz)[1] = ((float*)&res)[1];
!
!  px += stridex;
!  py += stridey;
!  pz += stridez;
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

    ENTRY(__vhypot)
    save    %sp,-SA(MINFRAME),%sp
    PIC_SETUP(l7)
    PIC_SET(l7,.CONST_TBL,o3)
    wr  %g0,0x82,%asi

#ifdef __sparcv9
    ldx [%fp+STACK_BIAS+176],%l0
#else
    ld  [%fp+STACK_BIAS+92],%l0
#endif
    ldd [%o3],DC0
    sll %i2,3,stridex
    mov %i0,tmp_counter

    ldd [%o3+8],DC1
    sll %i4,3,stridey
    mov %i1,tmp_px

    ldd [%o3+16],DC2
    sll %l0,3,stridez
    mov %i3,tmp_py

    ldd [%o3+24],D2ON28

    ldd [%o3+32],DC3

.begin:
    mov tmp_counter,counter
    mov tmp_px,%i1
    mov tmp_py,%i3
    clr tmp_counter
.begin1:
    cmp counter,0
    ble,pn  %icc,.exit
    nop

    lda [%i1]%asi,%o0
    sethi   %hi(0x7ffffc00),%o5

    lda [%i3]%asi,%o2
    add %o5,1023,%o5

    lda [%i1]%asi,%f26      ! (1_0) ((float*)&x)[0] = ((float*)px)[0];

    lda [%i1+4]%asi,%f27    ! (1_0) ((float*)&x)[1] = ((float*)px)[1];
    add %i1,stridex,%o1     ! px += stridex

    lda [%i3]%asi,%f24      ! (1_0) ((float*)&y)[0] = ((float*)py)[0];
    sethi   %hi(0x00100000),%l7
    and %o0,%o5,%o0

    lda [%i3+4]%asi,%f25    ! (1_0) ((float*)&y)[1] = ((float*)py)[1];
    and %o2,%o5,%o2
    sethi   %hi(0x7fe00000),%l6

    fabsd   %f26,%f36       ! (1_0) x = fabs(x);
    cmp %o0,%o2
    mov %o2,%l4

    fabsd   %f24,%f54       ! (1_0) y = fabs(y);
    add %i3,stridey,%o5     ! py += stridey
    movg    %icc,%o0,%o2
    lda [%o5]%asi,%f28      ! (2_0) ((float*)&y)[0] = ((float*)py)[0];

    cmp %o2,%l6
    sethi   %hi(0x7ff00000),%o4
    bge,pn  %icc,.spec0
    lda [%o5+4]%asi,%f29    ! (2_0) ((float*)&y)[1] = ((float*)py)[1];

    cmp %o2,%l7
    bl,pn   %icc,.spec1
    nop
    lda [%o1]%asi,%f26      ! (2_0) ((float*)&x)[0] = ((float*)px)[0];

    lda [%o1+4]%asi,%f27    ! (2_0) ((float*)&x)[1] = ((float*)px)[1];
    add %i3,stridey,%i3     ! py += stridey

    fabsd   %f28,%f34       ! (2_0) y = fabs(y);

    fabsd   %f26,%f50       ! (2_0) x = fabs(x);

    fcmple32    DC1,%f50,%o3    ! (2_0) c0 = vis_fcmple32(DC1,x);

    fcmple32    DC1,%f34,%o0    ! (2_0) c2 = vis_fcmple32(DC1,y);

    fcmpgt32    DC2,%f50,%o4    ! (2_0) c1 = vis_fcmpgt32(DC2,x);

    fcmpgt32    DC2,%f34,%o5    ! (2_0) c3 = vis_fcmpgt32(DC2,y);

    or  %o3,%o0,%o3     ! (2_0) c0 |= c2;

    andcc   %o3,2,%g0       ! (2_0) c0 & 2
    bnz,pn  %icc,.update0       ! (2_0) if ( (c0 & 2) != 0 )
    and %o4,%o5,%o4     ! (2_0) c1 &= c3;
.cont0:
    add %i3,stridey,%l4     ! py += stridey
    andcc   %o4,2,%g0       ! (2_0) c1 & 2
    bnz,pn  %icc,.update1       ! (2_0) if ( (c1 & 2) != 0 )
    fmovd   %f36,%f56       ! (1_0) dmax = x;
.cont1:
    lda [%l4]%asi,%f30      ! (3_0) ((float*)&y)[0] = ((float*)py)[0];
    add %o1,stridex,%l2     ! px += stridex

    lda [%l4+4]%asi,%f31    ! (3_0) ((float*)&y)[1] = ((float*)py)[1];

    lda [%l2]%asi,%f18      ! (3_1) ((float*)&x)[0] = ((float*)px)[0];

    lda [%l2+4]%asi,%f19    ! (3_1) ((float*)&x)[1] = ((float*)px)[1];

    fabsd   %f30,%f30       ! (3_1) y = fabs(y);

    fabsd   %f18,%f18       ! (3_1) x = fabs(x);

    fcmped  %fcc2,%f54,%f56     ! (1_1) dmax ? y

    fmovdg  %fcc2,%f54,%f56     ! (1_1) if ( dmax < y ) dmax = y;

    fcmple32    DC1,%f18,%o3    ! (3_1) c0 = vis_fcmple32(DC1,x);

    fcmple32    DC1,%f30,%o0    ! (3_1) c2 = vis_fcmple32(DC1,y);

    fcmpgt32    DC2,%f18,%o4    ! (3_1) c1 = vis_fcmpgt32(DC2,x);

    fcmpgt32    DC2,%f30,%o1    ! (3_1) c3 = vis_fcmpgt32(DC2,y);

    fand    %f56,DC0,%f38       ! (1_1) dmax = vis_fand(dmax,DC0);

    or  %o3,%o0,%o3     ! (3_1) c0 |= c2;

    andcc   %o3,2,%g0       ! (3_1) c0 & 2
    bnz,pn  %icc,.update2       ! (3_1) if ( (c0 & 2) != 0 )
    and %o4,%o1,%o4     ! (3_1) c1 &= c3;
.cont2:
    add %l4,stridey,%i3     ! py += stridey
    andcc   %o4,2,%g0       ! (3_1) c1 & 2
    bnz,pn  %icc,.update3       ! (3_1) if ( (c1 & 2) != 0 )
    fmovd   %f50,%f32       ! (2_1) dmax = x;
.cont3:
    fpsub32 DC1,%f38,%f10       ! (1_1) dnorm = vis_fpsub32(DC1,dmax);
    lda [%i3]%asi,%f20      ! (0_0) ((float*)&y)[0] = ((float*)py)[0];

    lda [%i3+4]%asi,%f21    ! (0_0) ((float*)&y)[1] = ((float*)py)[1];

    add %l2,stridex,%l1     ! px += stridex

    fmuld   %f36,%f10,%f36      ! (1_1) x *= dnorm;
    lda [%l1]%asi,%f22      ! (0_0) ((float*)&x)[0] = ((float*)px)[0]

    lda [%l1+4]%asi,%f23    ! (0_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f54,%f10,%f56      ! (1_1) y *= dnorm;
    fabsd   %f20,%f40       ! (0_0) y = fabs(y);

    fabsd   %f22,%f20       ! (0_0) x = fabs(x);

    fcmped  %fcc3,%f34,%f32     ! (2_1) dmax ? y


    fmovdg  %fcc3,%f34,%f32     ! (2_1) if ( dmax < y ) dmax = y;

    faddd   %f36,D2ON28,%f58    ! (1_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f20,%g5    ! (0_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f56,D2ON28,%f22    ! (1_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f40,%o2    ! (0_0) c2 = vis_fcmple32(DC1,y);

    fcmpgt32    DC2,%f20,%g1    ! (0_0) c1 = vis_fcmpgt32(DC2,x);

    fcmpgt32    DC2,%f40,%o4    ! (0_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f32,DC0,%f52       ! (2_1) dmax = vis_fand(dmax,DC0);

    or  %g5,%o2,%g5     ! (0_0) c0 |= c2;
    fsubd   %f58,D2ON28,%f58    ! (1_1) x_hi -= D2ON28;

    andcc   %g5,2,%g0       ! (0_0) c0 & 2
    bnz,pn  %icc,.update4       ! (0_0) if ( (c0 & 2) != 0 )
    fsubd   %f22,D2ON28,%f22    ! (1_1) y_hi -= D2ON28;
.cont4:
    and %g1,%o4,%g1     ! (0_0) c1 &= c3;

    add %i3,stridey,%l2     ! py += stridey
    andcc   %g1,2,%g0       ! (0_0) c1 & 2
    bnz,pn  %icc,.update5       ! (0_0) if ( (c1 & 2) != 0 )
    fmovd   %f18,%f44       ! (3_1) dmax = x;
.cont5:
    fpsub32 DC1,%f52,%f10       ! (2_1) dnorm = vis_fpsub32(DC1,dmax);
    lda [%l2]%asi,%f24      ! (1_0) ((float*)&y)[0] = ((float*)py)[0];

    fmuld   %f58,%f58,%f60      ! (1_1) res = x_hi * x_hi;
    lda [%l2+4]%asi,%f25    ! (1_0) ((float*)&y)[1] = ((float*)py)[1];
    add %l1,stridex,%l7     ! px += stridex
    faddd   %f56,%f22,%f28      ! (1_1) dtmp2 = y + y_hi;

    faddd   %f36,%f58,%f6       ! (1_1) dtmp1 = x + x_hi;
    lda [%l7]%asi,%f26      ! (1_0) ((float*)&x)[0] = ((float*)px)[0];

    fmuld   %f50,%f10,%f50      ! (2_1) x *= dnorm;
    fsubd   %f36,%f58,%f58      ! (1_1) x_lo = x - x_hi;
    lda [%l7+4]%asi,%f27    ! (1_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f22,%f22,%f2       ! (1_1) dtmp0 = y_hi * y_hi;
    fsubd   %f56,%f22,%f56      ! (1_1) y_lo = y - y_hi;

    fmuld   %f34,%f10,%f34      ! (2_1) y *= dnorm;
    fabsd   %f24,%f54       ! (1_0) y = fabs(y);

    fabsd   %f26,%f36       ! (1_0) x = fabs(x);

    fmuld   %f6,%f58,%f10       ! (1_1) dtmp1 *= x_lo;
    fcmped  %fcc0,%f30,%f44     ! (3_1) dmax ? y

    fmuld   %f28,%f56,%f26      ! (1_1) dtmp2 *= y_lo;

    fmovdg  %fcc0,%f30,%f44     ! (3_1) if ( dmax < y ) dmax = y;

    faddd   %f50,D2ON28,%f58    ! (2_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f36,%g1    ! (1_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f34,D2ON28,%f22    ! (2_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f54,%g5    ! (1_0) c2 = vis_fcmple32(DC1,y);

    faddd   %f60,%f2,%f24       ! (1_1) res += dtmp0;
    fcmpgt32    DC2,%f36,%o5    ! (1_0) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f10,%f26,%f28      ! (1_1) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f54,%o1    ! (1_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f44,DC0,%f14       ! (3_1) dmax = vis_fand(dmax,DC0);

    or  %g1,%g5,%g1     ! (1_0) c0 |= c2;
    fsubd   %f58,D2ON28,%f44    ! (2_1) x_hi -= D2ON28;

    andcc   %g1,2,%g0       ! (1_0) c0 & 2
    bnz,pn  %icc,.update6       ! (1_0) if ( (c0 & 2) != 0 )
    fsubd   %f22,D2ON28,%f58    ! (2_1) y_hi -= D2ON28;
.cont6:
    and %o5,%o1,%o5     ! (1_0) c1 &= c3;
    faddd   %f24,%f28,%f26      ! (1_1) res += dtmp1;

    add %l2,stridey,%i3     ! py += stridey
    andcc   %o5,2,%g0       ! (1_0) c1 & 2
    bnz,pn  %icc,.update7       ! (1_0) if ( (c1 & 2) != 0 )
    fmovd   %f20,%f4        ! (0_0) dmax = x;
.cont7:
    fpsub32 DC1,%f14,%f10       ! (3_1) dnorm = vis_fpsub32(DC1,dmax);
    lda [%i3]%asi,%f28      ! (2_0) ((float*)&y)[0] = ((float*)py)[0];

    fmuld   %f44,%f44,%f2       ! (2_1) res = x_hi * x_hi;
    lda [%i3+4]%asi,%f29    ! (2_0) ((float*)&y)[1] = ((float*)py)[1];
    add %l7,stridex,%o1     ! px += stridex
    faddd   %f34,%f58,%f60      ! (2_1) dtmp2 = y + y_hi;

    fsqrtd  %f26,%f24       ! (1_1) res = sqrt(res);
    lda [%o1]%asi,%f26      ! (2_0) ((float*)&x)[0] = ((float*)px)[0];
    faddd   %f50,%f44,%f56      ! (2_1) dtmp1 = x + x_hi;

    fmuld   %f18,%f10,%f6       ! (3_1) x *= dnorm;
    fsubd   %f50,%f44,%f18      ! (2_1) x_lo = x - x_hi;
    lda [%o1+4]%asi,%f27    ! (2_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f58,%f58,%f44      ! (2_1) dtmp0 = y_hi * y_hi;
    fsubd   %f34,%f58,%f22      ! (2_1) y_lo = y - y_hi;

    fmuld   %f30,%f10,%f58      ! (3_1) y *= dnorm;
    fabsd   %f28,%f34       ! (2_0) y = fabs(y);

    fabsd   %f26,%f50       ! (2_0) x = fabs(x);

    fmuld   %f56,%f18,%f10      ! (2_1) dtmp1 *= x_lo;
    fcmped  %fcc1,%f40,%f4      ! (0_0) dmax ? y

    fmuld   %f60,%f22,%f12      ! (2_1) dtmp2 *= y_lo;

    fmovdg  %fcc1,%f40,%f4      ! (0_0) if ( dmax < y ) dmax = y;

    faddd   %f6,D2ON28,%f56     ! (3_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f50,%o3    ! (2_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f58,D2ON28,%f28    ! (3_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f34,%o0    ! (2_0) c2 = vis_fcmple32(DC1,y);

    faddd   %f2,%f44,%f30       ! (2_1) res += dtmp0;
    fcmpgt32    DC2,%f50,%o4    ! (2_0) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f10,%f12,%f26      ! (2_1) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f34,%o5    ! (2_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f4,DC0,%f16        ! (0_0) dmax = vis_fand(dmax,DC0);

    or  %o3,%o0,%o3     ! (2_0) c0 |= c2;
    fsubd   %f56,D2ON28,%f18    ! (3_1) x_hi -= D2ON28;

    andcc   %o3,2,%g0       ! (2_0) c0 & 2
    bnz,pn  %icc,.update8       ! (2_0) if ( (c0 & 2) != 0 )
    fsubd   %f28,D2ON28,%f4     ! (3_1) y_hi -= D2ON28;
.cont8:
    and %o4,%o5,%o4     ! (2_0) c1 &= c3;
    faddd   %f30,%f26,%f12      ! (2_1) res += dtmp1;

    add %i3,stridey,%l4     ! py += stridey
    andcc   %o4,2,%g0       ! (2_0) c1 & 2
    bnz,pn  %icc,.update9       ! (2_0) if ( (c1 & 2) != 0 )
    fmovd   %f36,%f56       ! (1_0) dmax = x;
.cont9:
    lda [%l4]%asi,%f30      ! (3_0) ((float*)&y)[0] = ((float*)py)[0];
    add %o1,stridex,%l2     ! px += stridex
    fpsub32 DC1,%f16,%f44       ! (0_0) dnorm = vis_fpsub32(DC1,dmax);

    fmuld   %f18,%f18,%f60      ! (3_1) res = x_hi * x_hi;
    lda [%l4+4]%asi,%f31    ! (3_0) ((float*)&y)[1] = ((float*)py)[1];
    faddd   %f58,%f4,%f32       ! (3_1) dtmp2 = y + y_hi;

    fsqrtd  %f12,%f12       ! (2_1) res = sqrt(res);
    faddd   %f6,%f18,%f28       ! (3_1) dtmp1 = x + x_hi;

    cmp counter,4
    bl,pn   %icc,.tail
    nop

    ba  .main_loop
    sub counter,4,counter

    .align  16
.main_loop:
    fmuld   %f20,%f44,%f2       ! (0_1) x *= dnorm;
    fsubd   %f6,%f18,%f20       ! (3_2) x_lo = x - x_hi;
    lda [%l2]%asi,%f18      ! (3_1) ((float*)&x)[0] = ((float*)px)[0];

    fmuld   %f4,%f4,%f22        ! (3_2) dtmp0 = y_hi * y_hi;
    lda [%l2+4]%asi,%f19    ! (3_1) ((float*)&x)[1] = ((float*)px)[1];
    fsubd   %f58,%f4,%f58       ! (3_2) y_lo = y - y_hi;

    fmuld   %f40,%f44,%f44      ! (0_1) y *= dnorm;
    fabsd   %f30,%f30       ! (3_1) y = fabs(y);

    fmuld   %f38,%f24,%f10      ! (1_2) res = dmax * res;
    fabsd   %f18,%f18       ! (3_1) x = fabs(x);
    st  %f10,[%i5]      ! (1_2) ((float*)pz)[0] = ((float*)&res)[0];

    fmuld   %f28,%f20,%f28      ! (3_2) dtmp1 *= x_lo;
    st  %f11,[%i5+4]        ! (1_2) ((float*)pz)[1] = ((float*)&res)[1];
    fcmped  %fcc2,%f54,%f56     ! (1_1) dmax ? y

    fmuld   %f32,%f58,%f24      ! (3_2) dtmp2 *= y_lo;

    fmovdg  %fcc2,%f54,%f56     ! (1_1) if ( dmax < y ) dmax = y;

    faddd   %f2,D2ON28,%f10     ! (0_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f18,%o3    ! (3_1) c0 = vis_fcmple32(DC1,x);

    faddd   %f44,D2ON28,%f20    ! (0_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f30,%o0    ! (3_1) c2 = vis_fcmple32(DC1,y);

    faddd   %f60,%f22,%f22      ! (3_2) res += dtmp0;
    fcmpgt32    DC2,%f18,%o4    ! (3_1) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f28,%f24,%f26      ! (3_2) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f30,%o1    ! (3_1) c3 = vis_fcmpgt32(DC2,y);

    fand    %f56,DC0,%f38       ! (1_1) dmax = vis_fand(dmax,DC0);

    or  %o3,%o0,%o3     ! (3_1) c0 |= c2;
    fsubd   %f10,D2ON28,%f58    ! (0_1) x_hi -= D2ON28;

    andcc   %o3,2,%g0       ! (3_1) c0 & 2
    bnz,pn  %icc,.update10      ! (3_1) if ( (c0 & 2) != 0 )
    fsubd   %f20,D2ON28,%f56    ! (0_1) y_hi -= D2ON28;
.cont10:
    faddd   %f22,%f26,%f28      ! (3_2) res += dtmp1;
    and %o4,%o1,%o4     ! (3_1) c1 &= c3;

    add %l4,stridey,%i3     ! py += stridey
    andcc   %o4,2,%g0       ! (3_1) c1 & 2
    bnz,pn  %icc,.update11      ! (3_1) if ( (c1 & 2) != 0 )
    fmovd   %f50,%f32       ! (2_1) dmax = x;
.cont11:
    fpsub32 DC1,%f38,%f10       ! (1_1) dnorm = vis_fpsub32(DC1,dmax);
    add %l2,stridex,%l1     ! px += stridex
    lda [%i3]%asi,%f20      ! (0_0) ((float*)&y)[0] = ((float*)py)[0];

    fmuld   %f58,%f58,%f6       ! (0_1) res = x_hi * x_hi;
    lda [%i3+4]%asi,%f21    ! (0_0) ((float*)&y)[1] = ((float*)py)[1];
    add %i5,stridez,%l6     ! pz += stridez
    faddd   %f44,%f56,%f60      ! (0_1) dtmp2 = y + y_hi;

    fsqrtd  %f28,%f4        ! (3_2) res = sqrt(res);
    lda [%l1]%asi,%f22      ! (0_0) ((float*)&x)[0] = ((float*)px)[0];
    faddd   %f2,%f58,%f24       ! (0_1) dtmp1 = x + x_hi;

    fmuld   %f36,%f10,%f36      ! (1_1) x *= dnorm;
    fsubd   %f2,%f58,%f26       ! (0_1) x_lo = x - x_hi;
    lda [%l1+4]%asi,%f23    ! (0_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f56,%f56,%f28      ! (0_1) dtmp0 = y_hi * y_hi;
    fsubd   %f44,%f56,%f44      ! (0_1) y_lo = y - y_hi;

    fmuld   %f54,%f10,%f56      ! (1_1) y *= dnorm;
    fabsd   %f20,%f40       ! (0_0) y = fabs(y);

    fmuld   %f52,%f12,%f12      ! (2_2) res = dmax * res;
    fabsd   %f22,%f20       ! (0_0) x = fabs(x);
    st  %f12,[%l6]      ! (2_2) ((float*)pz)[0] = ((float*)&res)[0];

    fmuld   %f24,%f26,%f10      ! (0_1) dtmp1 *= x_lo;
    st  %f13,[%l6+4]        ! (2_2) ((float*)pz)[1] = ((float*)&res)[1];
    fcmped  %fcc3,%f34,%f32     ! (2_1) dmax ? y

    fmuld   %f60,%f44,%f12      ! (0_1) dtmp2 *= y_lo;

    fmovdg  %fcc3,%f34,%f32     ! (2_1) if ( dmax < y ) dmax = y;

    faddd   %f36,D2ON28,%f58    ! (1_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f20,%g5    ! (0_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f56,D2ON28,%f22    ! (1_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f40,%o2    ! (0_0) c2 = vis_fcmple32(DC1,y);

    faddd   %f6,%f28,%f24       ! (0_1) res += dtmp0;
    fcmpgt32    DC2,%f20,%g1    ! (0_0) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f10,%f12,%f26      ! (0_1) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f40,%o4    ! (0_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f32,DC0,%f52       ! (2_1) dmax = vis_fand(dmax,DC0);

    or  %g5,%o2,%g5     ! (0_0) c0 |= c2;
    fsubd   %f58,D2ON28,%f58    ! (1_1) x_hi -= D2ON28;

    andcc   %g5,2,%g0       ! (0_0) c0 & 2
    bnz,pn  %icc,.update12      ! (0_0) if ( (c0 & 2) != 0 )
    fsubd   %f22,D2ON28,%f22    ! (1_1) y_hi -= D2ON28;
.cont12:
    and %g1,%o4,%g1     ! (0_0) c1 &= c3;
    faddd   %f24,%f26,%f12      ! (0_1) res += dtmp1;

    add %i3,stridey,%l2     ! py += stridey
    andcc   %g1,2,%g0       ! (0_0) c1 & 2
    bnz,pn  %icc,.update13      ! (0_0) if ( (c1 & 2) != 0 )
    fmovd   %f18,%f44       ! (3_1) dmax = x;
.cont13:
    fpsub32 DC1,%f52,%f10       ! (2_1) dnorm = vis_fpsub32(DC1,dmax);
    add %l1,stridex,%l7     ! px += stridex
    lda [%l2]%asi,%f24      ! (1_0) ((float*)&y)[0] = ((float*)py)[0];

    fmuld   %f58,%f58,%f60      ! (1_1) res = x_hi * x_hi;
    add %l6,stridez,%i5     ! pz += stridez
    lda [%l2+4]%asi,%f25    ! (1_0) ((float*)&y)[1] = ((float*)py)[1];
    faddd   %f56,%f22,%f28      ! (1_1) dtmp2 = y + y_hi;

    fsqrtd  %f12,%f12       ! (0_1) res = sqrt(res);
    lda [%l7]%asi,%f26      ! (1_0) ((float*)&x)[0] = ((float*)px)[0];
    faddd   %f36,%f58,%f6       ! (1_1) dtmp1 = x + x_hi;

    fmuld   %f50,%f10,%f50      ! (2_1) x *= dnorm;
    fsubd   %f36,%f58,%f58      ! (1_1) x_lo = x - x_hi;
    lda [%l7+4]%asi,%f27    ! (1_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f22,%f22,%f2       ! (1_1) dtmp0 = y_hi * y_hi;
    fsubd   %f56,%f22,%f56      ! (1_1) y_lo = y - y_hi;

    fmuld   %f34,%f10,%f34      ! (2_1) y *= dnorm;
    fabsd   %f24,%f54       ! (1_0) y = fabs(y);

    fmuld   %f14,%f4,%f14       ! (3_2) res = dmax * res;
    fabsd   %f26,%f36       ! (1_0) x = fabs(x);
    st  %f14,[%i5]      ! (3_2) ((float*)pz)[0] = ((float*)&res)[0];

    fmuld   %f6,%f58,%f10       ! (1_1) dtmp1 *= x_lo;
    st  %f15,[%i5+4]        ! (3_2) ((float*)pz)[1] = ((float*)&res)[1];
    fcmped  %fcc0,%f30,%f44     ! (3_1) dmax ? y

    fmuld   %f28,%f56,%f26      ! (1_1) dtmp2 *= y_lo;

    fmovdg  %fcc0,%f30,%f44     ! (3_1) if ( dmax < y ) dmax = y;

    faddd   %f50,D2ON28,%f58    ! (2_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f36,%g1    ! (1_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f34,D2ON28,%f22    ! (2_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f54,%g5    ! (1_0) c2 = vis_fcmple32(DC1,y);

    faddd   %f60,%f2,%f24       ! (1_1) res += dtmp0;
    fcmpgt32    DC2,%f36,%o5    ! (1_0) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f10,%f26,%f28      ! (1_1) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f54,%o1    ! (1_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f44,DC0,%f14       ! (3_1) dmax = vis_fand(dmax,DC0);

    or  %g1,%g5,%g1     ! (1_0) c0 |= c2;
    fsubd   %f58,D2ON28,%f44    ! (2_1) x_hi -= D2ON28;

    andcc   %g1,2,%g0       ! (1_0) c0 & 2
    bnz,pn  %icc,.update14      ! (1_0) if ( (c0 & 2) != 0 )
    fsubd   %f22,D2ON28,%f58    ! (2_1) y_hi -= D2ON28;
.cont14:
    and %o5,%o1,%o5     ! (1_0) c1 &= c3;
    faddd   %f24,%f28,%f26      ! (1_1) res += dtmp1;

    add %l2,stridey,%i3     ! py += stridey
    andcc   %o5,2,%g0       ! (1_0) c1 & 2
    bnz,pn  %icc,.update15      ! (1_0) if ( (c1 & 2) != 0 )
    fmovd   %f20,%f4        ! (0_0) dmax = x;
.cont15:
    fpsub32 DC1,%f14,%f10       ! (3_1) dnorm = vis_fpsub32(DC1,dmax);
    add %l7,stridex,%o1     ! px += stridex
    lda [%i3]%asi,%f28      ! (2_0) ((float*)&y)[0] = ((float*)py)[0];

    fmuld   %f44,%f44,%f2       ! (2_1) res = x_hi * x_hi;
    add %i5,stridez,%g5     ! pz += stridez
    lda [%i3+4]%asi,%f29    ! (2_0) ((float*)&y)[1] = ((float*)py)[1];
    faddd   %f34,%f58,%f60      ! (2_1) dtmp2 = y + y_hi;

    fsqrtd  %f26,%f24       ! (1_1) res = sqrt(res);
    lda [%o1]%asi,%f26      ! (2_0) ((float*)&x)[0] = ((float*)px)[0];
    faddd   %f50,%f44,%f56      ! (2_1) dtmp1 = x + x_hi;

    fmuld   %f18,%f10,%f6       ! (3_1) x *= dnorm;
    fsubd   %f50,%f44,%f18      ! (2_1) x_lo = x - x_hi;
    lda [%o1+4]%asi,%f27    ! (2_0) ((float*)&x)[1] = ((float*)px)[1];

    fmuld   %f58,%f58,%f44      ! (2_1) dtmp0 = y_hi * y_hi;
    fsubd   %f34,%f58,%f22      ! (2_1) y_lo = y - y_hi;

    fmuld   %f30,%f10,%f58      ! (3_1) y *= dnorm;
    fabsd   %f28,%f34       ! (2_0) y = fabs(y);

    fmuld   %f16,%f12,%f16      ! (0_1) res = dmax * res;
    fabsd   %f26,%f50       ! (2_0) x = fabs(x);
    st  %f16,[%g5]      ! (0_1) ((float*)pz)[0] = ((float*)&res)[0];

    fmuld   %f56,%f18,%f10      ! (2_1) dtmp1 *= x_lo;
    st  %f17,[%g5+4]        ! (0_1) ((float*)pz)[1] = ((float*)&res)[1];
    fcmped  %fcc1,%f40,%f4      ! (0_0) dmax ? y

    fmuld   %f60,%f22,%f12      ! (2_1) dtmp2 *= y_lo;

    fmovdg  %fcc1,%f40,%f4      ! (0_0) if ( dmax < y ) dmax = y;

    faddd   %f6,D2ON28,%f56     ! (3_1) x_hi = x + D2ON28;
    fcmple32    DC1,%f50,%o3    ! (2_0) c0 = vis_fcmple32(DC1,x);

    faddd   %f58,D2ON28,%f28    ! (3_1) y_hi = y + D2ON28;
    fcmple32    DC1,%f34,%o0    ! (2_0) c2 = vis_fcmple32(DC1,y);

    faddd   %f2,%f44,%f30       ! (2_1) res += dtmp0;
    fcmpgt32    DC2,%f50,%o4    ! (2_0) c1 = vis_fcmpgt32(DC2,x);

    faddd   %f10,%f12,%f26      ! (2_1) dtmp1 += dtmp2;
    fcmpgt32    DC2,%f34,%o5    ! (2_0) c3 = vis_fcmpgt32(DC2,y);

    fand    %f4,DC0,%f16        ! (0_0) dmax = vis_fand(dmax,DC0);

    or  %o3,%o0,%o3     ! (2_0) c0 |= c2;
    fsubd   %f56,D2ON28,%f18    ! (3_1) x_hi -= D2ON28;

    andcc   %o3,2,%g0       ! (2_0) c0 & 2
    bnz,pn  %icc,.update16      ! (2_0) if ( (c0 & 2) != 0 )
    fsubd   %f28,D2ON28,%f4     ! (3_1) y_hi -= D2ON28;
.cont16:
    and %o4,%o5,%o4     ! (2_0) c1 &= c3;
    faddd   %f30,%f26,%f12      ! (2_1) res += dtmp1;

    add %i3,stridey,%l4     ! py += stridey
    andcc   %o4,2,%g0       ! (2_0) c1 & 2
    bnz,pn  %icc,.update17      ! (2_0) if ( (c1 & 2) != 0 )
    fmovd   %f36,%f56       ! (1_0) dmax = x;
.cont17:
    lda [%l4]%asi,%f30      ! (3_0) ((float*)&y)[0] = ((float*)py)[0];
    add %o1,stridex,%l2     ! px += stridex
    fpsub32 DC1,%f16,%f44       ! (0_0) dnorm = vis_fpsub32(DC1,dmax);

    fmuld   %f18,%f18,%f60      ! (3_1) res = x_hi * x_hi;
    add %g5,stridez,%i5     ! pz += stridez
    lda [%l4+4]%asi,%f31    ! (3_0) ((float*)&y)[1] = ((float*)py)[1];
    faddd   %f58,%f4,%f32       ! (3_1) dtmp2 = y + y_hi;

    fsqrtd  %f12,%f12       ! (2_1) res = sqrt(res);
    subcc   counter,4,counter   ! counter -= 4;
    bpos,pt %icc,.main_loop
    faddd   %f6,%f18,%f28       ! (3_1) dtmp1 = x + x_hi;

    add counter,4,counter

.tail:
    subcc   counter,1,counter
    bneg,a  .begin
    nop

    fsubd   %f6,%f18,%f20       ! (3_2) x_lo = x - x_hi;

    fmuld   %f4,%f4,%f22        ! (3_2) dtmp0 = y_hi * y_hi;
    fsubd   %f58,%f4,%f58       ! (3_2) y_lo = y - y_hi;

    fmuld   %f38,%f24,%f10      ! (1_2) res = dmax * res;
    st  %f10,[%i5]      ! (1_2) ((float*)pz)[0] = ((float*)&res)[0];

    st  %f11,[%i5+4]        ! (1_2) ((float*)pz)[1] = ((float*)&res)[1];

    subcc   counter,1,counter
    bneg,a  .begin
    add %i5,stridez,%i5

    fmuld   %f28,%f20,%f28      ! (3_2) dtmp1 *= x_lo;

    fmuld   %f32,%f58,%f24      ! (3_2) dtmp2 *= y_lo;

    faddd   %f60,%f22,%f22      ! (3_2) res += dtmp0;

    faddd   %f28,%f24,%f26      ! (3_2) dtmp1 += dtmp2;

    faddd   %f22,%f26,%f28      ! (3_2) res += dtmp1;

    add %i5,stridez,%l6     ! pz += stridez

    fsqrtd  %f28,%f4        ! (3_2) res = sqrt(res);
    add %l2,stridex,%l1     ! px += stridex

    fmuld   %f52,%f12,%f12      ! (2_2) res = dmax * res;
    st  %f12,[%l6]      ! (2_2) ((float*)pz)[0] = ((float*)&res)[0];

    st  %f13,[%l6+4]        ! (2_2) ((float*)pz)[1] = ((float*)&res)[1];

    subcc   counter,1,counter
    bneg    .begin
    add %l6,stridez,%i5

    fmuld   %f14,%f4,%f14       ! (3_2) res = dmax * res;
    st  %f14,[%i5]      ! (3_2) ((float*)pz)[0] = ((float*)&res)[0];

    st  %f15,[%i5+4]        ! (3_2) ((float*)pz)[1] = ((float*)&res)[1];

    ba  .begin
    add %i5,stridez,%i5

    .align  16
.spec0:
    ld  [%i1+4],%l1     ! lx = ((int*)px)[1];
    cmp %o2,%o4         ! j0 ? 0x7ff00000
    bge,pn  %icc,1f         ! if ( j0 >= 0x7ff00000 )
    fabsd   %f26,%f26       ! x = fabs(x);

    sub %o0,%l4,%o0     ! diff = hy - hx;
    fabsd   %f24,%f24       ! y = fabs(y);

    sra %o0,31,%l4      ! j0 = diff >> 31;

    xor %o0,%l4,%o0     ! diff ^ j0

    sethi   %hi(0x03600000),%l1
    sub %o0,%l4,%o0     ! (diff ^ j0) - j0

    cmp %o0,%l1         ! ((diff ^ j0) - j0) ? 0x03600000
    bge,a,pn    %icc,2f     ! if ( ((diff ^ j0) - j0) >= 0x03600000 )
    faddd   %f26,%f24,%f24      ! *pz = x + y

    fmuld   %f26,DC2,%f36       ! (1_1) x *= dnorm;

    fmuld   %f24,DC2,%f56       ! (1_1) y *= dnorm;

    faddd   %f36,D2ON28,%f58    ! (1_1) x_hi = x + D2ON28;

    faddd   %f56,D2ON28,%f22    ! (1_1) y_hi = y + D2ON28;

    fsubd   %f58,D2ON28,%f58    ! (1_1) x_hi -= D2ON28;

    fsubd   %f22,D2ON28,%f22    ! (1_1) y_hi -= D2ON28;

    fmuld   %f58,%f58,%f60      ! (1_1) res = x_hi * x_hi;
    faddd   %f56,%f22,%f28      ! (1_1) dtmp2 = y + y_hi;

    faddd   %f36,%f58,%f6       ! (1_1) dtmp1 = x + x_hi;

    fsubd   %f36,%f58,%f58      ! (1_1) x_lo = x - x_hi;

    fmuld   %f22,%f22,%f2       ! (1_1) dtmp0 = y_hi * y_hi;
    fsubd   %f56,%f22,%f56      ! (1_1) y_lo = y - y_hi;

    fmuld   %f6,%f58,%f10       ! (1_1) dtmp1 *= x_lo;

    fmuld   %f28,%f56,%f26      ! (1_1) dtmp2 *= y_lo;

    faddd   %f60,%f2,%f24       ! (1_1) res += dtmp0;

    faddd   %f10,%f26,%f28      ! (1_1) dtmp1 += dtmp2;

    faddd   %f24,%f28,%f26      ! (1_1) res += dtmp1;

    fsqrtd  %f26,%f24       ! (1_1) res = sqrt(res);

    fmuld   DC3,%f24,%f24       ! (1_2) res = dmax * res;
2:
    add %i3,stridey,%i3
    add %i1,stridex,%i1
    st  %f24,[%i5]      ! ((float*)pz)[0] = ((float*)&res)[0];
    st  %f25,[%i5+4]        ! ((float*)pz)[1] = ((float*)&res)[1];

    add %i5,stridez,%i5
    ba  .begin1
    sub counter,1,counter

1:
    ld  [%i3+4],%l2     ! ly = ((int*)py)[1];
    cmp %o0,%o4         ! hx ? 0x7ff00000
    bne,pn  %icc,1f         ! if ( hx != 0x7ff00000 )
    fabsd   %f24,%f24       ! y = fabs(y);

    cmp %l1,0           ! lx ? 0
    be,pn   %icc,2f         ! if ( lx == 0 )
    nop
1:
    cmp %l4,%o4         ! hy ? 0x7ff00000
    bne,pn  %icc,1f         ! if ( hy != 0x7ff00000 )
    nop

    cmp %l2,0           ! ly ? 0
    be,pn   %icc,2f         ! if ( ly == 0 )
    nop
1:
    add %i3,stridey,%i3
    add %i1,stridex,%i1
    fmuld   %f26,%f24,%f24      ! res = x * y;
    st  %f24,[%i5]      ! ((float*)pz)[0] = ((float*)&res)[0];

    st  %f25,[%i5+4]        ! ((float*)pz)[1] = ((float*)&res)[1];

    add %i5,stridez,%i5
    ba  .begin1
    sub counter,1,counter

2:
    add %i1,stridex,%i1
    add %i3,stridey,%i3
    st  DC0_HI,[%i5]        ! ((int*)pz)[0] = 0x7ff00000;
    st  DC0_LO,[%i5+4]      ! ((int*)pz)[1] = 0;
    fcmpd   %f26,%f24       ! x ? y

    add %i5,stridez,%i5
    ba  .begin1
    sub counter,1,counter

    .align  16
.spec1:
    fmuld   %f26,DC3,%f36       ! (1_1) x *= dnorm;

    fmuld   %f24,DC3,%f56       ! (1_1) y *= dnorm;

    faddd   %f36,D2ON28,%f58    ! (1_1) x_hi = x + D2ON28;

    faddd   %f56,D2ON28,%f22    ! (1_1) y_hi = y + D2ON28;

    fsubd   %f58,D2ON28,%f58    ! (1_1) x_hi -= D2ON28;

    fsubd   %f22,D2ON28,%f22    ! (1_1) y_hi -= D2ON28;

    fmuld   %f58,%f58,%f60      ! (1_1) res = x_hi * x_hi;
    faddd   %f56,%f22,%f28      ! (1_1) dtmp2 = y + y_hi;

    faddd   %f36,%f58,%f6       ! (1_1) dtmp1 = x + x_hi;

    fsubd   %f36,%f58,%f58      ! (1_1) x_lo = x - x_hi;

    fmuld   %f22,%f22,%f2       ! (1_1) dtmp0 = y_hi * y_hi;
    fsubd   %f56,%f22,%f56      ! (1_1) y_lo = y - y_hi;

    fmuld   %f6,%f58,%f10       ! (1_1) dtmp1 *= x_lo;

    fmuld   %f28,%f56,%f26      ! (1_1) dtmp2 *= y_lo;

    faddd   %f60,%f2,%f24       ! (1_1) res += dtmp0;

    faddd   %f10,%f26,%f28      ! (1_1) dtmp1 += dtmp2;

    faddd   %f24,%f28,%f26      ! (1_1) res += dtmp1;

    fsqrtd  %f26,%f24       ! (1_1) res = sqrt(res);

    fmuld   DC2,%f24,%f24       ! (1_2) res = dmax * res;

    add %i3,stridey,%i3
    add %i1,stridex,%i1
    st  %f24,[%i5]      ! ((float*)pz)[0] = ((float*)&res)[0];

    st  %f25,[%i5+4]        ! ((float*)pz)[1] = ((float*)&res)[1];
    add %i5,stridez,%i5
    ba  .begin1
    sub counter,1,counter

    .align  16
.update0:
    fzero   %f50
    cmp counter,1
    ble .cont0
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,1,tmp_counter
    ba  .cont0
    mov 1,counter

    .align  16
.update1:
    fzero   %f50
    cmp counter,1
    ble .cont1
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,1,tmp_counter
    ba  .cont1
    mov 1,counter

    .align  16
.update2:
    fzero   %f18
    cmp counter,2
    ble .cont2
    fzero   %f30

    mov %l2,tmp_px
    mov %l4,tmp_py

    sub counter,2,tmp_counter
    ba  .cont1
    mov 2,counter

    .align  16
.update3:
    fzero   %f18
    cmp counter,2
    ble .cont3
    fzero   %f30

    mov %l2,tmp_px
    mov %l4,tmp_py

    sub counter,2,tmp_counter
    ba  .cont3
    mov 2,counter

    .align  16
.update4:
    fzero   %f20
    cmp counter,3
    ble .cont4
    fzero   %f40

    mov %l1,tmp_px
    mov %i3,tmp_py

    sub counter,3,tmp_counter
    ba  .cont4
    mov 3,counter

    .align  16
.update5:
    fzero   %f20
    cmp counter,3
    ble .cont5
    fzero   %f40

    mov %l1,tmp_px
    mov %i3,tmp_py

    sub counter,3,tmp_counter
    ba  .cont5
    mov 3,counter

    .align  16
.update6:
    fzero   %f36
    cmp counter,4
    ble .cont6
    fzero   %f54

    mov %l7,tmp_px
    mov %l2,tmp_py

    sub counter,4,tmp_counter
    ba  .cont6
    mov 4,counter

    .align  16
.update7:
    fzero   %f36
    cmp counter,4
    ble .cont7
    fzero   %f54

    mov %l7,tmp_px
    mov %l2,tmp_py

    sub counter,4,tmp_counter
    ba  .cont7
    mov 4,counter

    .align  16
.update8:
    fzero   %f50
    cmp counter,5
    ble .cont8
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,5,tmp_counter
    ba  .cont8
    mov 5,counter

    .align  16
.update9:
    fzero   %f50
    cmp counter,5
    ble .cont9
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,5,tmp_counter
    ba  .cont9
    mov 5,counter


    .align  16
.update10:
    fzero   %f18
    cmp counter,2
    ble .cont10
    fzero   %f30

    mov %l2,tmp_px
    mov %l4,tmp_py

    sub counter,2,tmp_counter
    ba  .cont10
    mov 2,counter

    .align  16
.update11:
    fzero   %f18
    cmp counter,2
    ble .cont11
    fzero   %f30

    mov %l2,tmp_px
    mov %l4,tmp_py

    sub counter,2,tmp_counter
    ba  .cont11
    mov 2,counter

    .align  16
.update12:
    fzero   %f20
    cmp counter,3
    ble .cont12
    fzero   %f40

    mov %l1,tmp_px
    mov %i3,tmp_py

    sub counter,3,tmp_counter
    ba  .cont12
    mov 3,counter

    .align  16
.update13:
    fzero   %f20
    cmp counter,3
    ble .cont13
    fzero   %f40

    mov %l1,tmp_px
    mov %i3,tmp_py

    sub counter,3,tmp_counter
    ba  .cont13
    mov 3,counter

    .align  16
.update14:
    fzero   %f54
    cmp counter,4
    ble .cont14
    fzero   %f36

    mov %l7,tmp_px
    mov %l2,tmp_py

    sub counter,4,tmp_counter
    ba  .cont14
    mov 4,counter

    .align  16
.update15:
    fzero   %f54
    cmp counter,4
    ble .cont15
    fzero   %f36

    mov %l7,tmp_px
    mov %l2,tmp_py

    sub counter,4,tmp_counter
    ba  .cont15
    mov 4,counter

    .align  16
.update16:
    fzero   %f50
    cmp counter,5
    ble .cont16
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,5,tmp_counter
    ba  .cont16
    mov 5,counter

    .align  16
.update17:
    fzero   %f50
    cmp counter,5
    ble .cont17
    fzero   %f34

    mov %o1,tmp_px
    mov %i3,tmp_py

    sub counter,5,tmp_counter
    ba  .cont17
    mov 5,counter

    .align  16
.exit:
    ret
    restore
    SET_SIZE(__vhypot)