src/crypto/internal/fips140/subtle/xor_loong64.s - go.git - Git at Google

 // Copyright 2024 The Go Authors. All rights reserved.
 // Use of this source code is governed by a BSD-style
 // license that can be found in the LICENSE file.

 //go:build !purego

 #include "textflag.h"

 #define SMALL_TAIL \
 	SGTU	$2, R7, R8; \
 	BNE	R8, xor_1; \
 	SGTU	$4, R7, R8; \
 	BNE	R8, xor_2; \
 	SGTU	$8, R7, R8; \
 	BNE	R8, xor_4; \
 	SGTU	$16, R7, R8; \
 	BNE	R8, xor_8; \

 #define SMALL \
 xor_8_check:; \
 	SGTU	$8, R7, R8; \
 	BNE	R8, xor_4_check; \
 xor_8:; \
 	SUBV	$8, R7; \
 	MOVV	(R5), R10; \
 	MOVV	(R6), R11; \
 	XOR	R10, R11; \
 	MOVV	R11, (R4); \
 	ADDV	$8, R5; \
 	ADDV	$8, R6; \
 	ADDV	$8, R4; \
 	BEQ	R7, R0, end; \
 xor_4_check:; \
 	SGTU	$4, R7, R8; \
 	BNE	R8, xor_2_check; \
 xor_4:; \
 	SUBV	$4, R7; \
 	MOVW	(R5), R10; \
 	MOVW	(R6), R11; \
 	XOR	R10, R11; \
 	MOVW	R11, (R4); \
 	ADDV	$4, R5; \
 	ADDV	$4, R6; \
 	ADDV	$4, R4; \
 	BEQ	R7, R0, end; \
 xor_2_check:; \
 	SGTU	$2, R7, R8; \
 	BNE	R8, xor_1; \
 xor_2:; \
 	SUBV	$2, R7; \
 	MOVH	(R5), R10; \
 	MOVH	(R6), R11; \
 	XOR	R10, R11; \
 	MOVH	R11, (R4); \
 	ADDV	$2, R5; \
 	ADDV	$2, R6; \
 	ADDV	$2, R4; \
 	BEQ	R7, R0, end; \
 xor_1:; \
 	MOVB	(R5), R10; \
 	MOVB	(R6), R11; \
 	XOR	R10, R11; \
 	MOVB	R11, (R4); \

 // func xorBytesBasic(dst, a, b *byte, n int)
 TEXT ·xorBytesBasic(SB), NOSPLIT, $0
 	MOVV	dst+0(FP), R4
 	MOVV	a+8(FP), R5
 	MOVV	b+16(FP), R6
 	MOVV	n+24(FP), R7

 	SMALL_TAIL

 xor_64_check:
 	SGTU	$64, R7, R8
 	BNE	R8, xor_32_check
 xor_64_loop:
 	SUBV	$64, R7
 	MOVV	(R5), R10
 	MOVV	8(R5), R11
 	MOVV	16(R5), R12
 	MOVV	24(R5), R13
 	MOVV	(R6), R14
 	MOVV	8(R6), R15
 	MOVV	16(R6), R16
 	MOVV	24(R6), R17
 	XOR	R10, R14
 	XOR	R11, R15
 	XOR	R12, R16
 	XOR	R13, R17
 	MOVV	R14, (R4)
 	MOVV	R15, 8(R4)
 	MOVV	R16, 16(R4)
 	MOVV	R17, 24(R4)
 	MOVV	32(R5), R10
 	MOVV	40(R5), R11
 	MOVV	48(R5), R12
 	MOVV	56(R5), R13
 	MOVV	32(R6), R14
 	MOVV	40(R6), R15
 	MOVV	48(R6), R16
 	MOVV	56(R6), R17
 	XOR	R10, R14
 	XOR	R11, R15
 	XOR	R12, R16
 	XOR	R13, R17
 	MOVV	R14, 32(R4)
 	MOVV	R15, 40(R4)
 	MOVV	R16, 48(R4)
 	MOVV	R17, 56(R4)
 	SGTU	$64, R7, R8
 	ADDV	$64, R5
 	ADDV	$64, R6
 	ADDV	$64, R4
 	BEQ	R8, xor_64_loop
 	BEQ	R7, end

 xor_32_check:
 	SGTU	$32, R7, R8
 	BNE	R8, xor_16_check
 xor_32:
 	SUBV	$32, R7
 	MOVV	(R5), R10
 	MOVV	8(R5), R11
 	MOVV	16(R5), R12
 	MOVV	24(R5), R13
 	MOVV	(R6), R14
 	MOVV	8(R6), R15
 	MOVV	16(R6), R16
 	MOVV	24(R6), R17
 	XOR	R10, R14
 	XOR	R11, R15
 	XOR	R12, R16
 	XOR	R13, R17
 	MOVV	R14, (R4)
 	MOVV	R15, 8(R4)
 	MOVV	R16, 16(R4)
 	MOVV	R17, 24(R4)
 	ADDV	$32, R5
 	ADDV	$32, R6
 	ADDV	$32, R4
 	BEQ	R7, R0, end

 xor_16_check:
 	SGTU	$16, R7, R8
 	BNE	R8, xor_8_check
 xor_16:
 	SUBV	$16, R7
 	MOVV	(R5), R10
 	MOVV	8(R5), R11
 	MOVV	(R6), R12
 	MOVV	8(R6), R13
 	XOR	R10, R12
 	XOR	R11, R13
 	MOVV	R12, (R4)
 	MOVV	R13, 8(R4)
 	ADDV	$16, R5
 	ADDV	$16, R6
 	ADDV	$16, R4
 	BEQ	R7, R0, end

 	SMALL
 end:
 	RET

 // func xorBytesLSX(dst, a, b *byte, n int)
 TEXT ·xorBytesLSX(SB), NOSPLIT, $0
 	MOVV	dst+0(FP), R4
 	MOVV	a+8(FP), R5
 	MOVV	b+16(FP), R6
 	MOVV	n+24(FP), R7

 	SMALL_TAIL

 xor_128_lsx_check:
 	SGTU	$128, R7, R8
 	BNE	R8, xor_64_lsx_check
 xor_128_lsx_loop:
 	SUBV	$128, R7
 	VMOVQ	(R5), V0
 	VMOVQ	16(R5), V1
 	VMOVQ	32(R5), V2
 	VMOVQ	48(R5), V3
 	VMOVQ	64(R5), V4
 	VMOVQ	80(R5), V5
 	VMOVQ	96(R5), V6
 	VMOVQ	112(R5), V7
 	VMOVQ	(R6), V8
 	VMOVQ	16(R6), V9
 	VMOVQ	32(R6), V10
 	VMOVQ	48(R6), V11
 	VMOVQ	64(R6), V12
 	VMOVQ	80(R6), V13
 	VMOVQ	96(R6), V14
 	VMOVQ	112(R6), V15
 	VXORV	V0, V8, V8
 	VXORV	V1, V9, V9
 	VXORV	V2, V10, V10
 	VXORV	V3, V11, V11
 	VXORV	V4, V12, V12
 	VXORV	V5, V13, V13
 	VXORV	V6, V14, V14
 	VXORV	V7, V15, V15
 	VMOVQ	V8, (R4)
 	VMOVQ	V9, 16(R4)
 	VMOVQ	V10, 32(R4)
 	VMOVQ	V11, 48(R4)
 	VMOVQ	V12, 64(R4)
 	VMOVQ	V13, 80(R4)
 	VMOVQ	V14, 96(R4)
 	VMOVQ	V15, 112(R4)
 	SGTU	$128, R7, R8
 	ADDV	$128, R5
 	ADDV	$128, R6
 	ADDV	$128, R4
 	BEQ	R8, xor_128_lsx_loop
 	BEQ	R7, end

 xor_64_lsx_check:
 	SGTU	$64, R7, R8
 	BNE	R8, xor_32_lsx_check
 xor_64_lsx:
 	SUBV	$64, R7
 	VMOVQ	(R5), V0
 	VMOVQ	16(R5), V1
 	VMOVQ	32(R5), V2
 	VMOVQ	48(R5), V3
 	VMOVQ	(R6), V4
 	VMOVQ	16(R6), V5
 	VMOVQ	32(R6), V6
 	VMOVQ	48(R6), V7
 	VXORV	V0, V4, V4
 	VXORV	V1, V5, V5
 	VXORV	V2, V6, V6
 	VXORV	V3, V7, V7
 	VMOVQ	V4, (R4)
 	VMOVQ	V5, 16(R4)
 	VMOVQ	V6, 32(R4)
 	VMOVQ	V7, 48(R4)
 	ADDV	$64, R5
 	ADDV	$64, R6
 	ADDV	$64, R4
 	BEQ	R7, end

 xor_32_lsx_check:
 	SGTU	$32, R7, R8
 	BNE	R8, xor_16_lsx_check
 xor_32_lsx:
 	SUBV	$32, R7
 	VMOVQ	(R5), V0
 	VMOVQ	16(R5), V1
 	VMOVQ	(R6), V2
 	VMOVQ	16(R6), V3
 	VXORV	V0, V2, V2
 	VXORV	V1, V3, V3
 	VMOVQ	V2, (R4)
 	VMOVQ	V3, 16(R4)
 	ADDV	$32, R5
 	ADDV	$32, R6
 	ADDV	$32, R4
 	BEQ	R7, end

 xor_16_lsx_check:
 	SGTU	$16, R7, R8
 	BNE	R8, xor_8_check
 xor_16_lsx:
 	SUBV	$16, R7
 	VMOVQ	(R5), V0
 	VMOVQ	(R6), V1
 	VXORV	V0, V1, V1
 	VMOVQ	V1, (R4)
 	ADDV	$16, R5
 	ADDV	$16, R6
 	ADDV	$16, R4
 	BEQ	R7, end

 	SMALL
 end:
 	RET

 // func xorBytesLASX(dst, a, b *byte, n int)
 TEXT ·xorBytesLASX(SB), NOSPLIT, $0
 	MOVV	dst+0(FP), R4
 	MOVV	a+8(FP), R5
 	MOVV	b+16(FP), R6
 	MOVV	n+24(FP), R7

 	SMALL_TAIL

 xor_256_lasx_check:
 	SGTU	$256, R7, R8
 	BNE	R8, xor_128_lasx_check
 xor_256_lasx_loop:
 	SUBV	$256, R7
 	XVMOVQ	(R5), X0
 	XVMOVQ	32(R5), X1
 	XVMOVQ	64(R5), X2
 	XVMOVQ	96(R5), X3
 	XVMOVQ	128(R5), X4
 	XVMOVQ	160(R5), X5
 	XVMOVQ	192(R5), X6
 	XVMOVQ	224(R5), X7
 	XVMOVQ	(R6), X8
 	XVMOVQ	32(R6), X9
 	XVMOVQ	64(R6), X10
 	XVMOVQ	96(R6), X11
 	XVMOVQ	128(R6), X12
 	XVMOVQ	160(R6), X13
 	XVMOVQ	192(R6), X14
 	XVMOVQ	224(R6), X15
 	XVXORV	X0, X8, X8
 	XVXORV	X1, X9, X9
 	XVXORV	X2, X10, X10
 	XVXORV	X3, X11, X11
 	XVXORV	X4, X12, X12
 	XVXORV	X5, X13, X13
 	XVXORV	X6, X14, X14
 	XVXORV	X7, X15, X15
 	XVMOVQ	X8, (R4)
 	XVMOVQ	X9, 32(R4)
 	XVMOVQ	X10, 64(R4)
 	XVMOVQ	X11, 96(R4)
 	XVMOVQ	X12, 128(R4)
 	XVMOVQ	X13, 160(R4)
 	XVMOVQ	X14, 192(R4)
 	XVMOVQ	X15, 224(R4)
 	SGTU	$256, R7, R8
 	ADDV	$256, R5
 	ADDV	$256, R6
 	ADDV	$256, R4
 	BEQ	R8, xor_256_lasx_loop
 	BEQ	R7, end

 xor_128_lasx_check:
 	SGTU	$128, R7, R8
 	BNE	R8, xor_64_lasx_check
 xor_128_lasx:
 	SUBV	$128, R7
 	XVMOVQ	(R5), X0
 	XVMOVQ	32(R5), X1
 	XVMOVQ	64(R5), X2
 	XVMOVQ	96(R5), X3
 	XVMOVQ	(R6), X4
 	XVMOVQ	32(R6), X5
 	XVMOVQ	64(R6), X6
 	XVMOVQ	96(R6), X7
 	XVXORV	X0, X4, X4
 	XVXORV	X1, X5, X5
 	XVXORV	X2, X6, X6
 	XVXORV	X3, X7, X7
 	XVMOVQ	X4, (R4)
 	XVMOVQ	X5, 32(R4)
 	XVMOVQ	X6, 64(R4)
 	XVMOVQ	X7, 96(R4)
 	ADDV	$128, R5
 	ADDV	$128, R6
 	ADDV	$128, R4
 	BEQ	R7, end

 xor_64_lasx_check:
 	SGTU	$64, R7, R8
 	BNE	R8, xor_32_lasx_check
 xor_64_lasx:
 	SUBV	$64, R7
 	XVMOVQ	(R5), X0
 	XVMOVQ	32(R5), X1
 	XVMOVQ	(R6), X2
 	XVMOVQ	32(R6), X3
 	XVXORV	X0, X2, X2
 	XVXORV	X1, X3, X3
 	XVMOVQ	X2, (R4)
 	XVMOVQ	X3, 32(R4)
 	ADDV	$64, R5
 	ADDV	$64, R6
 	ADDV	$64, R4
 	BEQ	R7, end

 xor_32_lasx_check:
 	SGTU	$32, R7, R8
 	BNE	R8, xor_16_lasx_check
 xor_32_lasx:
 	SUBV	$32, R7
 	XVMOVQ	(R5), X0
 	XVMOVQ	(R6), X1
 	XVXORV	X0, X1, X1
 	XVMOVQ	X1, (R4)
 	ADDV	$32, R5
 	ADDV	$32, R6
 	ADDV	$32, R4
 	BEQ	R7, end

 xor_16_lasx_check:
 	SGTU	$16, R7, R8
 	BNE	R8, xor_8_check
 xor_16_lasx:
 	SUBV	$16, R7
 	VMOVQ	(R5), V0
 	VMOVQ	(R6), V1
 	VXORV	V0, V1, V1
 	VMOVQ	V1, (R4)
 	ADDV	$16, R5
 	ADDV	$16, R6
 	ADDV	$16, R4
 	BEQ	R7, end

 	SMALL
 end:
 	RET
	// Copyright 2024 The Go Authors. All rights reserved.
	// Use of this source code is governed by a BSD-style
	// license that can be found in the LICENSE file.

	//go:build !purego

	#include "textflag.h"

	#define SMALL_TAIL \
	SGTU $2, R7, R8; \
	BNE R8, xor_1; \
	SGTU $4, R7, R8; \
	BNE R8, xor_2; \
	SGTU $8, R7, R8; \
	BNE R8, xor_4; \
	SGTU $16, R7, R8; \
	BNE R8, xor_8; \

	#define SMALL \
	xor_8_check:; \
	SGTU $8, R7, R8; \
	BNE R8, xor_4_check; \
	xor_8:; \
	SUBV $8, R7; \
	MOVV (R5), R10; \
	MOVV (R6), R11; \
	XOR R10, R11; \
	MOVV R11, (R4); \
	ADDV $8, R5; \
	ADDV $8, R6; \
	ADDV $8, R4; \
	BEQ R7, R0, end; \
	xor_4_check:; \
	SGTU $4, R7, R8; \
	BNE R8, xor_2_check; \
	xor_4:; \
	SUBV $4, R7; \
	MOVW (R5), R10; \
	MOVW (R6), R11; \
	XOR R10, R11; \
	MOVW R11, (R4); \
	ADDV $4, R5; \
	ADDV $4, R6; \
	ADDV $4, R4; \
	BEQ R7, R0, end; \
	xor_2_check:; \
	SGTU $2, R7, R8; \
	BNE R8, xor_1; \
	xor_2:; \
	SUBV $2, R7; \
	MOVH (R5), R10; \
	MOVH (R6), R11; \
	XOR R10, R11; \
	MOVH R11, (R4); \
	ADDV $2, R5; \
	ADDV $2, R6; \
	ADDV $2, R4; \
	BEQ R7, R0, end; \
	xor_1:; \
	MOVB (R5), R10; \
	MOVB (R6), R11; \
	XOR R10, R11; \
	MOVB R11, (R4); \

	// func xorBytesBasic(dst, a, b *byte, n int)
	TEXT ·xorBytesBasic(SB), NOSPLIT, $0
	MOVV dst+0(FP), R4
	MOVV a+8(FP), R5
	MOVV b+16(FP), R6
	MOVV n+24(FP), R7

	SMALL_TAIL

	xor_64_check:
	SGTU $64, R7, R8
	BNE R8, xor_32_check
	xor_64_loop:
	SUBV $64, R7
	MOVV (R5), R10
	MOVV 8(R5), R11
	MOVV 16(R5), R12
	MOVV 24(R5), R13
	MOVV (R6), R14
	MOVV 8(R6), R15
	MOVV 16(R6), R16
	MOVV 24(R6), R17
	XOR R10, R14
	XOR R11, R15
	XOR R12, R16
	XOR R13, R17
	MOVV R14, (R4)
	MOVV R15, 8(R4)
	MOVV R16, 16(R4)
	MOVV R17, 24(R4)
	MOVV 32(R5), R10
	MOVV 40(R5), R11
	MOVV 48(R5), R12
	MOVV 56(R5), R13
	MOVV 32(R6), R14
	MOVV 40(R6), R15
	MOVV 48(R6), R16
	MOVV 56(R6), R17
	XOR R10, R14
	XOR R11, R15
	XOR R12, R16
	XOR R13, R17
	MOVV R14, 32(R4)
	MOVV R15, 40(R4)
	MOVV R16, 48(R4)
	MOVV R17, 56(R4)
	SGTU $64, R7, R8
	ADDV $64, R5
	ADDV $64, R6
	ADDV $64, R4
	BEQ R8, xor_64_loop
	BEQ R7, end

	xor_32_check:
	SGTU $32, R7, R8
	BNE R8, xor_16_check
	xor_32:
	SUBV $32, R7
	MOVV (R5), R10
	MOVV 8(R5), R11
	MOVV 16(R5), R12
	MOVV 24(R5), R13
	MOVV (R6), R14
	MOVV 8(R6), R15
	MOVV 16(R6), R16
	MOVV 24(R6), R17
	XOR R10, R14
	XOR R11, R15
	XOR R12, R16
	XOR R13, R17
	MOVV R14, (R4)
	MOVV R15, 8(R4)
	MOVV R16, 16(R4)
	MOVV R17, 24(R4)
	ADDV $32, R5
	ADDV $32, R6
	ADDV $32, R4
	BEQ R7, R0, end

	xor_16_check:
	SGTU $16, R7, R8
	BNE R8, xor_8_check
	xor_16:
	SUBV $16, R7
	MOVV (R5), R10
	MOVV 8(R5), R11
	MOVV (R6), R12
	MOVV 8(R6), R13
	XOR R10, R12
	XOR R11, R13
	MOVV R12, (R4)
	MOVV R13, 8(R4)
	ADDV $16, R5
	ADDV $16, R6
	ADDV $16, R4
	BEQ R7, R0, end

	SMALL
	end:
	RET

	// func xorBytesLSX(dst, a, b *byte, n int)
	TEXT ·xorBytesLSX(SB), NOSPLIT, $0
	MOVV dst+0(FP), R4
	MOVV a+8(FP), R5
	MOVV b+16(FP), R6
	MOVV n+24(FP), R7

	SMALL_TAIL

	xor_128_lsx_check:
	SGTU $128, R7, R8
	BNE R8, xor_64_lsx_check
	xor_128_lsx_loop:
	SUBV $128, R7
	VMOVQ (R5), V0
	VMOVQ 16(R5), V1
	VMOVQ 32(R5), V2
	VMOVQ 48(R5), V3
	VMOVQ 64(R5), V4
	VMOVQ 80(R5), V5
	VMOVQ 96(R5), V6
	VMOVQ 112(R5), V7
	VMOVQ (R6), V8
	VMOVQ 16(R6), V9
	VMOVQ 32(R6), V10
	VMOVQ 48(R6), V11
	VMOVQ 64(R6), V12
	VMOVQ 80(R6), V13
	VMOVQ 96(R6), V14
	VMOVQ 112(R6), V15
	VXORV V0, V8, V8
	VXORV V1, V9, V9
	VXORV V2, V10, V10
	VXORV V3, V11, V11
	VXORV V4, V12, V12
	VXORV V5, V13, V13
	VXORV V6, V14, V14
	VXORV V7, V15, V15
	VMOVQ V8, (R4)
	VMOVQ V9, 16(R4)
	VMOVQ V10, 32(R4)
	VMOVQ V11, 48(R4)
	VMOVQ V12, 64(R4)
	VMOVQ V13, 80(R4)
	VMOVQ V14, 96(R4)
	VMOVQ V15, 112(R4)
	SGTU $128, R7, R8
	ADDV $128, R5
	ADDV $128, R6
	ADDV $128, R4
	BEQ R8, xor_128_lsx_loop
	BEQ R7, end

	xor_64_lsx_check:
	SGTU $64, R7, R8
	BNE R8, xor_32_lsx_check
	xor_64_lsx:
	SUBV $64, R7
	VMOVQ (R5), V0
	VMOVQ 16(R5), V1
	VMOVQ 32(R5), V2
	VMOVQ 48(R5), V3
	VMOVQ (R6), V4
	VMOVQ 16(R6), V5
	VMOVQ 32(R6), V6
	VMOVQ 48(R6), V7
	VXORV V0, V4, V4
	VXORV V1, V5, V5
	VXORV V2, V6, V6
	VXORV V3, V7, V7
	VMOVQ V4, (R4)
	VMOVQ V5, 16(R4)
	VMOVQ V6, 32(R4)
	VMOVQ V7, 48(R4)
	ADDV $64, R5
	ADDV $64, R6
	ADDV $64, R4
	BEQ R7, end

	xor_32_lsx_check:
	SGTU $32, R7, R8
	BNE R8, xor_16_lsx_check
	xor_32_lsx:
	SUBV $32, R7
	VMOVQ (R5), V0
	VMOVQ 16(R5), V1
	VMOVQ (R6), V2
	VMOVQ 16(R6), V3
	VXORV V0, V2, V2
	VXORV V1, V3, V3
	VMOVQ V2, (R4)
	VMOVQ V3, 16(R4)
	ADDV $32, R5
	ADDV $32, R6
	ADDV $32, R4
	BEQ R7, end

	xor_16_lsx_check:
	SGTU $16, R7, R8
	BNE R8, xor_8_check
	xor_16_lsx:
	SUBV $16, R7
	VMOVQ (R5), V0
	VMOVQ (R6), V1
	VXORV V0, V1, V1
	VMOVQ V1, (R4)
	ADDV $16, R5
	ADDV $16, R6
	ADDV $16, R4
	BEQ R7, end

	SMALL
	end:
	RET

	// func xorBytesLASX(dst, a, b *byte, n int)
	TEXT ·xorBytesLASX(SB), NOSPLIT, $0
	MOVV dst+0(FP), R4
	MOVV a+8(FP), R5
	MOVV b+16(FP), R6
	MOVV n+24(FP), R7

	SMALL_TAIL

	xor_256_lasx_check:
	SGTU $256, R7, R8
	BNE R8, xor_128_lasx_check
	xor_256_lasx_loop:
	SUBV $256, R7
	XVMOVQ (R5), X0
	XVMOVQ 32(R5), X1
	XVMOVQ 64(R5), X2
	XVMOVQ 96(R5), X3
	XVMOVQ 128(R5), X4
	XVMOVQ 160(R5), X5
	XVMOVQ 192(R5), X6
	XVMOVQ 224(R5), X7
	XVMOVQ (R6), X8
	XVMOVQ 32(R6), X9
	XVMOVQ 64(R6), X10
	XVMOVQ 96(R6), X11
	XVMOVQ 128(R6), X12
	XVMOVQ 160(R6), X13
	XVMOVQ 192(R6), X14
	XVMOVQ 224(R6), X15
	XVXORV X0, X8, X8
	XVXORV X1, X9, X9
	XVXORV X2, X10, X10
	XVXORV X3, X11, X11
	XVXORV X4, X12, X12
	XVXORV X5, X13, X13
	XVXORV X6, X14, X14
	XVXORV X7, X15, X15
	XVMOVQ X8, (R4)
	XVMOVQ X9, 32(R4)
	XVMOVQ X10, 64(R4)
	XVMOVQ X11, 96(R4)
	XVMOVQ X12, 128(R4)
	XVMOVQ X13, 160(R4)
	XVMOVQ X14, 192(R4)
	XVMOVQ X15, 224(R4)
	SGTU $256, R7, R8
	ADDV $256, R5
	ADDV $256, R6
	ADDV $256, R4
	BEQ R8, xor_256_lasx_loop
	BEQ R7, end

	xor_128_lasx_check:
	SGTU $128, R7, R8
	BNE R8, xor_64_lasx_check
	xor_128_lasx:
	SUBV $128, R7
	XVMOVQ (R5), X0
	XVMOVQ 32(R5), X1
	XVMOVQ 64(R5), X2
	XVMOVQ 96(R5), X3
	XVMOVQ (R6), X4
	XVMOVQ 32(R6), X5
	XVMOVQ 64(R6), X6
	XVMOVQ 96(R6), X7
	XVXORV X0, X4, X4
	XVXORV X1, X5, X5
	XVXORV X2, X6, X6
	XVXORV X3, X7, X7
	XVMOVQ X4, (R4)
	XVMOVQ X5, 32(R4)
	XVMOVQ X6, 64(R4)
	XVMOVQ X7, 96(R4)
	ADDV $128, R5
	ADDV $128, R6
	ADDV $128, R4
	BEQ R7, end

	xor_64_lasx_check:
	SGTU $64, R7, R8
	BNE R8, xor_32_lasx_check
	xor_64_lasx:
	SUBV $64, R7
	XVMOVQ (R5), X0
	XVMOVQ 32(R5), X1
	XVMOVQ (R6), X2
	XVMOVQ 32(R6), X3
	XVXORV X0, X2, X2
	XVXORV X1, X3, X3
	XVMOVQ X2, (R4)
	XVMOVQ X3, 32(R4)
	ADDV $64, R5
	ADDV $64, R6
	ADDV $64, R4
	BEQ R7, end

	xor_32_lasx_check:
	SGTU $32, R7, R8
	BNE R8, xor_16_lasx_check
	xor_32_lasx:
	SUBV $32, R7
	XVMOVQ (R5), X0
	XVMOVQ (R6), X1
	XVXORV X0, X1, X1
	XVMOVQ X1, (R4)
	ADDV $32, R5
	ADDV $32, R6
	ADDV $32, R4
	BEQ R7, end

	xor_16_lasx_check:
	SGTU $16, R7, R8
	BNE R8, xor_8_check
	xor_16_lasx:
	SUBV $16, R7
	VMOVQ (R5), V0
	VMOVQ (R6), V1
	VXORV V0, V1, V1
	VMOVQ V1, (R4)
	ADDV $16, R5
	ADDV $16, R6
	ADDV $16, R4
	BEQ R7, end

	SMALL
	end:
	RET