src/math/big/arith_arm64.s - go.git - Git at Google

 // Copyright 2025 The Go Authors. All rights reserved.
 // Use of this source code is governed by a BSD-style
 // license that can be found in the LICENSE file.

 // Code generated by 'go generate' (with ./internal/asmgen). DO NOT EDIT.

 //go:build !math_big_pure_go

 #include "textflag.h"

 // func addVV(z, x, y []Word) (c Word)
 TEXT ·addVV(SB), NOSPLIT, $0
 	MOVD z_len+8(FP), R0
 	MOVD x_base+24(FP), R1
 	MOVD y_base+48(FP), R2
 	MOVD z_base+0(FP), R3
 	// compute unrolled loop lengths
 	AND $3, R0, R4
 	LSR $2, R0
 	ADDS ZR, R0	// clear carry
 loop1:
 	CBZ R4, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.P 8(R1), R5
 	MOVD.P 8(R2), R6
 	ADCS R6, R5
 	MOVD.P R5, 8(R3)
 	SUB $1, R4
 	CBNZ R4, loop1cont
 loop1done:
 loop4:
 	CBZ R0, loop4done
 loop4cont:
 	// unroll 4X
 	LDP.P 32(R1), (R4, R5)
 	LDP -16(R1), (R6, R7)
 	LDP.P 32(R2), (R8, R9)
 	LDP -16(R2), (R10, R11)
 	ADCS R8, R4
 	ADCS R9, R5
 	ADCS R10, R6
 	ADCS R11, R7
 	STP.P (R4, R5), 32(R3)
 	STP (R6, R7), -16(R3)
 	SUB $1, R0
 	CBNZ R0, loop4cont
 loop4done:
 	ADC ZR, ZR, R1	// save & convert add carry
 	MOVD R1, c+72(FP)
 	RET

 // func subVV(z, x, y []Word) (c Word)
 TEXT ·subVV(SB), NOSPLIT, $0
 	MOVD z_len+8(FP), R0
 	MOVD x_base+24(FP), R1
 	MOVD y_base+48(FP), R2
 	MOVD z_base+0(FP), R3
 	// compute unrolled loop lengths
 	AND $3, R0, R4
 	LSR $2, R0
 	SUBS ZR, R0	// clear carry
 loop1:
 	CBZ R4, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.P 8(R1), R5
 	MOVD.P 8(R2), R6
 	SBCS R6, R5
 	MOVD.P R5, 8(R3)
 	SUB $1, R4
 	CBNZ R4, loop1cont
 loop1done:
 loop4:
 	CBZ R0, loop4done
 loop4cont:
 	// unroll 4X
 	LDP.P 32(R1), (R4, R5)
 	LDP -16(R1), (R6, R7)
 	LDP.P 32(R2), (R8, R9)
 	LDP -16(R2), (R10, R11)
 	SBCS R8, R4
 	SBCS R9, R5
 	SBCS R10, R6
 	SBCS R11, R7
 	STP.P (R4, R5), 32(R3)
 	STP (R6, R7), -16(R3)
 	SUB $1, R0
 	CBNZ R0, loop4cont
 loop4done:
 	SBC R1, R1	// save carry
 	SUB R1, ZR, R1	// convert sub carry
 	MOVD R1, c+72(FP)
 	RET

 // func lshVU(z, x []Word, s uint) (c Word)
 TEXT ·lshVU(SB), NOSPLIT, $0
 	MOVD z_len+8(FP), R0
 	CBZ R0, ret0
 	MOVD s+48(FP), R1
 	MOVD x_base+24(FP), R2
 	MOVD z_base+0(FP), R3
 	// run loop backward
 	ADD R0<<3, R2, R2
 	ADD R0<<3, R3, R3
 	// shift first word into carry
 	MOVD.W -8(R2), R4
 	MOVD $64, R5
 	SUB R1, R5
 	LSR R5, R4, R6
 	LSL R1, R4
 	MOVD R6, c+56(FP)
 	// shift remaining words
 	SUB $1, R0
 	// compute unrolled loop lengths
 	AND $3, R0, R6
 	LSR $2, R0
 loop1:
 	CBZ R6, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.W -8(R2), R7
 	LSR R5, R7, R8
 	ORR R4, R8
 	LSL R1, R7, R4
 	MOVD.W R8, -8(R3)
 	SUB $1, R6
 	CBNZ R6, loop1cont
 loop1done:
 loop4:
 	CBZ R0, loop4done
 loop4cont:
 	// unroll 4X
 	LDP.W -32(R2), (R9, R8)
 	LDP 16(R2), (R7, R6)
 	LSR R5, R6, R10
 	ORR R4, R10
 	LSL R1, R6, R4
 	LSR R5, R7, R6
 	ORR R4, R6
 	LSL R1, R7, R4
 	LSR R5, R8, R7
 	ORR R4, R7
 	LSL R1, R8, R4
 	LSR R5, R9, R8
 	ORR R4, R8
 	LSL R1, R9, R4
 	STP.W (R8, R7), -32(R3)
 	STP (R6, R10), 16(R3)
 	SUB $1, R0
 	CBNZ R0, loop4cont
 loop4done:
 	// store final shifted bits
 	MOVD.W R4, -8(R3)
 	RET
 ret0:
 	MOVD ZR, c+56(FP)
 	RET

 // func rshVU(z, x []Word, s uint) (c Word)
 TEXT ·rshVU(SB), NOSPLIT, $0
 	MOVD z_len+8(FP), R0
 	CBZ R0, ret0
 	MOVD s+48(FP), R1
 	MOVD x_base+24(FP), R2
 	MOVD z_base+0(FP), R3
 	// shift first word into carry
 	MOVD.P 8(R2), R4
 	MOVD $64, R5
 	SUB R1, R5
 	LSL R5, R4, R6
 	LSR R1, R4
 	MOVD R6, c+56(FP)
 	// shift remaining words
 	SUB $1, R0
 	// compute unrolled loop lengths
 	AND $3, R0, R6
 	LSR $2, R0
 loop1:
 	CBZ R6, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.P 8(R2), R7
 	LSL R5, R7, R8
 	ORR R4, R8
 	LSR R1, R7, R4
 	MOVD.P R8, 8(R3)
 	SUB $1, R6
 	CBNZ R6, loop1cont
 loop1done:
 loop4:
 	CBZ R0, loop4done
 loop4cont:
 	// unroll 4X
 	LDP.P 32(R2), (R6, R7)
 	LDP -16(R2), (R8, R9)
 	LSL R5, R6, R10
 	ORR R4, R10
 	LSR R1, R6, R4
 	LSL R5, R7, R6
 	ORR R4, R6
 	LSR R1, R7, R4
 	LSL R5, R8, R7
 	ORR R4, R7
 	LSR R1, R8, R4
 	LSL R5, R9, R8
 	ORR R4, R8
 	LSR R1, R9, R4
 	STP.P (R10, R6), 32(R3)
 	STP (R7, R8), -16(R3)
 	SUB $1, R0
 	CBNZ R0, loop4cont
 loop4done:
 	// store final shifted bits
 	MOVD.P R4, 8(R3)
 	RET
 ret0:
 	MOVD ZR, c+56(FP)
 	RET

 // func mulAddVWW(z, x []Word, m, a Word) (c Word)
 TEXT ·mulAddVWW(SB), NOSPLIT, $0
 	MOVD m+48(FP), R0
 	MOVD a+56(FP), R1
 	MOVD z_len+8(FP), R2
 	MOVD x_base+24(FP), R3
 	MOVD z_base+0(FP), R4
 	// compute unrolled loop lengths
 	AND $7, R2, R5
 	LSR $3, R2
 loop1:
 	CBZ R5, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.P 8(R3), R6
 	// multiply
 	UMULH R0, R6, R7
 	MUL R0, R6
 	ADDS R1, R6
 	ADC ZR, R7, R1
 	MOVD.P R6, 8(R4)
 	SUB $1, R5
 	CBNZ R5, loop1cont
 loop1done:
 loop8:
 	CBZ R2, loop8done
 loop8cont:
 	// unroll 8X
 	LDP.P 64(R3), (R5, R6)
 	LDP -48(R3), (R7, R8)
 	LDP -32(R3), (R9, R10)
 	LDP -16(R3), (R11, R12)
 	// multiply
 	UMULH R0, R5, R13
 	MUL R0, R5
 	ADDS R1, R5
 	UMULH R0, R6, R14
 	MUL R0, R6
 	ADCS R13, R6
 	UMULH R0, R7, R13
 	MUL R0, R7
 	ADCS R14, R7
 	UMULH R0, R8, R14
 	MUL R0, R8
 	ADCS R13, R8
 	UMULH R0, R9, R13
 	MUL R0, R9
 	ADCS R14, R9
 	UMULH R0, R10, R14
 	MUL R0, R10
 	ADCS R13, R10
 	UMULH R0, R11, R13
 	MUL R0, R11
 	ADCS R14, R11
 	UMULH R0, R12, R14
 	MUL R0, R12
 	ADCS R13, R12
 	ADC ZR, R14, R1
 	STP.P (R5, R6), 64(R4)
 	STP (R7, R8), -48(R4)
 	STP (R9, R10), -32(R4)
 	STP (R11, R12), -16(R4)
 	SUB $1, R2
 	CBNZ R2, loop8cont
 loop8done:
 	MOVD R1, c+64(FP)
 	RET

 // func addMulVVWW(z, x, y []Word, m, a Word) (c Word)
 TEXT ·addMulVVWW(SB), NOSPLIT, $0
 	MOVD m+72(FP), R0
 	MOVD a+80(FP), R1
 	MOVD z_len+8(FP), R2
 	MOVD x_base+24(FP), R3
 	MOVD y_base+48(FP), R4
 	MOVD z_base+0(FP), R5
 	// compute unrolled loop lengths
 	AND $7, R2, R6
 	LSR $3, R2
 loop1:
 	CBZ R6, loop1done
 loop1cont:
 	// unroll 1X
 	MOVD.P 8(R3), R7
 	MOVD.P 8(R4), R8
 	// multiply
 	UMULH R0, R8, R9
 	MUL R0, R8
 	ADDS R1, R8
 	ADC ZR, R9, R1
 	// add
 	ADDS R7, R8
 	ADC ZR, R1
 	MOVD.P R8, 8(R5)
 	SUB $1, R6
 	CBNZ R6, loop1cont
 loop1done:
 loop8:
 	CBZ R2, loop8done
 loop8cont:
 	// unroll 8X
 	LDP.P 64(R3), (R6, R7)
 	LDP -48(R3), (R8, R9)
 	LDP -32(R3), (R10, R11)
 	LDP -16(R3), (R12, R13)
 	LDP.P 64(R4), (R14, R15)
 	LDP -48(R4), (R16, R17)
 	LDP -32(R4), (R19, R20)
 	LDP -16(R4), (R21, R22)
 	// multiply
 	UMULH R0, R14, R23
 	MUL R0, R14
 	ADDS R1, R14
 	UMULH R0, R15, R24
 	MUL R0, R15
 	ADCS R23, R15
 	UMULH R0, R16, R23
 	MUL R0, R16
 	ADCS R24, R16
 	UMULH R0, R17, R24
 	MUL R0, R17
 	ADCS R23, R17
 	UMULH R0, R19, R23
 	MUL R0, R19
 	ADCS R24, R19
 	UMULH R0, R20, R24
 	MUL R0, R20
 	ADCS R23, R20
 	UMULH R0, R21, R23
 	MUL R0, R21
 	ADCS R24, R21
 	UMULH R0, R22, R24
 	MUL R0, R22
 	ADCS R23, R22
 	ADC ZR, R24, R1
 	// add
 	ADDS R6, R14
 	ADCS R7, R15
 	ADCS R8, R16
 	ADCS R9, R17
 	ADCS R10, R19
 	ADCS R11, R20
 	ADCS R12, R21
 	ADCS R13, R22
 	ADC ZR, R1
 	STP.P (R14, R15), 64(R5)
 	STP (R16, R17), -48(R5)
 	STP (R19, R20), -32(R5)
 	STP (R21, R22), -16(R5)
 	SUB $1, R2
 	CBNZ R2, loop8cont
 loop8done:
 	MOVD R1, c+88(FP)
 	RET
	// Copyright 2025 The Go Authors. All rights reserved.
	// Use of this source code is governed by a BSD-style
	// license that can be found in the LICENSE file.

	// Code generated by 'go generate' (with ./internal/asmgen). DO NOT EDIT.

	//go:build !math_big_pure_go

	#include "textflag.h"

	// func addVV(z, x, y []Word) (c Word)
	TEXT ·addVV(SB), NOSPLIT, $0
	MOVD z_len+8(FP), R0
	MOVD x_base+24(FP), R1
	MOVD y_base+48(FP), R2
	MOVD z_base+0(FP), R3
	// compute unrolled loop lengths
	AND $3, R0, R4
	LSR $2, R0
	ADDS ZR, R0 // clear carry
	loop1:
	CBZ R4, loop1done
	loop1cont:
	// unroll 1X
	MOVD.P 8(R1), R5
	MOVD.P 8(R2), R6
	ADCS R6, R5
	MOVD.P R5, 8(R3)
	SUB $1, R4
	CBNZ R4, loop1cont
	loop1done:
	loop4:
	CBZ R0, loop4done
	loop4cont:
	// unroll 4X
	LDP.P 32(R1), (R4, R5)
	LDP -16(R1), (R6, R7)
	LDP.P 32(R2), (R8, R9)
	LDP -16(R2), (R10, R11)
	ADCS R8, R4
	ADCS R9, R5
	ADCS R10, R6
	ADCS R11, R7
	STP.P (R4, R5), 32(R3)
	STP (R6, R7), -16(R3)
	SUB $1, R0
	CBNZ R0, loop4cont
	loop4done:
	ADC ZR, ZR, R1 // save & convert add carry
	MOVD R1, c+72(FP)
	RET

	// func subVV(z, x, y []Word) (c Word)
	TEXT ·subVV(SB), NOSPLIT, $0
	MOVD z_len+8(FP), R0
	MOVD x_base+24(FP), R1
	MOVD y_base+48(FP), R2
	MOVD z_base+0(FP), R3
	// compute unrolled loop lengths
	AND $3, R0, R4
	LSR $2, R0
	SUBS ZR, R0 // clear carry
	loop1:
	CBZ R4, loop1done
	loop1cont:
	// unroll 1X
	MOVD.P 8(R1), R5
	MOVD.P 8(R2), R6
	SBCS R6, R5
	MOVD.P R5, 8(R3)
	SUB $1, R4
	CBNZ R4, loop1cont
	loop1done:
	loop4:
	CBZ R0, loop4done
	loop4cont:
	// unroll 4X
	LDP.P 32(R1), (R4, R5)
	LDP -16(R1), (R6, R7)
	LDP.P 32(R2), (R8, R9)
	LDP -16(R2), (R10, R11)
	SBCS R8, R4
	SBCS R9, R5
	SBCS R10, R6
	SBCS R11, R7
	STP.P (R4, R5), 32(R3)
	STP (R6, R7), -16(R3)
	SUB $1, R0
	CBNZ R0, loop4cont
	loop4done:
	SBC R1, R1 // save carry
	SUB R1, ZR, R1 // convert sub carry
	MOVD R1, c+72(FP)
	RET

	// func lshVU(z, x []Word, s uint) (c Word)
	TEXT ·lshVU(SB), NOSPLIT, $0
	MOVD z_len+8(FP), R0
	CBZ R0, ret0
	MOVD s+48(FP), R1
	MOVD x_base+24(FP), R2
	MOVD z_base+0(FP), R3
	// run loop backward
	ADD R0<<3, R2, R2
	ADD R0<<3, R3, R3
	// shift first word into carry
	MOVD.W -8(R2), R4
	MOVD $64, R5
	SUB R1, R5
	LSR R5, R4, R6
	LSL R1, R4
	MOVD R6, c+56(FP)
	// shift remaining words
	SUB $1, R0
	// compute unrolled loop lengths
	AND $3, R0, R6
	LSR $2, R0
	loop1:
	CBZ R6, loop1done
	loop1cont:
	// unroll 1X
	MOVD.W -8(R2), R7
	LSR R5, R7, R8
	ORR R4, R8
	LSL R1, R7, R4
	MOVD.W R8, -8(R3)
	SUB $1, R6
	CBNZ R6, loop1cont
	loop1done:
	loop4:
	CBZ R0, loop4done
	loop4cont:
	// unroll 4X
	LDP.W -32(R2), (R9, R8)
	LDP 16(R2), (R7, R6)
	LSR R5, R6, R10
	ORR R4, R10
	LSL R1, R6, R4
	LSR R5, R7, R6
	ORR R4, R6
	LSL R1, R7, R4
	LSR R5, R8, R7
	ORR R4, R7
	LSL R1, R8, R4
	LSR R5, R9, R8
	ORR R4, R8
	LSL R1, R9, R4
	STP.W (R8, R7), -32(R3)
	STP (R6, R10), 16(R3)
	SUB $1, R0
	CBNZ R0, loop4cont
	loop4done:
	// store final shifted bits
	MOVD.W R4, -8(R3)
	RET
	ret0:
	MOVD ZR, c+56(FP)
	RET

	// func rshVU(z, x []Word, s uint) (c Word)
	TEXT ·rshVU(SB), NOSPLIT, $0
	MOVD z_len+8(FP), R0
	CBZ R0, ret0
	MOVD s+48(FP), R1
	MOVD x_base+24(FP), R2
	MOVD z_base+0(FP), R3
	// shift first word into carry
	MOVD.P 8(R2), R4
	MOVD $64, R5
	SUB R1, R5
	LSL R5, R4, R6
	LSR R1, R4
	MOVD R6, c+56(FP)
	// shift remaining words
	SUB $1, R0
	// compute unrolled loop lengths
	AND $3, R0, R6
	LSR $2, R0
	loop1:
	CBZ R6, loop1done
	loop1cont:
	// unroll 1X
	MOVD.P 8(R2), R7
	LSL R5, R7, R8
	ORR R4, R8
	LSR R1, R7, R4
	MOVD.P R8, 8(R3)
	SUB $1, R6
	CBNZ R6, loop1cont
	loop1done:
	loop4:
	CBZ R0, loop4done
	loop4cont:
	// unroll 4X
	LDP.P 32(R2), (R6, R7)
	LDP -16(R2), (R8, R9)
	LSL R5, R6, R10
	ORR R4, R10
	LSR R1, R6, R4
	LSL R5, R7, R6
	ORR R4, R6
	LSR R1, R7, R4
	LSL R5, R8, R7
	ORR R4, R7
	LSR R1, R8, R4
	LSL R5, R9, R8
	ORR R4, R8
	LSR R1, R9, R4
	STP.P (R10, R6), 32(R3)
	STP (R7, R8), -16(R3)
	SUB $1, R0
	CBNZ R0, loop4cont
	loop4done:
	// store final shifted bits
	MOVD.P R4, 8(R3)
	RET
	ret0:
	MOVD ZR, c+56(FP)
	RET

	// func mulAddVWW(z, x []Word, m, a Word) (c Word)
	TEXT ·mulAddVWW(SB), NOSPLIT, $0
	MOVD m+48(FP), R0
	MOVD a+56(FP), R1
	MOVD z_len+8(FP), R2
	MOVD x_base+24(FP), R3
	MOVD z_base+0(FP), R4
	// compute unrolled loop lengths
	AND $7, R2, R5
	LSR $3, R2
	loop1:
	CBZ R5, loop1done
	loop1cont:
	// unroll 1X
	MOVD.P 8(R3), R6
	// multiply
	UMULH R0, R6, R7
	MUL R0, R6
	ADDS R1, R6
	ADC ZR, R7, R1
	MOVD.P R6, 8(R4)
	SUB $1, R5
	CBNZ R5, loop1cont
	loop1done:
	loop8:
	CBZ R2, loop8done
	loop8cont:
	// unroll 8X
	LDP.P 64(R3), (R5, R6)
	LDP -48(R3), (R7, R8)
	LDP -32(R3), (R9, R10)
	LDP -16(R3), (R11, R12)
	// multiply
	UMULH R0, R5, R13
	MUL R0, R5
	ADDS R1, R5
	UMULH R0, R6, R14
	MUL R0, R6
	ADCS R13, R6
	UMULH R0, R7, R13
	MUL R0, R7
	ADCS R14, R7
	UMULH R0, R8, R14
	MUL R0, R8
	ADCS R13, R8
	UMULH R0, R9, R13
	MUL R0, R9
	ADCS R14, R9
	UMULH R0, R10, R14
	MUL R0, R10
	ADCS R13, R10
	UMULH R0, R11, R13
	MUL R0, R11
	ADCS R14, R11
	UMULH R0, R12, R14
	MUL R0, R12
	ADCS R13, R12
	ADC ZR, R14, R1
	STP.P (R5, R6), 64(R4)
	STP (R7, R8), -48(R4)
	STP (R9, R10), -32(R4)
	STP (R11, R12), -16(R4)
	SUB $1, R2
	CBNZ R2, loop8cont
	loop8done:
	MOVD R1, c+64(FP)
	RET

	// func addMulVVWW(z, x, y []Word, m, a Word) (c Word)
	TEXT ·addMulVVWW(SB), NOSPLIT, $0
	MOVD m+72(FP), R0
	MOVD a+80(FP), R1
	MOVD z_len+8(FP), R2
	MOVD x_base+24(FP), R3
	MOVD y_base+48(FP), R4
	MOVD z_base+0(FP), R5
	// compute unrolled loop lengths
	AND $7, R2, R6
	LSR $3, R2
	loop1:
	CBZ R6, loop1done
	loop1cont:
	// unroll 1X
	MOVD.P 8(R3), R7
	MOVD.P 8(R4), R8
	// multiply
	UMULH R0, R8, R9
	MUL R0, R8
	ADDS R1, R8
	ADC ZR, R9, R1
	// add
	ADDS R7, R8
	ADC ZR, R1
	MOVD.P R8, 8(R5)
	SUB $1, R6
	CBNZ R6, loop1cont
	loop1done:
	loop8:
	CBZ R2, loop8done
	loop8cont:
	// unroll 8X
	LDP.P 64(R3), (R6, R7)
	LDP -48(R3), (R8, R9)
	LDP -32(R3), (R10, R11)
	LDP -16(R3), (R12, R13)
	LDP.P 64(R4), (R14, R15)
	LDP -48(R4), (R16, R17)
	LDP -32(R4), (R19, R20)
	LDP -16(R4), (R21, R22)
	// multiply
	UMULH R0, R14, R23
	MUL R0, R14
	ADDS R1, R14
	UMULH R0, R15, R24
	MUL R0, R15
	ADCS R23, R15
	UMULH R0, R16, R23
	MUL R0, R16
	ADCS R24, R16
	UMULH R0, R17, R24
	MUL R0, R17
	ADCS R23, R17
	UMULH R0, R19, R23
	MUL R0, R19
	ADCS R24, R19
	UMULH R0, R20, R24
	MUL R0, R20
	ADCS R23, R20
	UMULH R0, R21, R23
	MUL R0, R21
	ADCS R24, R21
	UMULH R0, R22, R24
	MUL R0, R22
	ADCS R23, R22
	ADC ZR, R24, R1
	// add
	ADDS R6, R14
	ADCS R7, R15
	ADCS R8, R16
	ADCS R9, R17
	ADCS R10, R19
	ADCS R11, R20
	ADCS R12, R21
	ADCS R13, R22
	ADC ZR, R1
	STP.P (R14, R15), 64(R5)
	STP (R16, R17), -48(R5)
	STP (R19, R20), -32(R5)
	STP (R21, R22), -16(R5)
	SUB $1, R2
	CBNZ R2, loop8cont
	loop8done:
	MOVD R1, c+88(FP)
	RET