mulsi3.S 2.3 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133
  1. /* SPDX-License-Identifier: GPL-2.0-or-later WITH GCC-exception-2.0 */
  2. #include <linux/linkage.h>
  3. #include <asm/asmmacro.h>
  4. #include <asm/core.h>
  5. .macro do_addx2 dst, as, at, tmp
  6. #if XCHAL_HAVE_ADDX
  7. addx2 \dst, \as, \at
  8. #else
  9. slli \tmp, \as, 1
  10. add \dst, \tmp, \at
  11. #endif
  12. .endm
  13. .macro do_addx4 dst, as, at, tmp
  14. #if XCHAL_HAVE_ADDX
  15. addx4 \dst, \as, \at
  16. #else
  17. slli \tmp, \as, 2
  18. add \dst, \tmp, \at
  19. #endif
  20. .endm
  21. .macro do_addx8 dst, as, at, tmp
  22. #if XCHAL_HAVE_ADDX
  23. addx8 \dst, \as, \at
  24. #else
  25. slli \tmp, \as, 3
  26. add \dst, \tmp, \at
  27. #endif
  28. .endm
  29. ENTRY(__mulsi3)
  30. abi_entry_default
  31. #if XCHAL_HAVE_MUL32
  32. mull a2, a2, a3
  33. #elif XCHAL_HAVE_MUL16
  34. or a4, a2, a3
  35. srai a4, a4, 16
  36. bnez a4, .LMUL16
  37. mul16u a2, a2, a3
  38. abi_ret_default
  39. .LMUL16:
  40. srai a4, a2, 16
  41. srai a5, a3, 16
  42. mul16u a7, a4, a3
  43. mul16u a6, a5, a2
  44. mul16u a4, a2, a3
  45. add a7, a7, a6
  46. slli a7, a7, 16
  47. add a2, a7, a4
  48. #elif XCHAL_HAVE_MAC16
  49. mul.aa.hl a2, a3
  50. mula.aa.lh a2, a3
  51. rsr a5, ACCLO
  52. umul.aa.ll a2, a3
  53. rsr a4, ACCLO
  54. slli a5, a5, 16
  55. add a2, a4, a5
  56. #else /* !MUL32 && !MUL16 && !MAC16 */
  57. /* Multiply one bit at a time, but unroll the loop 4x to better
  58. exploit the addx instructions and avoid overhead.
  59. Peel the first iteration to save a cycle on init. */
  60. /* Avoid negative numbers. */
  61. xor a5, a2, a3 /* Top bit is 1 if one input is negative. */
  62. do_abs a3, a3, a6
  63. do_abs a2, a2, a6
  64. /* Swap so the second argument is smaller. */
  65. sub a7, a2, a3
  66. mov a4, a3
  67. movgez a4, a2, a7 /* a4 = max (a2, a3) */
  68. movltz a3, a2, a7 /* a3 = min (a2, a3) */
  69. movi a2, 0
  70. extui a6, a3, 0, 1
  71. movnez a2, a4, a6
  72. do_addx2 a7, a4, a2, a7
  73. extui a6, a3, 1, 1
  74. movnez a2, a7, a6
  75. do_addx4 a7, a4, a2, a7
  76. extui a6, a3, 2, 1
  77. movnez a2, a7, a6
  78. do_addx8 a7, a4, a2, a7
  79. extui a6, a3, 3, 1
  80. movnez a2, a7, a6
  81. bgeui a3, 16, .Lmult_main_loop
  82. neg a3, a2
  83. movltz a2, a3, a5
  84. abi_ret_default
  85. .align 4
  86. .Lmult_main_loop:
  87. srli a3, a3, 4
  88. slli a4, a4, 4
  89. add a7, a4, a2
  90. extui a6, a3, 0, 1
  91. movnez a2, a7, a6
  92. do_addx2 a7, a4, a2, a7
  93. extui a6, a3, 1, 1
  94. movnez a2, a7, a6
  95. do_addx4 a7, a4, a2, a7
  96. extui a6, a3, 2, 1
  97. movnez a2, a7, a6
  98. do_addx8 a7, a4, a2, a7
  99. extui a6, a3, 3, 1
  100. movnez a2, a7, a6
  101. bgeui a3, 16, .Lmult_main_loop
  102. neg a3, a2
  103. movltz a2, a3, a5
  104. #endif /* !MUL32 && !MUL16 && !MAC16 */
  105. abi_ret_default
  106. ENDPROC(__mulsi3)