1 | .text
|
---|
2 |
|
---|
3 |
|
---|
4 | .globl _gcm_gmult_4bit
|
---|
5 |
|
---|
6 | .p2align 4
|
---|
7 | _gcm_gmult_4bit:
|
---|
8 |
|
---|
9 | pushq %rbx
|
---|
10 |
|
---|
11 | pushq %rbp
|
---|
12 |
|
---|
13 | pushq %r12
|
---|
14 |
|
---|
15 | pushq %r13
|
---|
16 |
|
---|
17 | pushq %r14
|
---|
18 |
|
---|
19 | pushq %r15
|
---|
20 |
|
---|
21 | subq $280,%rsp
|
---|
22 |
|
---|
23 | L$gmult_prologue:
|
---|
24 |
|
---|
25 | movzbq 15(%rdi),%r8
|
---|
26 | leaq L$rem_4bit(%rip),%r11
|
---|
27 | xorq %rax,%rax
|
---|
28 | xorq %rbx,%rbx
|
---|
29 | movb %r8b,%al
|
---|
30 | movb %r8b,%bl
|
---|
31 | shlb $4,%al
|
---|
32 | movq $14,%rcx
|
---|
33 | movq 8(%rsi,%rax,1),%r8
|
---|
34 | movq (%rsi,%rax,1),%r9
|
---|
35 | andb $0xf0,%bl
|
---|
36 | movq %r8,%rdx
|
---|
37 | jmp L$oop1
|
---|
38 |
|
---|
39 | .p2align 4
|
---|
40 | L$oop1:
|
---|
41 | shrq $4,%r8
|
---|
42 | andq $0xf,%rdx
|
---|
43 | movq %r9,%r10
|
---|
44 | movb (%rdi,%rcx,1),%al
|
---|
45 | shrq $4,%r9
|
---|
46 | xorq 8(%rsi,%rbx,1),%r8
|
---|
47 | shlq $60,%r10
|
---|
48 | xorq (%rsi,%rbx,1),%r9
|
---|
49 | movb %al,%bl
|
---|
50 | xorq (%r11,%rdx,8),%r9
|
---|
51 | movq %r8,%rdx
|
---|
52 | shlb $4,%al
|
---|
53 | xorq %r10,%r8
|
---|
54 | decq %rcx
|
---|
55 | js L$break1
|
---|
56 |
|
---|
57 | shrq $4,%r8
|
---|
58 | andq $0xf,%rdx
|
---|
59 | movq %r9,%r10
|
---|
60 | shrq $4,%r9
|
---|
61 | xorq 8(%rsi,%rax,1),%r8
|
---|
62 | shlq $60,%r10
|
---|
63 | xorq (%rsi,%rax,1),%r9
|
---|
64 | andb $0xf0,%bl
|
---|
65 | xorq (%r11,%rdx,8),%r9
|
---|
66 | movq %r8,%rdx
|
---|
67 | xorq %r10,%r8
|
---|
68 | jmp L$oop1
|
---|
69 |
|
---|
70 | .p2align 4
|
---|
71 | L$break1:
|
---|
72 | shrq $4,%r8
|
---|
73 | andq $0xf,%rdx
|
---|
74 | movq %r9,%r10
|
---|
75 | shrq $4,%r9
|
---|
76 | xorq 8(%rsi,%rax,1),%r8
|
---|
77 | shlq $60,%r10
|
---|
78 | xorq (%rsi,%rax,1),%r9
|
---|
79 | andb $0xf0,%bl
|
---|
80 | xorq (%r11,%rdx,8),%r9
|
---|
81 | movq %r8,%rdx
|
---|
82 | xorq %r10,%r8
|
---|
83 |
|
---|
84 | shrq $4,%r8
|
---|
85 | andq $0xf,%rdx
|
---|
86 | movq %r9,%r10
|
---|
87 | shrq $4,%r9
|
---|
88 | xorq 8(%rsi,%rbx,1),%r8
|
---|
89 | shlq $60,%r10
|
---|
90 | xorq (%rsi,%rbx,1),%r9
|
---|
91 | xorq %r10,%r8
|
---|
92 | xorq (%r11,%rdx,8),%r9
|
---|
93 |
|
---|
94 | bswapq %r8
|
---|
95 | bswapq %r9
|
---|
96 | movq %r8,8(%rdi)
|
---|
97 | movq %r9,(%rdi)
|
---|
98 |
|
---|
99 | leaq 280+48(%rsp),%rsi
|
---|
100 |
|
---|
101 | movq -8(%rsi),%rbx
|
---|
102 |
|
---|
103 | leaq (%rsi),%rsp
|
---|
104 |
|
---|
105 | L$gmult_epilogue:
|
---|
106 | .byte 0xf3,0xc3
|
---|
107 |
|
---|
108 |
|
---|
109 | .globl _gcm_ghash_4bit
|
---|
110 |
|
---|
111 | .p2align 4
|
---|
112 | _gcm_ghash_4bit:
|
---|
113 |
|
---|
114 | pushq %rbx
|
---|
115 |
|
---|
116 | pushq %rbp
|
---|
117 |
|
---|
118 | pushq %r12
|
---|
119 |
|
---|
120 | pushq %r13
|
---|
121 |
|
---|
122 | pushq %r14
|
---|
123 |
|
---|
124 | pushq %r15
|
---|
125 |
|
---|
126 | subq $280,%rsp
|
---|
127 |
|
---|
128 | L$ghash_prologue:
|
---|
129 | movq %rdx,%r14
|
---|
130 | movq %rcx,%r15
|
---|
131 | subq $-128,%rsi
|
---|
132 | leaq 16+128(%rsp),%rbp
|
---|
133 | xorl %edx,%edx
|
---|
134 | movq 0+0-128(%rsi),%r8
|
---|
135 | movq 0+8-128(%rsi),%rax
|
---|
136 | movb %al,%dl
|
---|
137 | shrq $4,%rax
|
---|
138 | movq %r8,%r10
|
---|
139 | shrq $4,%r8
|
---|
140 | movq 16+0-128(%rsi),%r9
|
---|
141 | shlb $4,%dl
|
---|
142 | movq 16+8-128(%rsi),%rbx
|
---|
143 | shlq $60,%r10
|
---|
144 | movb %dl,0(%rsp)
|
---|
145 | orq %r10,%rax
|
---|
146 | movb %bl,%dl
|
---|
147 | shrq $4,%rbx
|
---|
148 | movq %r9,%r10
|
---|
149 | shrq $4,%r9
|
---|
150 | movq %r8,0(%rbp)
|
---|
151 | movq 32+0-128(%rsi),%r8
|
---|
152 | shlb $4,%dl
|
---|
153 | movq %rax,0-128(%rbp)
|
---|
154 | movq 32+8-128(%rsi),%rax
|
---|
155 | shlq $60,%r10
|
---|
156 | movb %dl,1(%rsp)
|
---|
157 | orq %r10,%rbx
|
---|
158 | movb %al,%dl
|
---|
159 | shrq $4,%rax
|
---|
160 | movq %r8,%r10
|
---|
161 | shrq $4,%r8
|
---|
162 | movq %r9,8(%rbp)
|
---|
163 | movq 48+0-128(%rsi),%r9
|
---|
164 | shlb $4,%dl
|
---|
165 | movq %rbx,8-128(%rbp)
|
---|
166 | movq 48+8-128(%rsi),%rbx
|
---|
167 | shlq $60,%r10
|
---|
168 | movb %dl,2(%rsp)
|
---|
169 | orq %r10,%rax
|
---|
170 | movb %bl,%dl
|
---|
171 | shrq $4,%rbx
|
---|
172 | movq %r9,%r10
|
---|
173 | shrq $4,%r9
|
---|
174 | movq %r8,16(%rbp)
|
---|
175 | movq 64+0-128(%rsi),%r8
|
---|
176 | shlb $4,%dl
|
---|
177 | movq %rax,16-128(%rbp)
|
---|
178 | movq 64+8-128(%rsi),%rax
|
---|
179 | shlq $60,%r10
|
---|
180 | movb %dl,3(%rsp)
|
---|
181 | orq %r10,%rbx
|
---|
182 | movb %al,%dl
|
---|
183 | shrq $4,%rax
|
---|
184 | movq %r8,%r10
|
---|
185 | shrq $4,%r8
|
---|
186 | movq %r9,24(%rbp)
|
---|
187 | movq 80+0-128(%rsi),%r9
|
---|
188 | shlb $4,%dl
|
---|
189 | movq %rbx,24-128(%rbp)
|
---|
190 | movq 80+8-128(%rsi),%rbx
|
---|
191 | shlq $60,%r10
|
---|
192 | movb %dl,4(%rsp)
|
---|
193 | orq %r10,%rax
|
---|
194 | movb %bl,%dl
|
---|
195 | shrq $4,%rbx
|
---|
196 | movq %r9,%r10
|
---|
197 | shrq $4,%r9
|
---|
198 | movq %r8,32(%rbp)
|
---|
199 | movq 96+0-128(%rsi),%r8
|
---|
200 | shlb $4,%dl
|
---|
201 | movq %rax,32-128(%rbp)
|
---|
202 | movq 96+8-128(%rsi),%rax
|
---|
203 | shlq $60,%r10
|
---|
204 | movb %dl,5(%rsp)
|
---|
205 | orq %r10,%rbx
|
---|
206 | movb %al,%dl
|
---|
207 | shrq $4,%rax
|
---|
208 | movq %r8,%r10
|
---|
209 | shrq $4,%r8
|
---|
210 | movq %r9,40(%rbp)
|
---|
211 | movq 112+0-128(%rsi),%r9
|
---|
212 | shlb $4,%dl
|
---|
213 | movq %rbx,40-128(%rbp)
|
---|
214 | movq 112+8-128(%rsi),%rbx
|
---|
215 | shlq $60,%r10
|
---|
216 | movb %dl,6(%rsp)
|
---|
217 | orq %r10,%rax
|
---|
218 | movb %bl,%dl
|
---|
219 | shrq $4,%rbx
|
---|
220 | movq %r9,%r10
|
---|
221 | shrq $4,%r9
|
---|
222 | movq %r8,48(%rbp)
|
---|
223 | movq 128+0-128(%rsi),%r8
|
---|
224 | shlb $4,%dl
|
---|
225 | movq %rax,48-128(%rbp)
|
---|
226 | movq 128+8-128(%rsi),%rax
|
---|
227 | shlq $60,%r10
|
---|
228 | movb %dl,7(%rsp)
|
---|
229 | orq %r10,%rbx
|
---|
230 | movb %al,%dl
|
---|
231 | shrq $4,%rax
|
---|
232 | movq %r8,%r10
|
---|
233 | shrq $4,%r8
|
---|
234 | movq %r9,56(%rbp)
|
---|
235 | movq 144+0-128(%rsi),%r9
|
---|
236 | shlb $4,%dl
|
---|
237 | movq %rbx,56-128(%rbp)
|
---|
238 | movq 144+8-128(%rsi),%rbx
|
---|
239 | shlq $60,%r10
|
---|
240 | movb %dl,8(%rsp)
|
---|
241 | orq %r10,%rax
|
---|
242 | movb %bl,%dl
|
---|
243 | shrq $4,%rbx
|
---|
244 | movq %r9,%r10
|
---|
245 | shrq $4,%r9
|
---|
246 | movq %r8,64(%rbp)
|
---|
247 | movq 160+0-128(%rsi),%r8
|
---|
248 | shlb $4,%dl
|
---|
249 | movq %rax,64-128(%rbp)
|
---|
250 | movq 160+8-128(%rsi),%rax
|
---|
251 | shlq $60,%r10
|
---|
252 | movb %dl,9(%rsp)
|
---|
253 | orq %r10,%rbx
|
---|
254 | movb %al,%dl
|
---|
255 | shrq $4,%rax
|
---|
256 | movq %r8,%r10
|
---|
257 | shrq $4,%r8
|
---|
258 | movq %r9,72(%rbp)
|
---|
259 | movq 176+0-128(%rsi),%r9
|
---|
260 | shlb $4,%dl
|
---|
261 | movq %rbx,72-128(%rbp)
|
---|
262 | movq 176+8-128(%rsi),%rbx
|
---|
263 | shlq $60,%r10
|
---|
264 | movb %dl,10(%rsp)
|
---|
265 | orq %r10,%rax
|
---|
266 | movb %bl,%dl
|
---|
267 | shrq $4,%rbx
|
---|
268 | movq %r9,%r10
|
---|
269 | shrq $4,%r9
|
---|
270 | movq %r8,80(%rbp)
|
---|
271 | movq 192+0-128(%rsi),%r8
|
---|
272 | shlb $4,%dl
|
---|
273 | movq %rax,80-128(%rbp)
|
---|
274 | movq 192+8-128(%rsi),%rax
|
---|
275 | shlq $60,%r10
|
---|
276 | movb %dl,11(%rsp)
|
---|
277 | orq %r10,%rbx
|
---|
278 | movb %al,%dl
|
---|
279 | shrq $4,%rax
|
---|
280 | movq %r8,%r10
|
---|
281 | shrq $4,%r8
|
---|
282 | movq %r9,88(%rbp)
|
---|
283 | movq 208+0-128(%rsi),%r9
|
---|
284 | shlb $4,%dl
|
---|
285 | movq %rbx,88-128(%rbp)
|
---|
286 | movq 208+8-128(%rsi),%rbx
|
---|
287 | shlq $60,%r10
|
---|
288 | movb %dl,12(%rsp)
|
---|
289 | orq %r10,%rax
|
---|
290 | movb %bl,%dl
|
---|
291 | shrq $4,%rbx
|
---|
292 | movq %r9,%r10
|
---|
293 | shrq $4,%r9
|
---|
294 | movq %r8,96(%rbp)
|
---|
295 | movq 224+0-128(%rsi),%r8
|
---|
296 | shlb $4,%dl
|
---|
297 | movq %rax,96-128(%rbp)
|
---|
298 | movq 224+8-128(%rsi),%rax
|
---|
299 | shlq $60,%r10
|
---|
300 | movb %dl,13(%rsp)
|
---|
301 | orq %r10,%rbx
|
---|
302 | movb %al,%dl
|
---|
303 | shrq $4,%rax
|
---|
304 | movq %r8,%r10
|
---|
305 | shrq $4,%r8
|
---|
306 | movq %r9,104(%rbp)
|
---|
307 | movq 240+0-128(%rsi),%r9
|
---|
308 | shlb $4,%dl
|
---|
309 | movq %rbx,104-128(%rbp)
|
---|
310 | movq 240+8-128(%rsi),%rbx
|
---|
311 | shlq $60,%r10
|
---|
312 | movb %dl,14(%rsp)
|
---|
313 | orq %r10,%rax
|
---|
314 | movb %bl,%dl
|
---|
315 | shrq $4,%rbx
|
---|
316 | movq %r9,%r10
|
---|
317 | shrq $4,%r9
|
---|
318 | movq %r8,112(%rbp)
|
---|
319 | shlb $4,%dl
|
---|
320 | movq %rax,112-128(%rbp)
|
---|
321 | shlq $60,%r10
|
---|
322 | movb %dl,15(%rsp)
|
---|
323 | orq %r10,%rbx
|
---|
324 | movq %r9,120(%rbp)
|
---|
325 | movq %rbx,120-128(%rbp)
|
---|
326 | addq $-128,%rsi
|
---|
327 | movq 8(%rdi),%r8
|
---|
328 | movq 0(%rdi),%r9
|
---|
329 | addq %r14,%r15
|
---|
330 | leaq L$rem_8bit(%rip),%r11
|
---|
331 | jmp L$outer_loop
|
---|
332 | .p2align 4
|
---|
333 | L$outer_loop:
|
---|
334 | xorq (%r14),%r9
|
---|
335 | movq 8(%r14),%rdx
|
---|
336 | leaq 16(%r14),%r14
|
---|
337 | xorq %r8,%rdx
|
---|
338 | movq %r9,(%rdi)
|
---|
339 | movq %rdx,8(%rdi)
|
---|
340 | shrq $32,%rdx
|
---|
341 | xorq %rax,%rax
|
---|
342 | roll $8,%edx
|
---|
343 | movb %dl,%al
|
---|
344 | movzbl %dl,%ebx
|
---|
345 | shlb $4,%al
|
---|
346 | shrl $4,%ebx
|
---|
347 | roll $8,%edx
|
---|
348 | movq 8(%rsi,%rax,1),%r8
|
---|
349 | movq (%rsi,%rax,1),%r9
|
---|
350 | movb %dl,%al
|
---|
351 | movzbl %dl,%ecx
|
---|
352 | shlb $4,%al
|
---|
353 | movzbq (%rsp,%rbx,1),%r12
|
---|
354 | shrl $4,%ecx
|
---|
355 | xorq %r8,%r12
|
---|
356 | movq %r9,%r10
|
---|
357 | shrq $8,%r8
|
---|
358 | movzbq %r12b,%r12
|
---|
359 | shrq $8,%r9
|
---|
360 | xorq -128(%rbp,%rbx,8),%r8
|
---|
361 | shlq $56,%r10
|
---|
362 | xorq (%rbp,%rbx,8),%r9
|
---|
363 | roll $8,%edx
|
---|
364 | xorq 8(%rsi,%rax,1),%r8
|
---|
365 | xorq (%rsi,%rax,1),%r9
|
---|
366 | movb %dl,%al
|
---|
367 | xorq %r10,%r8
|
---|
368 | movzwq (%r11,%r12,2),%r12
|
---|
369 | movzbl %dl,%ebx
|
---|
370 | shlb $4,%al
|
---|
371 | movzbq (%rsp,%rcx,1),%r13
|
---|
372 | shrl $4,%ebx
|
---|
373 | shlq $48,%r12
|
---|
374 | xorq %r8,%r13
|
---|
375 | movq %r9,%r10
|
---|
376 | xorq %r12,%r9
|
---|
377 | shrq $8,%r8
|
---|
378 | movzbq %r13b,%r13
|
---|
379 | shrq $8,%r9
|
---|
380 | xorq -128(%rbp,%rcx,8),%r8
|
---|
381 | shlq $56,%r10
|
---|
382 | xorq (%rbp,%rcx,8),%r9
|
---|
383 | roll $8,%edx
|
---|
384 | xorq 8(%rsi,%rax,1),%r8
|
---|
385 | xorq (%rsi,%rax,1),%r9
|
---|
386 | movb %dl,%al
|
---|
387 | xorq %r10,%r8
|
---|
388 | movzwq (%r11,%r13,2),%r13
|
---|
389 | movzbl %dl,%ecx
|
---|
390 | shlb $4,%al
|
---|
391 | movzbq (%rsp,%rbx,1),%r12
|
---|
392 | shrl $4,%ecx
|
---|
393 | shlq $48,%r13
|
---|
394 | xorq %r8,%r12
|
---|
395 | movq %r9,%r10
|
---|
396 | xorq %r13,%r9
|
---|
397 | shrq $8,%r8
|
---|
398 | movzbq %r12b,%r12
|
---|
399 | movl 8(%rdi),%edx
|
---|
400 | shrq $8,%r9
|
---|
401 | xorq -128(%rbp,%rbx,8),%r8
|
---|
402 | shlq $56,%r10
|
---|
403 | xorq (%rbp,%rbx,8),%r9
|
---|
404 | roll $8,%edx
|
---|
405 | xorq 8(%rsi,%rax,1),%r8
|
---|
406 | xorq (%rsi,%rax,1),%r9
|
---|
407 | movb %dl,%al
|
---|
408 | xorq %r10,%r8
|
---|
409 | movzwq (%r11,%r12,2),%r12
|
---|
410 | movzbl %dl,%ebx
|
---|
411 | shlb $4,%al
|
---|
412 | movzbq (%rsp,%rcx,1),%r13
|
---|
413 | shrl $4,%ebx
|
---|
414 | shlq $48,%r12
|
---|
415 | xorq %r8,%r13
|
---|
416 | movq %r9,%r10
|
---|
417 | xorq %r12,%r9
|
---|
418 | shrq $8,%r8
|
---|
419 | movzbq %r13b,%r13
|
---|
420 | shrq $8,%r9
|
---|
421 | xorq -128(%rbp,%rcx,8),%r8
|
---|
422 | shlq $56,%r10
|
---|
423 | xorq (%rbp,%rcx,8),%r9
|
---|
424 | roll $8,%edx
|
---|
425 | xorq 8(%rsi,%rax,1),%r8
|
---|
426 | xorq (%rsi,%rax,1),%r9
|
---|
427 | movb %dl,%al
|
---|
428 | xorq %r10,%r8
|
---|
429 | movzwq (%r11,%r13,2),%r13
|
---|
430 | movzbl %dl,%ecx
|
---|
431 | shlb $4,%al
|
---|
432 | movzbq (%rsp,%rbx,1),%r12
|
---|
433 | shrl $4,%ecx
|
---|
434 | shlq $48,%r13
|
---|
435 | xorq %r8,%r12
|
---|
436 | movq %r9,%r10
|
---|
437 | xorq %r13,%r9
|
---|
438 | shrq $8,%r8
|
---|
439 | movzbq %r12b,%r12
|
---|
440 | shrq $8,%r9
|
---|
441 | xorq -128(%rbp,%rbx,8),%r8
|
---|
442 | shlq $56,%r10
|
---|
443 | xorq (%rbp,%rbx,8),%r9
|
---|
444 | roll $8,%edx
|
---|
445 | xorq 8(%rsi,%rax,1),%r8
|
---|
446 | xorq (%rsi,%rax,1),%r9
|
---|
447 | movb %dl,%al
|
---|
448 | xorq %r10,%r8
|
---|
449 | movzwq (%r11,%r12,2),%r12
|
---|
450 | movzbl %dl,%ebx
|
---|
451 | shlb $4,%al
|
---|
452 | movzbq (%rsp,%rcx,1),%r13
|
---|
453 | shrl $4,%ebx
|
---|
454 | shlq $48,%r12
|
---|
455 | xorq %r8,%r13
|
---|
456 | movq %r9,%r10
|
---|
457 | xorq %r12,%r9
|
---|
458 | shrq $8,%r8
|
---|
459 | movzbq %r13b,%r13
|
---|
460 | shrq $8,%r9
|
---|
461 | xorq -128(%rbp,%rcx,8),%r8
|
---|
462 | shlq $56,%r10
|
---|
463 | xorq (%rbp,%rcx,8),%r9
|
---|
464 | roll $8,%edx
|
---|
465 | xorq 8(%rsi,%rax,1),%r8
|
---|
466 | xorq (%rsi,%rax,1),%r9
|
---|
467 | movb %dl,%al
|
---|
468 | xorq %r10,%r8
|
---|
469 | movzwq (%r11,%r13,2),%r13
|
---|
470 | movzbl %dl,%ecx
|
---|
471 | shlb $4,%al
|
---|
472 | movzbq (%rsp,%rbx,1),%r12
|
---|
473 | shrl $4,%ecx
|
---|
474 | shlq $48,%r13
|
---|
475 | xorq %r8,%r12
|
---|
476 | movq %r9,%r10
|
---|
477 | xorq %r13,%r9
|
---|
478 | shrq $8,%r8
|
---|
479 | movzbq %r12b,%r12
|
---|
480 | movl 4(%rdi),%edx
|
---|
481 | shrq $8,%r9
|
---|
482 | xorq -128(%rbp,%rbx,8),%r8
|
---|
483 | shlq $56,%r10
|
---|
484 | xorq (%rbp,%rbx,8),%r9
|
---|
485 | roll $8,%edx
|
---|
486 | xorq 8(%rsi,%rax,1),%r8
|
---|
487 | xorq (%rsi,%rax,1),%r9
|
---|
488 | movb %dl,%al
|
---|
489 | xorq %r10,%r8
|
---|
490 | movzwq (%r11,%r12,2),%r12
|
---|
491 | movzbl %dl,%ebx
|
---|
492 | shlb $4,%al
|
---|
493 | movzbq (%rsp,%rcx,1),%r13
|
---|
494 | shrl $4,%ebx
|
---|
495 | shlq $48,%r12
|
---|
496 | xorq %r8,%r13
|
---|
497 | movq %r9,%r10
|
---|
498 | xorq %r12,%r9
|
---|
499 | shrq $8,%r8
|
---|
500 | movzbq %r13b,%r13
|
---|
501 | shrq $8,%r9
|
---|
502 | xorq -128(%rbp,%rcx,8),%r8
|
---|
503 | shlq $56,%r10
|
---|
504 | xorq (%rbp,%rcx,8),%r9
|
---|
505 | roll $8,%edx
|
---|
506 | xorq 8(%rsi,%rax,1),%r8
|
---|
507 | xorq (%rsi,%rax,1),%r9
|
---|
508 | movb %dl,%al
|
---|
509 | xorq %r10,%r8
|
---|
510 | movzwq (%r11,%r13,2),%r13
|
---|
511 | movzbl %dl,%ecx
|
---|
512 | shlb $4,%al
|
---|
513 | movzbq (%rsp,%rbx,1),%r12
|
---|
514 | shrl $4,%ecx
|
---|
515 | shlq $48,%r13
|
---|
516 | xorq %r8,%r12
|
---|
517 | movq %r9,%r10
|
---|
518 | xorq %r13,%r9
|
---|
519 | shrq $8,%r8
|
---|
520 | movzbq %r12b,%r12
|
---|
521 | shrq $8,%r9
|
---|
522 | xorq -128(%rbp,%rbx,8),%r8
|
---|
523 | shlq $56,%r10
|
---|
524 | xorq (%rbp,%rbx,8),%r9
|
---|
525 | roll $8,%edx
|
---|
526 | xorq 8(%rsi,%rax,1),%r8
|
---|
527 | xorq (%rsi,%rax,1),%r9
|
---|
528 | movb %dl,%al
|
---|
529 | xorq %r10,%r8
|
---|
530 | movzwq (%r11,%r12,2),%r12
|
---|
531 | movzbl %dl,%ebx
|
---|
532 | shlb $4,%al
|
---|
533 | movzbq (%rsp,%rcx,1),%r13
|
---|
534 | shrl $4,%ebx
|
---|
535 | shlq $48,%r12
|
---|
536 | xorq %r8,%r13
|
---|
537 | movq %r9,%r10
|
---|
538 | xorq %r12,%r9
|
---|
539 | shrq $8,%r8
|
---|
540 | movzbq %r13b,%r13
|
---|
541 | shrq $8,%r9
|
---|
542 | xorq -128(%rbp,%rcx,8),%r8
|
---|
543 | shlq $56,%r10
|
---|
544 | xorq (%rbp,%rcx,8),%r9
|
---|
545 | roll $8,%edx
|
---|
546 | xorq 8(%rsi,%rax,1),%r8
|
---|
547 | xorq (%rsi,%rax,1),%r9
|
---|
548 | movb %dl,%al
|
---|
549 | xorq %r10,%r8
|
---|
550 | movzwq (%r11,%r13,2),%r13
|
---|
551 | movzbl %dl,%ecx
|
---|
552 | shlb $4,%al
|
---|
553 | movzbq (%rsp,%rbx,1),%r12
|
---|
554 | shrl $4,%ecx
|
---|
555 | shlq $48,%r13
|
---|
556 | xorq %r8,%r12
|
---|
557 | movq %r9,%r10
|
---|
558 | xorq %r13,%r9
|
---|
559 | shrq $8,%r8
|
---|
560 | movzbq %r12b,%r12
|
---|
561 | movl 0(%rdi),%edx
|
---|
562 | shrq $8,%r9
|
---|
563 | xorq -128(%rbp,%rbx,8),%r8
|
---|
564 | shlq $56,%r10
|
---|
565 | xorq (%rbp,%rbx,8),%r9
|
---|
566 | roll $8,%edx
|
---|
567 | xorq 8(%rsi,%rax,1),%r8
|
---|
568 | xorq (%rsi,%rax,1),%r9
|
---|
569 | movb %dl,%al
|
---|
570 | xorq %r10,%r8
|
---|
571 | movzwq (%r11,%r12,2),%r12
|
---|
572 | movzbl %dl,%ebx
|
---|
573 | shlb $4,%al
|
---|
574 | movzbq (%rsp,%rcx,1),%r13
|
---|
575 | shrl $4,%ebx
|
---|
576 | shlq $48,%r12
|
---|
577 | xorq %r8,%r13
|
---|
578 | movq %r9,%r10
|
---|
579 | xorq %r12,%r9
|
---|
580 | shrq $8,%r8
|
---|
581 | movzbq %r13b,%r13
|
---|
582 | shrq $8,%r9
|
---|
583 | xorq -128(%rbp,%rcx,8),%r8
|
---|
584 | shlq $56,%r10
|
---|
585 | xorq (%rbp,%rcx,8),%r9
|
---|
586 | roll $8,%edx
|
---|
587 | xorq 8(%rsi,%rax,1),%r8
|
---|
588 | xorq (%rsi,%rax,1),%r9
|
---|
589 | movb %dl,%al
|
---|
590 | xorq %r10,%r8
|
---|
591 | movzwq (%r11,%r13,2),%r13
|
---|
592 | movzbl %dl,%ecx
|
---|
593 | shlb $4,%al
|
---|
594 | movzbq (%rsp,%rbx,1),%r12
|
---|
595 | shrl $4,%ecx
|
---|
596 | shlq $48,%r13
|
---|
597 | xorq %r8,%r12
|
---|
598 | movq %r9,%r10
|
---|
599 | xorq %r13,%r9
|
---|
600 | shrq $8,%r8
|
---|
601 | movzbq %r12b,%r12
|
---|
602 | shrq $8,%r9
|
---|
603 | xorq -128(%rbp,%rbx,8),%r8
|
---|
604 | shlq $56,%r10
|
---|
605 | xorq (%rbp,%rbx,8),%r9
|
---|
606 | roll $8,%edx
|
---|
607 | xorq 8(%rsi,%rax,1),%r8
|
---|
608 | xorq (%rsi,%rax,1),%r9
|
---|
609 | movb %dl,%al
|
---|
610 | xorq %r10,%r8
|
---|
611 | movzwq (%r11,%r12,2),%r12
|
---|
612 | movzbl %dl,%ebx
|
---|
613 | shlb $4,%al
|
---|
614 | movzbq (%rsp,%rcx,1),%r13
|
---|
615 | shrl $4,%ebx
|
---|
616 | shlq $48,%r12
|
---|
617 | xorq %r8,%r13
|
---|
618 | movq %r9,%r10
|
---|
619 | xorq %r12,%r9
|
---|
620 | shrq $8,%r8
|
---|
621 | movzbq %r13b,%r13
|
---|
622 | shrq $8,%r9
|
---|
623 | xorq -128(%rbp,%rcx,8),%r8
|
---|
624 | shlq $56,%r10
|
---|
625 | xorq (%rbp,%rcx,8),%r9
|
---|
626 | roll $8,%edx
|
---|
627 | xorq 8(%rsi,%rax,1),%r8
|
---|
628 | xorq (%rsi,%rax,1),%r9
|
---|
629 | movb %dl,%al
|
---|
630 | xorq %r10,%r8
|
---|
631 | movzwq (%r11,%r13,2),%r13
|
---|
632 | movzbl %dl,%ecx
|
---|
633 | shlb $4,%al
|
---|
634 | movzbq (%rsp,%rbx,1),%r12
|
---|
635 | andl $240,%ecx
|
---|
636 | shlq $48,%r13
|
---|
637 | xorq %r8,%r12
|
---|
638 | movq %r9,%r10
|
---|
639 | xorq %r13,%r9
|
---|
640 | shrq $8,%r8
|
---|
641 | movzbq %r12b,%r12
|
---|
642 | movl -4(%rdi),%edx
|
---|
643 | shrq $8,%r9
|
---|
644 | xorq -128(%rbp,%rbx,8),%r8
|
---|
645 | shlq $56,%r10
|
---|
646 | xorq (%rbp,%rbx,8),%r9
|
---|
647 | movzwq (%r11,%r12,2),%r12
|
---|
648 | xorq 8(%rsi,%rax,1),%r8
|
---|
649 | xorq (%rsi,%rax,1),%r9
|
---|
650 | shlq $48,%r12
|
---|
651 | xorq %r10,%r8
|
---|
652 | xorq %r12,%r9
|
---|
653 | movzbq %r8b,%r13
|
---|
654 | shrq $4,%r8
|
---|
655 | movq %r9,%r10
|
---|
656 | shlb $4,%r13b
|
---|
657 | shrq $4,%r9
|
---|
658 | xorq 8(%rsi,%rcx,1),%r8
|
---|
659 | movzwq (%r11,%r13,2),%r13
|
---|
660 | shlq $60,%r10
|
---|
661 | xorq (%rsi,%rcx,1),%r9
|
---|
662 | xorq %r10,%r8
|
---|
663 | shlq $48,%r13
|
---|
664 | bswapq %r8
|
---|
665 | xorq %r13,%r9
|
---|
666 | bswapq %r9
|
---|
667 | cmpq %r15,%r14
|
---|
668 | jb L$outer_loop
|
---|
669 | movq %r8,8(%rdi)
|
---|
670 | movq %r9,(%rdi)
|
---|
671 |
|
---|
672 | leaq 280+48(%rsp),%rsi
|
---|
673 |
|
---|
674 | movq -48(%rsi),%r15
|
---|
675 |
|
---|
676 | movq -40(%rsi),%r14
|
---|
677 |
|
---|
678 | movq -32(%rsi),%r13
|
---|
679 |
|
---|
680 | movq -24(%rsi),%r12
|
---|
681 |
|
---|
682 | movq -16(%rsi),%rbp
|
---|
683 |
|
---|
684 | movq -8(%rsi),%rbx
|
---|
685 |
|
---|
686 | leaq 0(%rsi),%rsp
|
---|
687 |
|
---|
688 | L$ghash_epilogue:
|
---|
689 | .byte 0xf3,0xc3
|
---|
690 |
|
---|
691 |
|
---|
692 | .globl _gcm_init_clmul
|
---|
693 |
|
---|
694 | .p2align 4
|
---|
695 | _gcm_init_clmul:
|
---|
696 |
|
---|
697 | L$_init_clmul:
|
---|
698 | movdqu (%rsi),%xmm2
|
---|
699 | pshufd $78,%xmm2,%xmm2
|
---|
700 |
|
---|
701 |
|
---|
702 | pshufd $255,%xmm2,%xmm4
|
---|
703 | movdqa %xmm2,%xmm3
|
---|
704 | psllq $1,%xmm2
|
---|
705 | pxor %xmm5,%xmm5
|
---|
706 | psrlq $63,%xmm3
|
---|
707 | pcmpgtd %xmm4,%xmm5
|
---|
708 | pslldq $8,%xmm3
|
---|
709 | por %xmm3,%xmm2
|
---|
710 |
|
---|
711 |
|
---|
712 | pand L$0x1c2_polynomial(%rip),%xmm5
|
---|
713 | pxor %xmm5,%xmm2
|
---|
714 |
|
---|
715 |
|
---|
716 | pshufd $78,%xmm2,%xmm6
|
---|
717 | movdqa %xmm2,%xmm0
|
---|
718 | pxor %xmm2,%xmm6
|
---|
719 | movdqa %xmm0,%xmm1
|
---|
720 | pshufd $78,%xmm0,%xmm3
|
---|
721 | pxor %xmm0,%xmm3
|
---|
722 | .byte 102,15,58,68,194,0
|
---|
723 | .byte 102,15,58,68,202,17
|
---|
724 | .byte 102,15,58,68,222,0
|
---|
725 | pxor %xmm0,%xmm3
|
---|
726 | pxor %xmm1,%xmm3
|
---|
727 |
|
---|
728 | movdqa %xmm3,%xmm4
|
---|
729 | psrldq $8,%xmm3
|
---|
730 | pslldq $8,%xmm4
|
---|
731 | pxor %xmm3,%xmm1
|
---|
732 | pxor %xmm4,%xmm0
|
---|
733 |
|
---|
734 | movdqa %xmm0,%xmm4
|
---|
735 | movdqa %xmm0,%xmm3
|
---|
736 | psllq $5,%xmm0
|
---|
737 | pxor %xmm0,%xmm3
|
---|
738 | psllq $1,%xmm0
|
---|
739 | pxor %xmm3,%xmm0
|
---|
740 | psllq $57,%xmm0
|
---|
741 | movdqa %xmm0,%xmm3
|
---|
742 | pslldq $8,%xmm0
|
---|
743 | psrldq $8,%xmm3
|
---|
744 | pxor %xmm4,%xmm0
|
---|
745 | pxor %xmm3,%xmm1
|
---|
746 |
|
---|
747 |
|
---|
748 | movdqa %xmm0,%xmm4
|
---|
749 | psrlq $1,%xmm0
|
---|
750 | pxor %xmm4,%xmm1
|
---|
751 | pxor %xmm0,%xmm4
|
---|
752 | psrlq $5,%xmm0
|
---|
753 | pxor %xmm4,%xmm0
|
---|
754 | psrlq $1,%xmm0
|
---|
755 | pxor %xmm1,%xmm0
|
---|
756 | pshufd $78,%xmm2,%xmm3
|
---|
757 | pshufd $78,%xmm0,%xmm4
|
---|
758 | pxor %xmm2,%xmm3
|
---|
759 | movdqu %xmm2,0(%rdi)
|
---|
760 | pxor %xmm0,%xmm4
|
---|
761 | movdqu %xmm0,16(%rdi)
|
---|
762 | .byte 102,15,58,15,227,8
|
---|
763 | movdqu %xmm4,32(%rdi)
|
---|
764 | movdqa %xmm0,%xmm1
|
---|
765 | pshufd $78,%xmm0,%xmm3
|
---|
766 | pxor %xmm0,%xmm3
|
---|
767 | .byte 102,15,58,68,194,0
|
---|
768 | .byte 102,15,58,68,202,17
|
---|
769 | .byte 102,15,58,68,222,0
|
---|
770 | pxor %xmm0,%xmm3
|
---|
771 | pxor %xmm1,%xmm3
|
---|
772 |
|
---|
773 | movdqa %xmm3,%xmm4
|
---|
774 | psrldq $8,%xmm3
|
---|
775 | pslldq $8,%xmm4
|
---|
776 | pxor %xmm3,%xmm1
|
---|
777 | pxor %xmm4,%xmm0
|
---|
778 |
|
---|
779 | movdqa %xmm0,%xmm4
|
---|
780 | movdqa %xmm0,%xmm3
|
---|
781 | psllq $5,%xmm0
|
---|
782 | pxor %xmm0,%xmm3
|
---|
783 | psllq $1,%xmm0
|
---|
784 | pxor %xmm3,%xmm0
|
---|
785 | psllq $57,%xmm0
|
---|
786 | movdqa %xmm0,%xmm3
|
---|
787 | pslldq $8,%xmm0
|
---|
788 | psrldq $8,%xmm3
|
---|
789 | pxor %xmm4,%xmm0
|
---|
790 | pxor %xmm3,%xmm1
|
---|
791 |
|
---|
792 |
|
---|
793 | movdqa %xmm0,%xmm4
|
---|
794 | psrlq $1,%xmm0
|
---|
795 | pxor %xmm4,%xmm1
|
---|
796 | pxor %xmm0,%xmm4
|
---|
797 | psrlq $5,%xmm0
|
---|
798 | pxor %xmm4,%xmm0
|
---|
799 | psrlq $1,%xmm0
|
---|
800 | pxor %xmm1,%xmm0
|
---|
801 | movdqa %xmm0,%xmm5
|
---|
802 | movdqa %xmm0,%xmm1
|
---|
803 | pshufd $78,%xmm0,%xmm3
|
---|
804 | pxor %xmm0,%xmm3
|
---|
805 | .byte 102,15,58,68,194,0
|
---|
806 | .byte 102,15,58,68,202,17
|
---|
807 | .byte 102,15,58,68,222,0
|
---|
808 | pxor %xmm0,%xmm3
|
---|
809 | pxor %xmm1,%xmm3
|
---|
810 |
|
---|
811 | movdqa %xmm3,%xmm4
|
---|
812 | psrldq $8,%xmm3
|
---|
813 | pslldq $8,%xmm4
|
---|
814 | pxor %xmm3,%xmm1
|
---|
815 | pxor %xmm4,%xmm0
|
---|
816 |
|
---|
817 | movdqa %xmm0,%xmm4
|
---|
818 | movdqa %xmm0,%xmm3
|
---|
819 | psllq $5,%xmm0
|
---|
820 | pxor %xmm0,%xmm3
|
---|
821 | psllq $1,%xmm0
|
---|
822 | pxor %xmm3,%xmm0
|
---|
823 | psllq $57,%xmm0
|
---|
824 | movdqa %xmm0,%xmm3
|
---|
825 | pslldq $8,%xmm0
|
---|
826 | psrldq $8,%xmm3
|
---|
827 | pxor %xmm4,%xmm0
|
---|
828 | pxor %xmm3,%xmm1
|
---|
829 |
|
---|
830 |
|
---|
831 | movdqa %xmm0,%xmm4
|
---|
832 | psrlq $1,%xmm0
|
---|
833 | pxor %xmm4,%xmm1
|
---|
834 | pxor %xmm0,%xmm4
|
---|
835 | psrlq $5,%xmm0
|
---|
836 | pxor %xmm4,%xmm0
|
---|
837 | psrlq $1,%xmm0
|
---|
838 | pxor %xmm1,%xmm0
|
---|
839 | pshufd $78,%xmm5,%xmm3
|
---|
840 | pshufd $78,%xmm0,%xmm4
|
---|
841 | pxor %xmm5,%xmm3
|
---|
842 | movdqu %xmm5,48(%rdi)
|
---|
843 | pxor %xmm0,%xmm4
|
---|
844 | movdqu %xmm0,64(%rdi)
|
---|
845 | .byte 102,15,58,15,227,8
|
---|
846 | movdqu %xmm4,80(%rdi)
|
---|
847 | .byte 0xf3,0xc3
|
---|
848 |
|
---|
849 |
|
---|
850 | .globl _gcm_gmult_clmul
|
---|
851 |
|
---|
852 | .p2align 4
|
---|
853 | _gcm_gmult_clmul:
|
---|
854 |
|
---|
855 | L$_gmult_clmul:
|
---|
856 | movdqu (%rdi),%xmm0
|
---|
857 | movdqa L$bswap_mask(%rip),%xmm5
|
---|
858 | movdqu (%rsi),%xmm2
|
---|
859 | movdqu 32(%rsi),%xmm4
|
---|
860 | .byte 102,15,56,0,197
|
---|
861 | movdqa %xmm0,%xmm1
|
---|
862 | pshufd $78,%xmm0,%xmm3
|
---|
863 | pxor %xmm0,%xmm3
|
---|
864 | .byte 102,15,58,68,194,0
|
---|
865 | .byte 102,15,58,68,202,17
|
---|
866 | .byte 102,15,58,68,220,0
|
---|
867 | pxor %xmm0,%xmm3
|
---|
868 | pxor %xmm1,%xmm3
|
---|
869 |
|
---|
870 | movdqa %xmm3,%xmm4
|
---|
871 | psrldq $8,%xmm3
|
---|
872 | pslldq $8,%xmm4
|
---|
873 | pxor %xmm3,%xmm1
|
---|
874 | pxor %xmm4,%xmm0
|
---|
875 |
|
---|
876 | movdqa %xmm0,%xmm4
|
---|
877 | movdqa %xmm0,%xmm3
|
---|
878 | psllq $5,%xmm0
|
---|
879 | pxor %xmm0,%xmm3
|
---|
880 | psllq $1,%xmm0
|
---|
881 | pxor %xmm3,%xmm0
|
---|
882 | psllq $57,%xmm0
|
---|
883 | movdqa %xmm0,%xmm3
|
---|
884 | pslldq $8,%xmm0
|
---|
885 | psrldq $8,%xmm3
|
---|
886 | pxor %xmm4,%xmm0
|
---|
887 | pxor %xmm3,%xmm1
|
---|
888 |
|
---|
889 |
|
---|
890 | movdqa %xmm0,%xmm4
|
---|
891 | psrlq $1,%xmm0
|
---|
892 | pxor %xmm4,%xmm1
|
---|
893 | pxor %xmm0,%xmm4
|
---|
894 | psrlq $5,%xmm0
|
---|
895 | pxor %xmm4,%xmm0
|
---|
896 | psrlq $1,%xmm0
|
---|
897 | pxor %xmm1,%xmm0
|
---|
898 | .byte 102,15,56,0,197
|
---|
899 | movdqu %xmm0,(%rdi)
|
---|
900 | .byte 0xf3,0xc3
|
---|
901 |
|
---|
902 |
|
---|
903 | .globl _gcm_ghash_clmul
|
---|
904 |
|
---|
905 | .p2align 5
|
---|
906 | _gcm_ghash_clmul:
|
---|
907 |
|
---|
908 | L$_ghash_clmul:
|
---|
909 | movdqa L$bswap_mask(%rip),%xmm10
|
---|
910 |
|
---|
911 | movdqu (%rdi),%xmm0
|
---|
912 | movdqu (%rsi),%xmm2
|
---|
913 | movdqu 32(%rsi),%xmm7
|
---|
914 | .byte 102,65,15,56,0,194
|
---|
915 |
|
---|
916 | subq $0x10,%rcx
|
---|
917 | jz L$odd_tail
|
---|
918 |
|
---|
919 | movdqu 16(%rsi),%xmm6
|
---|
920 | movl _OPENSSL_ia32cap_P+4(%rip),%eax
|
---|
921 | cmpq $0x30,%rcx
|
---|
922 | jb L$skip4x
|
---|
923 |
|
---|
924 | andl $71303168,%eax
|
---|
925 | cmpl $4194304,%eax
|
---|
926 | je L$skip4x
|
---|
927 |
|
---|
928 | subq $0x30,%rcx
|
---|
929 | movq $0xA040608020C0E000,%rax
|
---|
930 | movdqu 48(%rsi),%xmm14
|
---|
931 | movdqu 64(%rsi),%xmm15
|
---|
932 |
|
---|
933 |
|
---|
934 |
|
---|
935 |
|
---|
936 | movdqu 48(%rdx),%xmm3
|
---|
937 | movdqu 32(%rdx),%xmm11
|
---|
938 | .byte 102,65,15,56,0,218
|
---|
939 | .byte 102,69,15,56,0,218
|
---|
940 | movdqa %xmm3,%xmm5
|
---|
941 | pshufd $78,%xmm3,%xmm4
|
---|
942 | pxor %xmm3,%xmm4
|
---|
943 | .byte 102,15,58,68,218,0
|
---|
944 | .byte 102,15,58,68,234,17
|
---|
945 | .byte 102,15,58,68,231,0
|
---|
946 |
|
---|
947 | movdqa %xmm11,%xmm13
|
---|
948 | pshufd $78,%xmm11,%xmm12
|
---|
949 | pxor %xmm11,%xmm12
|
---|
950 | .byte 102,68,15,58,68,222,0
|
---|
951 | .byte 102,68,15,58,68,238,17
|
---|
952 | .byte 102,68,15,58,68,231,16
|
---|
953 | xorps %xmm11,%xmm3
|
---|
954 | xorps %xmm13,%xmm5
|
---|
955 | movups 80(%rsi),%xmm7
|
---|
956 | xorps %xmm12,%xmm4
|
---|
957 |
|
---|
958 | movdqu 16(%rdx),%xmm11
|
---|
959 | movdqu 0(%rdx),%xmm8
|
---|
960 | .byte 102,69,15,56,0,218
|
---|
961 | .byte 102,69,15,56,0,194
|
---|
962 | movdqa %xmm11,%xmm13
|
---|
963 | pshufd $78,%xmm11,%xmm12
|
---|
964 | pxor %xmm8,%xmm0
|
---|
965 | pxor %xmm11,%xmm12
|
---|
966 | .byte 102,69,15,58,68,222,0
|
---|
967 | movdqa %xmm0,%xmm1
|
---|
968 | pshufd $78,%xmm0,%xmm8
|
---|
969 | pxor %xmm0,%xmm8
|
---|
970 | .byte 102,69,15,58,68,238,17
|
---|
971 | .byte 102,68,15,58,68,231,0
|
---|
972 | xorps %xmm11,%xmm3
|
---|
973 | xorps %xmm13,%xmm5
|
---|
974 |
|
---|
975 | leaq 64(%rdx),%rdx
|
---|
976 | subq $0x40,%rcx
|
---|
977 | jc L$tail4x
|
---|
978 |
|
---|
979 | jmp L$mod4_loop
|
---|
980 | .p2align 5
|
---|
981 | L$mod4_loop:
|
---|
982 | .byte 102,65,15,58,68,199,0
|
---|
983 | xorps %xmm12,%xmm4
|
---|
984 | movdqu 48(%rdx),%xmm11
|
---|
985 | .byte 102,69,15,56,0,218
|
---|
986 | .byte 102,65,15,58,68,207,17
|
---|
987 | xorps %xmm3,%xmm0
|
---|
988 | movdqu 32(%rdx),%xmm3
|
---|
989 | movdqa %xmm11,%xmm13
|
---|
990 | .byte 102,68,15,58,68,199,16
|
---|
991 | pshufd $78,%xmm11,%xmm12
|
---|
992 | xorps %xmm5,%xmm1
|
---|
993 | pxor %xmm11,%xmm12
|
---|
994 | .byte 102,65,15,56,0,218
|
---|
995 | movups 32(%rsi),%xmm7
|
---|
996 | xorps %xmm4,%xmm8
|
---|
997 | .byte 102,68,15,58,68,218,0
|
---|
998 | pshufd $78,%xmm3,%xmm4
|
---|
999 |
|
---|
1000 | pxor %xmm0,%xmm8
|
---|
1001 | movdqa %xmm3,%xmm5
|
---|
1002 | pxor %xmm1,%xmm8
|
---|
1003 | pxor %xmm3,%xmm4
|
---|
1004 | movdqa %xmm8,%xmm9
|
---|
1005 | .byte 102,68,15,58,68,234,17
|
---|
1006 | pslldq $8,%xmm8
|
---|
1007 | psrldq $8,%xmm9
|
---|
1008 | pxor %xmm8,%xmm0
|
---|
1009 | movdqa L$7_mask(%rip),%xmm8
|
---|
1010 | pxor %xmm9,%xmm1
|
---|
1011 | .byte 102,76,15,110,200
|
---|
1012 |
|
---|
1013 | pand %xmm0,%xmm8
|
---|
1014 | .byte 102,69,15,56,0,200
|
---|
1015 | pxor %xmm0,%xmm9
|
---|
1016 | .byte 102,68,15,58,68,231,0
|
---|
1017 | psllq $57,%xmm9
|
---|
1018 | movdqa %xmm9,%xmm8
|
---|
1019 | pslldq $8,%xmm9
|
---|
1020 | .byte 102,15,58,68,222,0
|
---|
1021 | psrldq $8,%xmm8
|
---|
1022 | pxor %xmm9,%xmm0
|
---|
1023 | pxor %xmm8,%xmm1
|
---|
1024 | movdqu 0(%rdx),%xmm8
|
---|
1025 |
|
---|
1026 | movdqa %xmm0,%xmm9
|
---|
1027 | psrlq $1,%xmm0
|
---|
1028 | .byte 102,15,58,68,238,17
|
---|
1029 | xorps %xmm11,%xmm3
|
---|
1030 | movdqu 16(%rdx),%xmm11
|
---|
1031 | .byte 102,69,15,56,0,218
|
---|
1032 | .byte 102,15,58,68,231,16
|
---|
1033 | xorps %xmm13,%xmm5
|
---|
1034 | movups 80(%rsi),%xmm7
|
---|
1035 | .byte 102,69,15,56,0,194
|
---|
1036 | pxor %xmm9,%xmm1
|
---|
1037 | pxor %xmm0,%xmm9
|
---|
1038 | psrlq $5,%xmm0
|
---|
1039 |
|
---|
1040 | movdqa %xmm11,%xmm13
|
---|
1041 | pxor %xmm12,%xmm4
|
---|
1042 | pshufd $78,%xmm11,%xmm12
|
---|
1043 | pxor %xmm9,%xmm0
|
---|
1044 | pxor %xmm8,%xmm1
|
---|
1045 | pxor %xmm11,%xmm12
|
---|
1046 | .byte 102,69,15,58,68,222,0
|
---|
1047 | psrlq $1,%xmm0
|
---|
1048 | pxor %xmm1,%xmm0
|
---|
1049 | movdqa %xmm0,%xmm1
|
---|
1050 | .byte 102,69,15,58,68,238,17
|
---|
1051 | xorps %xmm11,%xmm3
|
---|
1052 | pshufd $78,%xmm0,%xmm8
|
---|
1053 | pxor %xmm0,%xmm8
|
---|
1054 |
|
---|
1055 | .byte 102,68,15,58,68,231,0
|
---|
1056 | xorps %xmm13,%xmm5
|
---|
1057 |
|
---|
1058 | leaq 64(%rdx),%rdx
|
---|
1059 | subq $0x40,%rcx
|
---|
1060 | jnc L$mod4_loop
|
---|
1061 |
|
---|
1062 | L$tail4x:
|
---|
1063 | .byte 102,65,15,58,68,199,0
|
---|
1064 | .byte 102,65,15,58,68,207,17
|
---|
1065 | .byte 102,68,15,58,68,199,16
|
---|
1066 | xorps %xmm12,%xmm4
|
---|
1067 | xorps %xmm3,%xmm0
|
---|
1068 | xorps %xmm5,%xmm1
|
---|
1069 | pxor %xmm0,%xmm1
|
---|
1070 | pxor %xmm4,%xmm8
|
---|
1071 |
|
---|
1072 | pxor %xmm1,%xmm8
|
---|
1073 | pxor %xmm0,%xmm1
|
---|
1074 |
|
---|
1075 | movdqa %xmm8,%xmm9
|
---|
1076 | psrldq $8,%xmm8
|
---|
1077 | pslldq $8,%xmm9
|
---|
1078 | pxor %xmm8,%xmm1
|
---|
1079 | pxor %xmm9,%xmm0
|
---|
1080 |
|
---|
1081 | movdqa %xmm0,%xmm4
|
---|
1082 | movdqa %xmm0,%xmm3
|
---|
1083 | psllq $5,%xmm0
|
---|
1084 | pxor %xmm0,%xmm3
|
---|
1085 | psllq $1,%xmm0
|
---|
1086 | pxor %xmm3,%xmm0
|
---|
1087 | psllq $57,%xmm0
|
---|
1088 | movdqa %xmm0,%xmm3
|
---|
1089 | pslldq $8,%xmm0
|
---|
1090 | psrldq $8,%xmm3
|
---|
1091 | pxor %xmm4,%xmm0
|
---|
1092 | pxor %xmm3,%xmm1
|
---|
1093 |
|
---|
1094 |
|
---|
1095 | movdqa %xmm0,%xmm4
|
---|
1096 | psrlq $1,%xmm0
|
---|
1097 | pxor %xmm4,%xmm1
|
---|
1098 | pxor %xmm0,%xmm4
|
---|
1099 | psrlq $5,%xmm0
|
---|
1100 | pxor %xmm4,%xmm0
|
---|
1101 | psrlq $1,%xmm0
|
---|
1102 | pxor %xmm1,%xmm0
|
---|
1103 | addq $0x40,%rcx
|
---|
1104 | jz L$done
|
---|
1105 | movdqu 32(%rsi),%xmm7
|
---|
1106 | subq $0x10,%rcx
|
---|
1107 | jz L$odd_tail
|
---|
1108 | L$skip4x:
|
---|
1109 |
|
---|
1110 |
|
---|
1111 |
|
---|
1112 |
|
---|
1113 |
|
---|
1114 | movdqu (%rdx),%xmm8
|
---|
1115 | movdqu 16(%rdx),%xmm3
|
---|
1116 | .byte 102,69,15,56,0,194
|
---|
1117 | .byte 102,65,15,56,0,218
|
---|
1118 | pxor %xmm8,%xmm0
|
---|
1119 |
|
---|
1120 | movdqa %xmm3,%xmm5
|
---|
1121 | pshufd $78,%xmm3,%xmm4
|
---|
1122 | pxor %xmm3,%xmm4
|
---|
1123 | .byte 102,15,58,68,218,0
|
---|
1124 | .byte 102,15,58,68,234,17
|
---|
1125 | .byte 102,15,58,68,231,0
|
---|
1126 |
|
---|
1127 | leaq 32(%rdx),%rdx
|
---|
1128 | nop
|
---|
1129 | subq $0x20,%rcx
|
---|
1130 | jbe L$even_tail
|
---|
1131 | nop
|
---|
1132 | jmp L$mod_loop
|
---|
1133 |
|
---|
1134 | .p2align 5
|
---|
1135 | L$mod_loop:
|
---|
1136 | movdqa %xmm0,%xmm1
|
---|
1137 | movdqa %xmm4,%xmm8
|
---|
1138 | pshufd $78,%xmm0,%xmm4
|
---|
1139 | pxor %xmm0,%xmm4
|
---|
1140 |
|
---|
1141 | .byte 102,15,58,68,198,0
|
---|
1142 | .byte 102,15,58,68,206,17
|
---|
1143 | .byte 102,15,58,68,231,16
|
---|
1144 |
|
---|
1145 | pxor %xmm3,%xmm0
|
---|
1146 | pxor %xmm5,%xmm1
|
---|
1147 | movdqu (%rdx),%xmm9
|
---|
1148 | pxor %xmm0,%xmm8
|
---|
1149 | .byte 102,69,15,56,0,202
|
---|
1150 | movdqu 16(%rdx),%xmm3
|
---|
1151 |
|
---|
1152 | pxor %xmm1,%xmm8
|
---|
1153 | pxor %xmm9,%xmm1
|
---|
1154 | pxor %xmm8,%xmm4
|
---|
1155 | .byte 102,65,15,56,0,218
|
---|
1156 | movdqa %xmm4,%xmm8
|
---|
1157 | psrldq $8,%xmm8
|
---|
1158 | pslldq $8,%xmm4
|
---|
1159 | pxor %xmm8,%xmm1
|
---|
1160 | pxor %xmm4,%xmm0
|
---|
1161 |
|
---|
1162 | movdqa %xmm3,%xmm5
|
---|
1163 |
|
---|
1164 | movdqa %xmm0,%xmm9
|
---|
1165 | movdqa %xmm0,%xmm8
|
---|
1166 | psllq $5,%xmm0
|
---|
1167 | pxor %xmm0,%xmm8
|
---|
1168 | .byte 102,15,58,68,218,0
|
---|
1169 | psllq $1,%xmm0
|
---|
1170 | pxor %xmm8,%xmm0
|
---|
1171 | psllq $57,%xmm0
|
---|
1172 | movdqa %xmm0,%xmm8
|
---|
1173 | pslldq $8,%xmm0
|
---|
1174 | psrldq $8,%xmm8
|
---|
1175 | pxor %xmm9,%xmm0
|
---|
1176 | pshufd $78,%xmm5,%xmm4
|
---|
1177 | pxor %xmm8,%xmm1
|
---|
1178 | pxor %xmm5,%xmm4
|
---|
1179 |
|
---|
1180 | movdqa %xmm0,%xmm9
|
---|
1181 | psrlq $1,%xmm0
|
---|
1182 | .byte 102,15,58,68,234,17
|
---|
1183 | pxor %xmm9,%xmm1
|
---|
1184 | pxor %xmm0,%xmm9
|
---|
1185 | psrlq $5,%xmm0
|
---|
1186 | pxor %xmm9,%xmm0
|
---|
1187 | leaq 32(%rdx),%rdx
|
---|
1188 | psrlq $1,%xmm0
|
---|
1189 | .byte 102,15,58,68,231,0
|
---|
1190 | pxor %xmm1,%xmm0
|
---|
1191 |
|
---|
1192 | subq $0x20,%rcx
|
---|
1193 | ja L$mod_loop
|
---|
1194 |
|
---|
1195 | L$even_tail:
|
---|
1196 | movdqa %xmm0,%xmm1
|
---|
1197 | movdqa %xmm4,%xmm8
|
---|
1198 | pshufd $78,%xmm0,%xmm4
|
---|
1199 | pxor %xmm0,%xmm4
|
---|
1200 |
|
---|
1201 | .byte 102,15,58,68,198,0
|
---|
1202 | .byte 102,15,58,68,206,17
|
---|
1203 | .byte 102,15,58,68,231,16
|
---|
1204 |
|
---|
1205 | pxor %xmm3,%xmm0
|
---|
1206 | pxor %xmm5,%xmm1
|
---|
1207 | pxor %xmm0,%xmm8
|
---|
1208 | pxor %xmm1,%xmm8
|
---|
1209 | pxor %xmm8,%xmm4
|
---|
1210 | movdqa %xmm4,%xmm8
|
---|
1211 | psrldq $8,%xmm8
|
---|
1212 | pslldq $8,%xmm4
|
---|
1213 | pxor %xmm8,%xmm1
|
---|
1214 | pxor %xmm4,%xmm0
|
---|
1215 |
|
---|
1216 | movdqa %xmm0,%xmm4
|
---|
1217 | movdqa %xmm0,%xmm3
|
---|
1218 | psllq $5,%xmm0
|
---|
1219 | pxor %xmm0,%xmm3
|
---|
1220 | psllq $1,%xmm0
|
---|
1221 | pxor %xmm3,%xmm0
|
---|
1222 | psllq $57,%xmm0
|
---|
1223 | movdqa %xmm0,%xmm3
|
---|
1224 | pslldq $8,%xmm0
|
---|
1225 | psrldq $8,%xmm3
|
---|
1226 | pxor %xmm4,%xmm0
|
---|
1227 | pxor %xmm3,%xmm1
|
---|
1228 |
|
---|
1229 |
|
---|
1230 | movdqa %xmm0,%xmm4
|
---|
1231 | psrlq $1,%xmm0
|
---|
1232 | pxor %xmm4,%xmm1
|
---|
1233 | pxor %xmm0,%xmm4
|
---|
1234 | psrlq $5,%xmm0
|
---|
1235 | pxor %xmm4,%xmm0
|
---|
1236 | psrlq $1,%xmm0
|
---|
1237 | pxor %xmm1,%xmm0
|
---|
1238 | testq %rcx,%rcx
|
---|
1239 | jnz L$done
|
---|
1240 |
|
---|
1241 | L$odd_tail:
|
---|
1242 | movdqu (%rdx),%xmm8
|
---|
1243 | .byte 102,69,15,56,0,194
|
---|
1244 | pxor %xmm8,%xmm0
|
---|
1245 | movdqa %xmm0,%xmm1
|
---|
1246 | pshufd $78,%xmm0,%xmm3
|
---|
1247 | pxor %xmm0,%xmm3
|
---|
1248 | .byte 102,15,58,68,194,0
|
---|
1249 | .byte 102,15,58,68,202,17
|
---|
1250 | .byte 102,15,58,68,223,0
|
---|
1251 | pxor %xmm0,%xmm3
|
---|
1252 | pxor %xmm1,%xmm3
|
---|
1253 |
|
---|
1254 | movdqa %xmm3,%xmm4
|
---|
1255 | psrldq $8,%xmm3
|
---|
1256 | pslldq $8,%xmm4
|
---|
1257 | pxor %xmm3,%xmm1
|
---|
1258 | pxor %xmm4,%xmm0
|
---|
1259 |
|
---|
1260 | movdqa %xmm0,%xmm4
|
---|
1261 | movdqa %xmm0,%xmm3
|
---|
1262 | psllq $5,%xmm0
|
---|
1263 | pxor %xmm0,%xmm3
|
---|
1264 | psllq $1,%xmm0
|
---|
1265 | pxor %xmm3,%xmm0
|
---|
1266 | psllq $57,%xmm0
|
---|
1267 | movdqa %xmm0,%xmm3
|
---|
1268 | pslldq $8,%xmm0
|
---|
1269 | psrldq $8,%xmm3
|
---|
1270 | pxor %xmm4,%xmm0
|
---|
1271 | pxor %xmm3,%xmm1
|
---|
1272 |
|
---|
1273 |
|
---|
1274 | movdqa %xmm0,%xmm4
|
---|
1275 | psrlq $1,%xmm0
|
---|
1276 | pxor %xmm4,%xmm1
|
---|
1277 | pxor %xmm0,%xmm4
|
---|
1278 | psrlq $5,%xmm0
|
---|
1279 | pxor %xmm4,%xmm0
|
---|
1280 | psrlq $1,%xmm0
|
---|
1281 | pxor %xmm1,%xmm0
|
---|
1282 | L$done:
|
---|
1283 | .byte 102,65,15,56,0,194
|
---|
1284 | movdqu %xmm0,(%rdi)
|
---|
1285 | .byte 0xf3,0xc3
|
---|
1286 |
|
---|
1287 |
|
---|
1288 | .globl _gcm_init_avx
|
---|
1289 |
|
---|
1290 | .p2align 5
|
---|
1291 | _gcm_init_avx:
|
---|
1292 |
|
---|
1293 | jmp L$_init_clmul
|
---|
1294 |
|
---|
1295 |
|
---|
1296 | .globl _gcm_gmult_avx
|
---|
1297 |
|
---|
1298 | .p2align 5
|
---|
1299 | _gcm_gmult_avx:
|
---|
1300 |
|
---|
1301 | jmp L$_gmult_clmul
|
---|
1302 |
|
---|
1303 |
|
---|
1304 | .globl _gcm_ghash_avx
|
---|
1305 |
|
---|
1306 | .p2align 5
|
---|
1307 | _gcm_ghash_avx:
|
---|
1308 |
|
---|
1309 | jmp L$_ghash_clmul
|
---|
1310 |
|
---|
1311 |
|
---|
1312 | .p2align 6
|
---|
1313 | L$bswap_mask:
|
---|
1314 | .byte 15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0
|
---|
1315 | L$0x1c2_polynomial:
|
---|
1316 | .byte 1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0xc2
|
---|
1317 | L$7_mask:
|
---|
1318 | .long 7,0,7,0
|
---|
1319 | L$7_mask_poly:
|
---|
1320 | .long 7,0,450,0
|
---|
1321 | .p2align 6
|
---|
1322 |
|
---|
1323 | L$rem_4bit:
|
---|
1324 | .long 0,0,0,471859200,0,943718400,0,610271232
|
---|
1325 | .long 0,1887436800,0,1822425088,0,1220542464,0,1423966208
|
---|
1326 | .long 0,3774873600,0,4246732800,0,3644850176,0,3311403008
|
---|
1327 | .long 0,2441084928,0,2376073216,0,2847932416,0,3051356160
|
---|
1328 |
|
---|
1329 | L$rem_8bit:
|
---|
1330 | .value 0x0000,0x01C2,0x0384,0x0246,0x0708,0x06CA,0x048C,0x054E
|
---|
1331 | .value 0x0E10,0x0FD2,0x0D94,0x0C56,0x0918,0x08DA,0x0A9C,0x0B5E
|
---|
1332 | .value 0x1C20,0x1DE2,0x1FA4,0x1E66,0x1B28,0x1AEA,0x18AC,0x196E
|
---|
1333 | .value 0x1230,0x13F2,0x11B4,0x1076,0x1538,0x14FA,0x16BC,0x177E
|
---|
1334 | .value 0x3840,0x3982,0x3BC4,0x3A06,0x3F48,0x3E8A,0x3CCC,0x3D0E
|
---|
1335 | .value 0x3650,0x3792,0x35D4,0x3416,0x3158,0x309A,0x32DC,0x331E
|
---|
1336 | .value 0x2460,0x25A2,0x27E4,0x2626,0x2368,0x22AA,0x20EC,0x212E
|
---|
1337 | .value 0x2A70,0x2BB2,0x29F4,0x2836,0x2D78,0x2CBA,0x2EFC,0x2F3E
|
---|
1338 | .value 0x7080,0x7142,0x7304,0x72C6,0x7788,0x764A,0x740C,0x75CE
|
---|
1339 | .value 0x7E90,0x7F52,0x7D14,0x7CD6,0x7998,0x785A,0x7A1C,0x7BDE
|
---|
1340 | .value 0x6CA0,0x6D62,0x6F24,0x6EE6,0x6BA8,0x6A6A,0x682C,0x69EE
|
---|
1341 | .value 0x62B0,0x6372,0x6134,0x60F6,0x65B8,0x647A,0x663C,0x67FE
|
---|
1342 | .value 0x48C0,0x4902,0x4B44,0x4A86,0x4FC8,0x4E0A,0x4C4C,0x4D8E
|
---|
1343 | .value 0x46D0,0x4712,0x4554,0x4496,0x41D8,0x401A,0x425C,0x439E
|
---|
1344 | .value 0x54E0,0x5522,0x5764,0x56A6,0x53E8,0x522A,0x506C,0x51AE
|
---|
1345 | .value 0x5AF0,0x5B32,0x5974,0x58B6,0x5DF8,0x5C3A,0x5E7C,0x5FBE
|
---|
1346 | .value 0xE100,0xE0C2,0xE284,0xE346,0xE608,0xE7CA,0xE58C,0xE44E
|
---|
1347 | .value 0xEF10,0xEED2,0xEC94,0xED56,0xE818,0xE9DA,0xEB9C,0xEA5E
|
---|
1348 | .value 0xFD20,0xFCE2,0xFEA4,0xFF66,0xFA28,0xFBEA,0xF9AC,0xF86E
|
---|
1349 | .value 0xF330,0xF2F2,0xF0B4,0xF176,0xF438,0xF5FA,0xF7BC,0xF67E
|
---|
1350 | .value 0xD940,0xD882,0xDAC4,0xDB06,0xDE48,0xDF8A,0xDDCC,0xDC0E
|
---|
1351 | .value 0xD750,0xD692,0xD4D4,0xD516,0xD058,0xD19A,0xD3DC,0xD21E
|
---|
1352 | .value 0xC560,0xC4A2,0xC6E4,0xC726,0xC268,0xC3AA,0xC1EC,0xC02E
|
---|
1353 | .value 0xCB70,0xCAB2,0xC8F4,0xC936,0xCC78,0xCDBA,0xCFFC,0xCE3E
|
---|
1354 | .value 0x9180,0x9042,0x9204,0x93C6,0x9688,0x974A,0x950C,0x94CE
|
---|
1355 | .value 0x9F90,0x9E52,0x9C14,0x9DD6,0x9898,0x995A,0x9B1C,0x9ADE
|
---|
1356 | .value 0x8DA0,0x8C62,0x8E24,0x8FE6,0x8AA8,0x8B6A,0x892C,0x88EE
|
---|
1357 | .value 0x83B0,0x8272,0x8034,0x81F6,0x84B8,0x857A,0x873C,0x86FE
|
---|
1358 | .value 0xA9C0,0xA802,0xAA44,0xAB86,0xAEC8,0xAF0A,0xAD4C,0xAC8E
|
---|
1359 | .value 0xA7D0,0xA612,0xA454,0xA596,0xA0D8,0xA11A,0xA35C,0xA29E
|
---|
1360 | .value 0xB5E0,0xB422,0xB664,0xB7A6,0xB2E8,0xB32A,0xB16C,0xB0AE
|
---|
1361 | .value 0xBBF0,0xBA32,0xB874,0xB9B6,0xBCF8,0xBD3A,0xBF7C,0xBEBE
|
---|
1362 |
|
---|
1363 | .byte 71,72,65,83,72,32,102,111,114,32,120,56,54,95,54,52,44,32,67,82,89,80,84,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,46,111,114,103,62,0
|
---|
1364 | .p2align 6
|
---|