AMD Piledriver และ K10: เผชิญหน้ากัน โปรเซสเซอร์ AMD ใหม่
หลังจากการพัฒนาในช่วงต้นทศวรรษ 2000 AMD ก็กลับมาอย่างปลอดภัยอีกครั้ง สภาวะปกติติดตามอยู่เสมอและถึงแม้จะค่อนข้างน่าสนใจและก้าวหน้าอย่างไม่ต้องสงสัยก็ตาม โซลูชั่นทางเทคนิค, ไม่แม้แต่จะพยายามแข่งขันกับ Intel ในแง่ของยอดขาย ณ กลางปี 2552 ส่วนแบ่งของบริษัทคิดเป็นประมาณ 14.5% ของตลาดไมโครโปรเซสเซอร์ ในเวลาเดียวกัน "คุณสมบัติ" ที่เป็นกรรมสิทธิ์ของชิป AMD เช่นส่วนขยายคำสั่ง 64 บิตหรือตัวควบคุมที่ติดตั้งอยู่ในโปรเซสเซอร์ หน่วยความจำเข้าถึงโดยสุ่ม- มีการใช้ชิปของคู่แข่งหลักมายาวนาน
ปัจจุบันผลิตภัณฑ์ของ AMD ครอบครองสองช่องที่แคบมาก: โปรเซสเซอร์ราคาประหยัดพิเศษสำหรับการสร้างคอมพิวเตอร์ระดับประหยัดและรุ่นประสิทธิภาพสูงซึ่งมีราคาถูกกว่าชิป Intel ที่เทียบเคียงได้สามถึงห้าเท่า
สิ่งนี้อธิบายความจริงที่ว่าบนชั้นวางของร้านค้าคุณจะพบโปรเซสเซอร์ AMD ของตระกูลและรุ่นต่างๆ - ตั้งแต่ Sempron และ Athlon ในยุคก่อนประวัติศาสตร์ที่ใช้สถาปัตยกรรม K8 ที่สมควรได้รับสำหรับซ็อกเก็ต Socket 939 ไปจนถึง Phenom II X6 แบบหกคอร์ที่ทันสมัยเป็นพิเศษ อาจเป็นไปได้ว่าตอนนี้ AMD ใช้สถาปัตยกรรม K10 ดังนั้นเราจะพูดถึงโปรเซสเซอร์ที่ออกแบบบนพื้นฐานของมันโดยเฉพาะ ซึ่งรวมถึง Phenom และ Phenom II รวมถึงรุ่นราคาประหยัดที่เรียกว่า Athlon II
ในอดีต ชิปที่ใช้ K10 ตัวแรกคือ Phenom X4 แบบ quad-core (ชื่อรหัส Agena) ซึ่งเปิดตัวในเดือนพฤศจิกายน พ.ศ. 2550 หลังจากนั้นไม่นานในเดือนเมษายน พ.ศ. 2551 Phenom X3 แบบสามคอร์ก็ปรากฏตัวขึ้นซึ่งเป็นโปรเซสเซอร์กลางเครื่องแรกของโลกสำหรับ คอมพิวเตอร์ตั้งโต๊ะซึ่งมีสามคอร์อยู่บนชิปตัวเดียว ในเดือนธันวาคม พ.ศ. 2551 ด้วยการเปลี่ยนไปใช้เทคโนโลยีการผลิต 45 นาโนเมตร ตระกูล Phenom II ที่ได้รับการปรับปรุงได้รับการแนะนำ และในเดือนกุมภาพันธ์ ชิปได้รับตัวเชื่อมต่อ Socket AM3 ใหม่ การผลิตแบบอนุกรมของ Phenom II X4 แบบ quad-core เริ่มต้นในเดือนมกราคม 2552, Phenom II X3 แบบสามคอร์ในเดือนกุมภาพันธ์ 2552, Phenom II X2 แบบ dual-core ในเดือนมิถุนายน 2552 และ Phenom II X2 แบบหกคอร์เมื่อเร็ว ๆ นี้ในเดือนเมษายน 2010.
Athlon II - สิ่งทดแทนที่ทันสมัยสำหรับ Sempron - คือ Phenom II ซึ่งปราศจากข้อได้เปรียบที่สำคัญที่สุดประการหนึ่งนั่นคือแคชระดับที่สามขนาดใหญ่ (L3) ซึ่งเหมือนกันกับคอร์ทั้งหมด มีจำหน่ายในเวอร์ชัน 2, 3 และ 4 คอร์ Athlon II X2 เริ่มผลิตตั้งแต่เดือนมิถุนายน พ.ศ. 2552, X4 ตั้งแต่เดือนกันยายน พ.ศ. 2552 และ X3 ตั้งแต่เดือนพฤศจิกายน พ.ศ. 2552
สถาปัตยกรรมเอเอ็มดี K10
อะไรคือความแตกต่างพื้นฐานระหว่างสถาปัตยกรรม K10 และ K8? ก่อนอื่น ในโปรเซสเซอร์ K10 คอร์ทั้งหมดถูกสร้างขึ้นบนชิปตัวเดียวและติดตั้งแคช L2 เฉพาะ นอกจากนี้ ชิป Phenom/Phenom 2 และเซิร์ฟเวอร์ Opteron ยังมีหน่วยความจำแคช L3 ทั่วไปสำหรับคอร์ทั้งหมด โดยมีปริมาณตั้งแต่ 2 ถึง 6 MB
ประโยชน์หลักประการที่สองของ K10 คือ HyperTransport 3.0 system bus ใหม่ที่มีทรูพุตสูงสุดถึง 41.6 GB/s ในทั้งสองทิศทางในโหมด 32 บิต หรือสูงถึง 10.4 GB/s ในทิศทางเดียวในโหมด 16 บิตและความถี่สูงขึ้น ถึง 2.6 GHz. จำได้ว่าความถี่ในการทำงานสูงสุด รุ่นก่อนหน้า HyperTransport 2.0 คือ 1.4 GHz และปริมาณงานสูงสุดคือ 22.4 หรือ 5.6 GB/s
บัสแบบกว้างมีความสำคัญเป็นพิเศษสำหรับโปรเซสเซอร์แบบมัลติคอร์ และ HyperTransport 3.0 มอบความสามารถในการกำหนดค่าช่องสัญญาณ ทำให้แต่ละคอร์มีช่องทางที่เป็นอิสระของตัวเอง นอกจากนี้โปรเซสเซอร์ K10 ยังสามารถเปลี่ยนความกว้างและความถี่การทำงานของบัสแบบไดนามิกตามสัดส่วนความถี่ของมันเอง
ควรสังเกตว่าในปัจจุบันชิป AMD บัส HyperTransport 3.0 ทำงานที่ความเร็วต่ำกว่าความเร็วสูงสุดที่อนุญาตมาก ใช้สามโหมดขึ้นอยู่กับรุ่น: 1.6 GHz และ 6.4 GB/s, 1.8 GHz และ 7.2 GB/s และ 2 GHz และ 8.0 GB/s ชิปที่ผลิตขึ้นยังไม่ได้ใช้โหมดมาตรฐานอีกสองโหมด - 2.4 GHz และ 9.6 GB/s และ 2.6 GHz และ 10.4 GB/s
โปรเซสเซอร์ K10 รวมตัวควบคุม RAM อิสระสองตัว ซึ่งเพิ่มความเร็วในการเข้าถึงโมดูลในสภาวะการทำงานจริง คอนโทรลเลอร์สามารถทำงานร่วมกับหน่วยความจำ DDR2-1066 (รุ่นสำหรับซ็อกเก็ต AM2+ และ AM3) หรือ DDR3 (ชิปสำหรับซ็อกเก็ต AM3) เนื่องจากคอนโทรลเลอร์ที่รวมอยู่ใน Phenom II และ Athlon II สำหรับซ็อกเก็ต AM3 รองรับ RAM ทั้งสองประเภท และซ็อกเก็ต AM3 นั้นเข้ากันได้กับ AM2+ รุ่นเก่า ดังนั้น CPU ใหม่จึงสามารถติดตั้งบนบอร์ด AM2+ รุ่นเก่าและทำงานกับหน่วยความจำ DDR2 ได้ ซึ่งหมายความว่าเมื่อคุณซื้อ Phenom II เพื่ออัปเกรด คุณจะไม่จำเป็นต้องเปลี่ยนเมนบอร์ดทันทีหรือซื้อ RAM ประเภทอื่น เช่น ในกรณีของชิป Intel i3/i5/i7
ไมโครโปรเซสเซอร์ที่มีสถาปัตยกรรม K10 ใช้เทคโนโลยีประหยัดพลังงานที่ทันสมัยทั้งชุด ได้แก่ AMD Cool"n"Quiet, CoolCore, Independent Dynamic Core และ Dual Dynamic Power Management นี้ ระบบที่ซับซ้อนช่วยให้คุณลดการใช้พลังงานของชิปทั้งหมดโดยอัตโนมัติในโหมดไม่ได้ใช้งาน ให้การจัดการพลังงานที่เป็นอิสระของตัวควบคุมหน่วยความจำและคอร์ และสามารถปิดองค์ประกอบโปรเซสเซอร์ที่ไม่ได้ใช้
ในที่สุดแกนเองก็ได้รับการปรับปรุงอย่างมีนัยสำคัญเช่นกัน การออกแบบการสุ่มตัวอย่าง การทำนายสาขาและสาขา และหน่วยการจัดส่งได้รับการออกแบบใหม่ ซึ่งทำให้สามารถปรับโหลดคอร์ให้เหมาะสมและปรับปรุงประสิทธิภาพได้ในที่สุด ความกว้างของบล็อก SSE เพิ่มขึ้นจาก 64 เป็น 128 บิต สามารถดำเนินการคำสั่ง 64 บิตเป็นหนึ่งเดียวได้ และเพิ่มการรองรับคำสั่ง SSE4a เพิ่มเติมอีกสองคำสั่ง (เพื่อไม่ให้สับสนกับชุดคำสั่ง SSE4.1 และ 4.2 ในโปรเซสเซอร์ อินเทลคอร์).
ที่นี่จำเป็นต้องพูดถึงข้อบกพร่องด้านการออกแบบที่ระบุในเซิร์ฟเวอร์ Opterons (ชื่อรหัส Barcelona) และใน Phenom X4 และ X3 ของรุ่นแรก - ที่เรียกว่า "ข้อผิดพลาด TLB" ซึ่งครั้งหนึ่งนำไปสู่การหยุดการจัดหาทั้งหมดโดยสมบูรณ์ ตัวเลือกการแก้ไข B2 ในกรณีที่เกิดขึ้นไม่บ่อยนัก ภายใต้ภาระงานสูง เนื่องจากข้อบกพร่องด้านการออกแบบในบล็อก TLD แคช L3 ระบบอาจทำงานไม่เสถียรและคาดเดาไม่ได้ ข้อบกพร่องดังกล่าวถือว่ามีความสำคัญต่อระบบเซิร์ฟเวอร์ ซึ่งเป็นเหตุให้การขนส่ง Opterons ที่ปล่อยออกมาทั้งหมดถูกระงับ มีการเปิดตัวแพตช์พิเศษสำหรับ Phenoms บนเดสก์ท็อปซึ่งจะปิดการใช้งานบล็อกที่มีข้อบกพร่องโดยใช้ BIOS แต่ในขณะเดียวกันประสิทธิภาพของโปรเซสเซอร์ก็ลดลงอย่างเห็นได้ชัด เมื่อเปลี่ยนไปใช้การแก้ไข B3 ปัญหาก็หมดไปโดยสิ้นเชิงและไม่พบชิปดังกล่าววางขายมาเป็นเวลานาน
ช่วงรุ่นปัจจุบัน
แม้ว่าโปรเซสเซอร์ AMD ระดับบนสุดจะด้อยกว่ารุ่นท็อปของ Intel อย่างสิ้นเชิง แต่ความเท่าเทียมกันบางส่วนยังคงอยู่ในเซ็กเมนต์ของชิปดูอัลและควอดคอร์ที่ผลิตจำนวนมากมาเป็นเวลานาน ในเวลาเดียวกันแพลตฟอร์ม AMD เองก็ราคาถูกลงอย่างเห็นได้ชัด - ไม่เพียง แต่โปรเซสเซอร์เองก็ราคาถูกลงเท่านั้น แต่ยังรวมถึงมาเธอร์บอร์ดด้วย ความแตกต่างนี้สังเกตได้ชัดเจนเป็นพิเศษหากคุณเปรียบเทียบเครื่องราคาประหยัดใน Phenom II X3 และ X4 กับคอมพิวเตอร์ที่ใช้ Core i3 ซึ่งมีประสิทธิภาพมากกว่าเล็กน้อย แต่มีราคาแพงกว่าเกือบสองเท่า และหากคุณเสียสละพลังที่มากขึ้นและเลือก Athlon II พีซีก็จะมีราคาถูกกว่าครึ่ง!
สำหรับเครื่องจักรที่มีประสิทธิผลมากขึ้นมีเพียงเครื่องที่ทรงพลังที่สุดเท่านั้นที่สามารถแข่งขันกับ Core i5 ได้ โมเดลอันทรงพลัง Phenom II X4 และ X6 แบบหกคอร์ล่าสุดสามารถเปรียบเทียบได้อย่างถูกต้องกับ Core i7 แบบ quad-core ที่อายุน้อยที่สุดเท่านั้น
Athlon II และ Phenom II ที่ผลิตทั้งหมดได้รับการออกแบบสำหรับการติดตั้งในซ็อกเก็ต AM3 ยกเว้นสองรุ่น: Phenom II X4 940 และ 920 ซึ่งติดตั้งในซ็อกเก็ต AM2+ และใช้งานได้กับ DDR2 RAM เท่านั้น ชิป Phenom ได้รับการออกแบบมาโดยเฉพาะสำหรับซ็อกเก็ต AM2 ไม่สามารถติดตั้งโปรเซสเซอร์สำหรับซ็อกเก็ต AM2+ ในซ็อกเก็ต AM3 ได้ แต่อย่างที่เราได้กล่าวไปแล้ว ชิป AM3 สามารถติดตั้งบนบอร์ดที่มีซ็อกเก็ต AM2+ ได้
เห็นได้ชัดว่า AMD กำลังค่อยๆ เลิกใช้ชิปสำหรับ Socket AM2 และเช่นเดียวกับ Intel ก็ใช้รุ่นที่รองรับ DDR3 RAM ที่ทันสมัยกว่า รุ่นสำหรับ AM3 และ AM2+ ซึ่งมีความถี่สัญญาณนาฬิกาและคุณลักษณะอื่น ๆ ที่คล้ายกันมีราคาเกือบเท่ากันและหากคุณคำนึงถึงความเข้ากันได้แบบย้อนหลังของชิปใหม่ก็แทบจะไม่มีประโยชน์ในการซื้อ Phenoms ตัวแรก ดังนั้นในอนาคตเราจะพิจารณาเฉพาะ Phenom II และ Athlon II เท่านั้น
ทั้ง Athlon II และ Phenom II มีจำหน่ายในเวอร์ชัน dual-, triple- และ quad-core (X2, X3, X4) และ "phenoms" ก็มีจำหน่ายในเวอร์ชัน 6-core เช่นกัน การปรับเปลี่ยนยังมีอยู่ ฉบับสีดำแตกต่างจากตัวมาตรฐานด้วยตัวคูณที่ปลดล็อคซึ่งทำให้การโอเวอร์คล็อกง่ายขึ้น
น่าเสียดายที่ชิป AMD ใหม่ส่วนใหญ่นั้นด้อยกว่าแพ็คเกจระบายความร้อนสำหรับรุ่น Intel ที่มีคุณสมบัติคล้ายกันอีกครั้งซึ่งหมายถึงความต้องการระบบระบายความร้อนที่มากขึ้นและการใช้พลังงานที่เพิ่มขึ้น สำหรับ Phenom II แบบมัลติคอร์ ค่า TDP ทั่วไปคือ 80, 95 หรือ 125 W การปรับเปลี่ยนแบบประหยัดพิเศษ (65 W) ด้วยตัวอักษร "e" หลังการขายดัชนีรุ่น แต่จะช้ากว่าตัวเลือก "ปกติ" อย่างเห็นได้ชัดและมีราคาแพงกว่า
โปรเซสเซอร์ Athlon II X2 เป็นชิปดูอัลคอร์ "ของจริง" ไม่ใช่ชิปควอดคอร์ที่มีแกนประมวลผลตายสองตัวเช่น Phenom II X2 แต่ Athlon II X3 นั้นเป็น Athlon II X4 ที่มีคอร์ไม่ทำงานหนึ่งคอร์ Athlon II ทั้งหมดผลิตขึ้นโดยใช้เทคโนโลยี 45 นาโนเมตร
แต่ละคอร์ของ Athlone X2, X3 และ X4 ติดตั้งแคช L1 ขนาด 128 KB และแคชระดับที่สอง 512 KB อย่างไรก็ตาม ไม่เหมือนกับ Phenom II ตรงที่พวกเขาไม่แชร์แคช L3 ซึ่งหมายความว่าโปรเซสเซอร์จะเข้าถึงแคชที่ช้ากว่าโดยธรรมชาติบ่อยกว่า หน่วยความจำระบบ. ผลลัพธ์ที่ได้คือประสิทธิภาพที่จำกัดในแอปพลิเคชันที่ใช้ทรัพยากรมาก เช่น กราฟิกสามมิติและ เกมส์คอมพิวเตอร์. อย่างไรก็ตามเมื่อใช้ร่วมกับการ์ดแสดงผลที่ดีระบบ Athlon II ก็แสดงให้เห็นถึงประสิทธิภาพการเล่นเกมที่ค่อนข้างดี
Phenom II เผชิญกับการแข่งขันที่รุนแรงจาก Core i3 และ i5 แต่สามารถเอาชนะต้นทุนของระบบที่เทียบเคียงได้อย่างแน่นอน เช่นเดียวกับ Athlon II แต่ละฟีนอมคอร์มีแคช L1 ขนาด 128 KB และแคช L2 ขนาด 512 KB ในเวลาเดียวกัน Phenom II ยังมีหน่วยความจำแคชระดับที่สามซึ่งเหมือนกันกับคอร์ทั้งหมด “ ปรากฏการณ์” เกือบทั้งหมด - สอง, สาม, สี่และหกคอร์ - มีแคช L3 6 MB ยกเว้นรุ่น X4 ที่อายุน้อยกว่าสามรุ่นที่มีดัชนี 805, 810 และ 820 ซึ่งมี L3 เพียง 4 MB .
ในส่วนที่สองของบทความ เราจะแนะนำให้คุณรู้จักกับบทสรุป ข้อมูลพื้นฐานเกี่ยวกับหลัก ข้อกำหนดทางเทคนิคปัจจุบันทั้งหมดผลิตโปรเซสเซอร์ AMD Athlon II และ Phenom II และมีราคาขายปลีกโดยประมาณสำหรับพวกเขาในร้านค้าในรัสเซีย โดยสรุปเราจะพูดถึงโมเดลที่น่าสนใจที่สุดในความคิดของเราซึ่งควรค่าแก่การใส่ใจ เอาใจใส่เป็นพิเศษเมื่อเลือก
ในช่วงต้นเดือนกันยายน บริษัทเอเอ็มดีสัญญาว่าจะนำเสนอโปรเซสเซอร์สถาปัตยกรรม K10 แบบ quad-core ใหม่ โปรเซสเซอร์ตัวแรกที่มีสถาปัตยกรรมใหม่นี้จะเป็นชิปเซิร์ฟเวอร์ Opteron บนคอร์ที่มีชื่อรหัสว่า Barcelona น่าเสียดายที่วิศวกรของ AMD ไม่สามารถผลิตโปรเซสเซอร์ที่ทำงานที่ความถี่สูงจำนวนมากในเวอร์ชันปัจจุบันได้ เห็นได้ชัดว่าอุปสรรคสำคัญในการเพิ่มความถี่คือความจริงที่ว่าคอร์สี่คอร์ที่ความถี่สูงใช้พลังงานเกินค่าที่กำหนดโดยแพ็คเกจระบายความร้อนของแพลตฟอร์ม การใช้พลังงานจะลดลง และความถี่จะเพิ่มขึ้นเมื่อมีการเปิดตัวการแก้ไขใหม่และการเปลี่ยนไปใช้กระบวนการทางเทคนิคที่ซับซ้อนมากขึ้น ในระหว่างนี้ AMD จำเป็นต้องเริ่มการขายอย่างเร่งด่วนเพื่อหลีกหนีจากสถานการณ์ทางเศรษฐกิจที่ยากลำบาก ดังนั้นการส่งมอบในบาร์เซโลนาจะเริ่มต้นด้วยโปรเซสเซอร์เซิร์ฟเวอร์ Quad-Core ที่ทำงานที่ความถี่ 2 GHzในไตรมาสที่สี่ของปี 2550 AMD สัญญาว่าจะเพิ่มความถี่ Opteron เป็น 2.4–2.5 GHz และเปิดตัวโปรเซสเซอร์สถาปัตยกรรม K10 เวอร์ชันเดสก์ท็อป:
Phenom FX (ชื่อรหัส Agena FX) – 4 คอร์, แคช L3 2 MB, ความถี่เริ่มต้นโดยประมาณที่ 2.2–2.4 GHz, ซ็อกเก็ต AM2+ และ F+;
Phenom X4 (ชื่อรหัส Agena) – 4 คอร์, แคช L3 2 MB, ความถี่เริ่มต้นโดยประมาณที่ 2.2–2.4 GHz, ซ็อกเก็ต AM2+
ต่อมาในต้นปี 2551 AMD สัญญาว่าจะเปิดตัวโปรเซสเซอร์ใหม่เวอร์ชันที่เรียบง่าย:
Phenom X2 (ชื่อรหัส Kuma) – 2 คอร์, แคช L3 2 MB, ความถี่เริ่มต้นโดยประมาณ 2.2–2.6 GHz, ซ็อกเก็ต AM2+;
Athlon X2 (ชื่อรหัส Rana) – 2 คอร์, ไม่มีแคช L3, ความถี่เริ่มต้นโดยประมาณ 2.2 GHz, ซ็อกเก็ต AM2+;
Sempron (ชื่อรหัส Spica) – 1 คอร์, ความถี่เริ่มต้นโดยประมาณ 2.2–2.4 GHz, ซ็อกเก็ต AM2+
แต่ทั้งหมดนี้เป็นเรื่องของอนาคตอันใกล้นี้ แต่ในระหว่างนี้เรามาดูกันว่าสถาปัตยกรรม AMD ใหม่ได้นำนวัตกรรมอะไรบ้าง ในบทความนี้ ฉันจะพยายามเปิดเผยรายละเอียดโดยละเอียดและประเมินสิ่งที่เราคาดหวังได้จากบทความนี้
กำลังดึงคำแนะนำ
การเรียกใช้โค้ดโดยโปรเซสเซอร์เริ่มต้นด้วยการดึงคำสั่งจากแคชคำสั่ง L1I แล้วถอดรหัส คำสั่ง x86 มีความยาวผันแปรได้ ทำให้ยากต่อการกำหนดขอบเขตก่อนถอดรหัส เพื่อให้แน่ใจว่าการกำหนดความยาวของคำสั่งจะไม่ส่งผลต่ออัตราการถอดรหัส โปรเซสเซอร์ K8/K10 จะดำเนินการถอดรหัสคำสั่งล่วงหน้าขณะโหลดบรรทัดลงในแคชคำสั่ง L1I ข้อมูลเกี่ยวกับโครงร่างคำสั่งจะถูกจัดเก็บไว้ในแคช L1I ในช่องพิเศษ (ข้อมูลการถอดรหัสล่วงหน้า 3 บิตสำหรับแต่ละไบต์ของคำสั่ง) การถอดรหัสล่วงหน้าเมื่อโหลดลงในแคชช่วยให้คุณสามารถย้ายค่าใช้จ่ายในการกำหนดขอบเขตคำสั่งไปนอกช่องถอดรหัสและรักษาอัตราการถอดรหัสให้คงที่โดยไม่คำนึงถึงความยาวและโครงสร้างของคำสั่งโปรเซสเซอร์จะโหลดคำสั่งจากแคชเป็นบล็อก ซึ่งคำสั่งจะถูกแยกและส่งไปเพื่อถอดรหัส สถาปัตยกรรมโปรเซสเซอร์ K10 ดึงคำสั่งจากแคชคำสั่ง L1I ในบล็อกขนาด 32 ไบต์ ซึ่งแตกต่างจากโปรเซสเซอร์ K8 และ Intel Core 2 ซึ่งดึงข้อมูลในบล็อกขนาด 16 ไบต์ อัตราการสุ่มตัวอย่าง 16 ไบต์ต่อนาฬิกาช่วยให้ K8 และ Core 2 ส่งคำสั่งห้าคำสั่งโดยมีความยาวเฉลี่ยสูงสุด 5 ไบต์สำหรับการถอดรหัสในแต่ละรอบสัญญาณนาฬิกา อย่างไรก็ตาม ความยาวของคำสั่ง x86 สามารถเข้าถึง 16 ไบต์ และในบางอัลกอริทึม ความยาวของคำสั่งที่อยู่ติดกันหลายคำสั่งในห่วงโซ่อาจเกิน 5 ไบต์ ซึ่งทำให้เป็นไปไม่ได้ที่จะถอดรหัสคำสั่งสามคำสั่งต่อรอบสัญญาณนาฬิกาในกรณีเช่นนี้ (รูปที่ 1)
ข้าว. 1. คำสั่งยาวหลายคำสั่งที่อยู่ติดกันจะจำกัดอัตราการก้าว
ถอดรหัสเมื่อสุ่มตัวอย่างในบล็อกขนาด 16 ไบต์
โดยเฉพาะอย่างยิ่ง ความยาวของ SSE2 เป็นคำสั่งง่ายๆ ที่มีตัวถูกดำเนินการลงทะเบียนเพื่อลงทะเบียน (ตัวอย่างเช่น movapd xmm0, xmm1) – คือ 4 ไบต์ อย่างไรก็ตาม เมื่อใช้การดำเนินการที่อยู่หน่วยความจำโดยใช้รีจิสเตอร์ฐานและออฟเซ็ตในคำสั่ง (เช่น movapdxmm0,) ความยาวของคำสั่งจะเพิ่มขึ้นเป็น 6–9 ไบต์ ขึ้นอยู่กับออฟเซ็ต ในโหมด 64 บิต เมื่อใช้รีจิสเตอร์เพิ่มเติม คำนำหน้า REX หนึ่งไบต์อื่นจะถูกเพิ่มลงในรหัสคำสั่ง ดังนั้นในโหมด 64 บิต ความยาวของคำสั่ง SSE2 สามารถเข้าถึง 7–10 ไบต์ ความยาวของคำสั่ง SSE1 จะน้อยกว่า 1 ไบต์หากเป็นคำสั่งแบบเวกเตอร์ (นั่นคือ มากกว่าค่า 32 บิตสี่ค่า) แต่คำสั่ง SSE1 แบบสเกลาร์ (มากกว่าหนึ่งตัวถูกดำเนินการ) ยังสามารถมีความยาวได้ถึง 7–10 ไบต์ภายใต้คำสั่งเดียวกัน เงื่อนไข.
การดึงข้อมูล 16 ไบต์ต่อรอบสัญญาณนาฬิกาไม่ใช่ข้อจำกัดในสถานการณ์นี้สำหรับโปรเซสเซอร์ K8 เนื่องจากยังคงไม่สามารถถอดรหัสคำสั่งเวกเตอร์ SSE ในอัตราที่สูงกว่า 3 คำสั่งต่อ 2 รอบสัญญาณนาฬิกา อย่างไรก็ตาม สำหรับสถาปัตยกรรม K10 การสุ่มตัวอย่าง 16 ไบต์อาจกลายเป็น ข้อจำกัด ดังนั้นการขยายความกว้างของการสุ่มตัวอย่างเป็น 32 ไบต์ต่อนาฬิกาจึงเป็นวิธีแก้ปัญหาที่สมเหตุสมผล
อย่างไรก็ตาม โปรเซสเซอร์ Core 2 ดึงคำสั่งเป็นบล็อกขนาด 16 ไบต์ เช่นเดียวกับโปรเซสเซอร์ K8 จึงสามารถถอดรหัสสตรีมคำสั่งได้อย่างมีประสิทธิภาพในอัตรา 4 ต่อนาฬิกาเฉพาะในกรณีที่ความยาวคำสั่งเฉลี่ยไม่เกิน 4 ไบต์ ไม่เช่นนั้นตัวถอดรหัส จะไม่สามารถประมวลผลได้อย่างมีประสิทธิภาพไม่เพียง แต่ 4 เท่านั้น แต่ยังรวมถึง 3 คำสั่งต่อรอบสัญญาณนาฬิกาด้วย อย่างไรก็ตาม Core 2 มีบัฟเฟอร์ภายในพิเศษขนาด 64 ไบต์ที่เก็บบล็อกขนาด 16 ไบต์สี่บล็อกสุดท้ายที่ร้องขอ การดึงข้อมูลจากบัฟเฟอร์นี้จะดำเนินการที่อัตรา 32 ไบต์ต่อรอบสัญญาณนาฬิกา บัฟเฟอร์นี้ช่วยให้คุณสามารถแคชรอบการทำงานที่สั้น ลบข้อจำกัดเกี่ยวกับอัตราการสุ่มตัวอย่างในวงจรเหล่านั้น และยังบันทึก 1 รอบสัญญาณนาฬิกาในแต่ละการคาดการณ์การเปลี่ยนผ่านไปยังจุดเริ่มต้นของรอบ อย่างไรก็ตาม ลูปต้องมีคำสั่งไม่เกิน 18 คำสั่ง กิ่งที่มีเงื่อนไขไม่เกิน 4 กิ่ง และไม่มีคำสั่งซ้ำ.
การทำนายการเปลี่ยนแปลง
เมื่อแบรนช์เกิดขึ้นในสตรีมคำสั่ง โปรเซสเซอร์จะต้องพยายามเดาพฤติกรรมเพิ่มเติมของโปรแกรมและทำการถอดรหัสต่อไปจากแบรนช์ที่น่าจะเป็นไปได้มากที่สุด เพื่อไม่ให้ขัดจังหวะการถอดรหัส ในกรณีเช่นนี้ บล็อกคำสั่งถัดไปจะถูกดึงออกมาโดยใช้กลไกการทำนายสาขา การทำนายสาขาในโปรเซสเซอร์ K8 ดำเนินการโดยใช้อัลกอริธึมสองระดับที่ปรับเปลี่ยนได้ ซึ่งคำนึงถึงประวัติสาขาไม่เพียงแต่คำสั่งปัจจุบันเท่านั้น แต่ยังรวมถึงคำสั่งก่อนหน้า 8 คำสั่งด้วย ข้อเสียเปรียบหลักของกลไกการทำนายสาขา K8 คือการขาดการคาดการณ์สาขาทางอ้อมที่มีที่อยู่แทรกแบบไดนามิกการเปลี่ยนทางอ้อมคือการเปลี่ยนผ่านที่ถูกสร้างขึ้นโดยใช้พอยน์เตอร์ซึ่งคำนวณแบบไดนามิกเมื่อรันโค้ดโปรแกรม โดยทั่วไปแล้ว การข้ามทางอ้อมจะถูกแทรกโดยคอมไพเลอร์เข้าไปในโครงสร้างสวิตช์เคส และยังใช้ในการเรียกใช้ฟังก์ชันตามที่อยู่ และการเรียกฟังก์ชันเสมือนในการเขียนโปรแกรมเชิงวัตถุอีกด้วย โปรเซสเซอร์ K8 จะพยายามดึงโค้ดจากที่อยู่สาขาสุดท้ายเสมอ หากที่อยู่มีการเปลี่ยนแปลงไปป์ไลน์จะถูกรีเซ็ต หากที่อยู่การกระโดดถูกแทรกเป็นระยะ โปรเซสเซอร์จะทำข้อผิดพลาดอย่างต่อเนื่อง กลไกในการทำนายการเปลี่ยนแปลงที่อยู่ของการกระโดดทางอ้อมแบบไดนามิกปรากฏขึ้นครั้งแรกในโปรเซสเซอร์ Pentium M การไม่มีกลไกดังกล่าวใน K8 จะลดประสิทธิภาพในโค้ดเชิงวัตถุ
ตามที่คาดไว้ การทำนายสาขาแบบมีเงื่อนไขใน K10 ได้รับการปรับปรุง:
กลไกปรากฏขึ้นสำหรับการทำนายการเปลี่ยนแปลงที่อยู่ของการเปลี่ยนทางอ้อมแบบไดนามิก ซึ่งทำนายจากตารางองค์ประกอบ 512 รายการ
ขนาดของการลงทะเบียนประวัติสากล ซึ่งใช้ในการกำหนดประวัติของลำดับของคำสั่งการข้ามก่อนหน้า เพิ่มขึ้นจาก 8 เป็น 12 บิต
ความลึกของสแต็กการส่งคืนเพิ่มขึ้นจาก 12 เป็น 24 องค์ประกอบ ซึ่งใช้เพื่อระบุที่อยู่ผู้ส่งจากฟังก์ชันอย่างรวดเร็ว เพื่อให้สามารถดึงข้อมูลต่อไปได้โดยไม่ต้องรอคำสั่ง ret เพื่อดึงที่อยู่ผู้ส่งจากสแต็ก
ด้วยการปรับปรุงเหล่านี้ K10 ควรได้รับการเพิ่มขึ้นอย่างเห็นได้ชัดในความเร็วของการทำงานของโปรแกรมที่เขียนด้วยภาษาเชิงวัตถุระดับสูง น่าเสียดายที่การประเมินประสิทธิภาพของหน่วยทำนายสาขา K10 อย่างเป็นกลางนั้นค่อนข้างยาก แต่จากข้อมูลบางส่วน ในบางกรณีอาจต่ำกว่าโปรเซสเซอร์ Intel
การถอดรหัส
บล็อกที่ได้รับจากแคชคำสั่งจะถูกคัดลอกไปยังบัฟเฟอร์การถอดรหัสล่วงหน้า ( ถอดรหัสล่วงหน้า/เลือกบัฟเฟอร์) โดยที่คำสั่งถูกแยกออกจากบล็อก ประเภทของคำสั่งจะถูกกำหนดและส่งไปยังช่องตัวถอดรหัสที่เกี่ยวข้อง คำแนะนำง่ายๆ ที่ถอดรหัสเป็นการดำเนินการมาโครหนึ่ง (เดี่ยว) หรือสอง (สองครั้ง) จะถูกส่งไปยังตัวถอดรหัส "แบบง่าย" ที่เรียกว่า ไดเร็กพาธ. คำแนะนำที่ซับซ้อนซึ่งถอดรหัสเป็นการดำเนินการแมโคร 3 รายการขึ้นไปจะถูกส่งไปยังตัวถอดรหัสเฟิร์มแวร์ที่เรียกว่า เวกเตอร์เส้นทาง.
ข้าว. 2. เครื่องถอดรหัส
แต่ละรอบสัญญาณนาฬิกา สามารถส่งออกการทำงานของแมโคร 3 รายการ (MOP) ออกจากช่องตัวถอดรหัสได้ ตัวถอดรหัส DirectPath สามารถถอดรหัสคำสั่งง่ายๆ 1-MOP ได้ 3 คำสั่งต่อรอบสัญญาณนาฬิกา หรือ 2-MOP หนึ่งคำสั่งและ 1-MOP หนึ่งคำสั่ง หรือคำสั่ง 2-MOP หนึ่งคำสั่งครึ่ง (คำสั่ง 2-MOP สามคำสั่งในสองรอบสัญญาณนาฬิกา) คำสั่งที่ซับซ้อนสามารถถอดรหัสได้ใน MOP มากกว่า 3 รายการ ดังนั้นการถอดรหัสคำสั่งดังกล่าวสามารถดำเนินต่อไปได้หลายรอบสัญญาณนาฬิกา เพื่อหลีกเลี่ยงการสร้างข้อขัดแย้งที่เอาต์พุตของช่องตัวถอดรหัส จึงไม่สามารถส่งคำสั่งที่ง่ายและซับซ้อนใน K8 และ K10 เพื่อถอดรหัสพร้อมกันได้
MOP ประกอบด้วย micro-ops หนึ่งคู่: หนึ่งการดำเนินการระดับย่อยของจำนวนเต็มหรือเลขคณิตจริง และการดำเนินการระดับย่อยของการเข้าถึงหน่วยความจำหนึ่งที่อยู่ การเลือกการดำเนินการระดับย่อยจาก MOP จะดำเนินการโดยผู้กำหนดตารางเวลา ซึ่งจะส่งการดำเนินการเหล่านั้นไปดำเนินการอย่างเป็นอิสระจากกัน
เอาต์พุต MOS จากตัวถอดรหัสในแต่ละรอบสัญญาณนาฬิกาจะถูกรวมเป็นกลุ่ม 3 กลุ่ม เนื่องจากการสลับคำสั่ง DirectPath และ VectorPath หรือความล่าช้าต่างๆ ในการดึงคำสั่งสำหรับการถอดรหัส กลุ่มที่มี 2 หรือเพียง 1 MOS สามารถสร้างขึ้นที่ตัวถอดรหัส เอาท์พุท กลุ่มดังกล่าวเต็มไปด้วย MOP เปล่าสูงสุดสามรายการ และในแบบฟอร์มนี้จะถูกส่งไปดำเนินการ
คำสั่ง Vector SSE, SSE2 และ SSE3 ในโปรเซสเซอร์ K8 แบ่งออกเป็นคู่ของ MOP ซึ่งแยกการประมวลผลครึ่งสูงและต่ำ 64 บิตของการลงทะเบียน SSE 128 บิตบนอุปกรณ์ 64 บิต ซึ่งจะช่วยลดอัตราการถอดรหัสคำสั่งลงครึ่งหนึ่ง และลดจำนวนคำสั่งที่เข้าสู่คิวตัวกำหนดตารางเวลาลงครึ่งหนึ่ง
เนื่องจากบล็อก FPU ในโปรเซสเซอร์ K10 ได้รับการขยายเป็น 128 บิต จึงไม่จำเป็นต้องแยกคำสั่ง vector SSE ออกเป็นสอง MOP คำสั่ง SSE ส่วนใหญ่ซึ่งถอดรหัสใน K8 เป็น DirectPath Double เริ่มถอดรหัสใน 1 MOS เป็น DirectPath Single ใน K10 นอกจากนี้ส่วนหนึ่งของคำสั่ง SSE ซึ่งใน K8 ถูกถอดรหัสผ่านตัวถอดรหัสเฟิร์มแวร์ VectorPath ใน K10 เริ่มถูกถอดรหัสผ่านตัวถอดรหัส DirectPath แบบธรรมดาโดยลดจำนวน MOP ที่สร้างขึ้นเป็น 1 หรือ 2 MOP (ขึ้นอยู่กับการดำเนินการ ).
การถอดรหัสคำสั่งจำนวนเต็มสำหรับการทำงานกับสแต็กก็ทำได้ง่ายขึ้นเช่นกัน รูปแบบคำสั่งสแต็กส่วนใหญ่ที่โดยทั่วไปใช้ในการเรียกฟังก์ชัน CALL-RET และ PUSH-POP ในตอนนี้ก็ถูกถอดรหัสด้วยตัวถอดรหัสธรรมดาให้เป็น MOS เดียวเช่นกัน นอกจากนี้ คำสั่งเหล่านี้ยังใช้รูปแบบพิเศษอีกด้วย เครื่องมือเพิ่มประสิทธิภาพกองซ้อนด้านข้างจะถูกแปลงเป็นสายโซ่อิสระของการปฏิบัติการระดับมหภาคที่สามารถดำเนินการแบบคู่ขนานได้
เครื่องมือเพิ่มประสิทธิภาพกองซ้อนด้านข้าง
ใน K10 บล็อกพิเศษที่เรียกว่า Sideband Stack Optimizer ได้ถูกเพิ่มเข้าไปในวงจรถอดรหัส หลักการทำงานคล้ายกับบล็อก Stack Pointer Tracker ใหม่ที่ใช้ในโปรเซสเซอร์ Core เหตุใดจึงจำเป็น? ชุดคำสั่ง x86 ใช้คำสั่ง CALL, RET, PUSH และ POP เพื่อเรียกใช้ฟังก์ชัน ออกจากฟังก์ชัน ส่งพารามิเตอร์ไปให้ฟังก์ชัน และบันทึกเนื้อหาของรีจิสเตอร์ คำแนะนำทั้งหมดนี้ใช้การลงทะเบียน ESP โดยปริยาย ซึ่งชี้ไปยังตำแหน่งปัจจุบันของสแต็ก คุณสามารถดูว่าคำสั่งเหล่านี้ดำเนินการอย่างไรเมื่อเรียกใช้ฟังก์ชันใน K8 โดยจินตนาการว่าการถอดรหัสเป็นลำดับของการดำเนินการเบื้องต้นที่เทียบเท่ากับการเปลี่ยนสแต็กรีจิสเตอร์และการโหลด/การบันทึก:ดังที่คุณเห็นจากตัวอย่างนี้ เมื่อเรียกใช้ฟังก์ชัน คำสั่งจะเปลี่ยนการลงทะเบียน ESP ตามลำดับ ดังนั้นแต่ละคำสั่งโดยปริยายจะขึ้นอยู่กับผลลัพธ์ของคำสั่งก่อนหน้า คำสั่งในห่วงโซ่นี้ไม่สามารถเรียงลำดับใหม่ได้ ดังนั้นเนื้อความของฟังก์ชันที่เริ่มต้นด้วยคำสั่ง mov eax, จะไม่สามารถเริ่มดำเนินการได้จนกว่าคำสั่ง PUSH สุดท้ายจะถูกดำเนินการ บล็อก Sideband Stack Optimizer ตรวจสอบสแต็กสำหรับการเปลี่ยนแปลงและแปลงลูกโซ่เป็นแบบอิสระโดยการปรับออฟเซ็ตของแต่ละคำสั่งที่สัมพันธ์กับสแต็กและแทรกการดำเนินการซิงโครไนซ์บนสุดของสแต็ก (sync-MOP) ก่อนคำสั่งที่ใช้สแต็กอย่างชัดเจน ลงทะเบียน. การดำเนินการนี้จะลบข้อจำกัดในการจัดลำดับคำสั่งใหม่ที่ใช้สแต็ก
ทีม mov จริง ๆ,ซึ่งการคำนวณจะเริ่มต้นในส่วนเนื้อความของฟังก์ชันใน ในตัวอย่างนี้ขึ้นอยู่กับการดำเนินการซิงโครไนซ์ที่ด้านบนของสแต็กเท่านั้น การดำเนินการเหล่านี้สามารถดำเนินการได้อย่างอิสระโดยขนานกับคำสั่งอื่นๆ ที่อยู่ก่อนหน้า ดังนั้นความเร็วในการส่งพารามิเตอร์และการบันทึกรีจิสเตอร์จึงเพิ่มขึ้น และในเวลาเดียวกัน เนื้อหาของฟังก์ชันก็สามารถเริ่มโหลดพารามิเตอร์และดำเนินการกับพารามิเตอร์เหล่านั้นได้ก่อนที่จะส่งพารามิเตอร์ทั้งหมดและการบันทึกรีจิสเตอร์จะเสร็จสิ้น
ดังนั้นการเพิ่มอัตราการถอดรหัสคำสั่งสำหรับการทำงานกับสแต็กโดยใช้บล็อก Sideband Stack Optimizer การเพิ่มความลึกของสแต็กส่งคืน และการทำนายสาขาทางอ้อมสลับใน K10 ทำให้ความเร็วในการดำเนินการของโค้ดที่เต็มไปด้วยฟังก์ชันเพิ่มขึ้นอย่างเห็นได้ชัด โทร
ตัวถอดรหัสของโปรเซสเซอร์ K10 จะไม่สามารถถอดรหัส 4 คำสั่งต่อรอบสัญญาณนาฬิกาได้ เนื่องจากตัวถอดรหัส Core 2 สามารถทำงานได้ภายใต้เงื่อนไขที่เอื้ออำนวย แต่จะไม่เป็นปัจจัยจำกัดในการทำงานของโปรแกรม อัตราเฉลี่ยของการดำเนินการคำสั่งแทบไม่เคยถึง 3 คำสั่งต่อรอบสัญญาณนาฬิกา ดังนั้นตัวถอดรหัส K10 จะมีประสิทธิภาพเพียงพอเพื่อให้หน่วยประมวลผลไม่ยืนนิ่งเนื่องจากขาดการดำเนินการในคิว
หน่วยควบคุมคำสั่ง
MOP แฝดสามที่ถอดรหัสแล้วจะเข้าสู่หน่วยควบคุมคำสั่ง (ICU) ซึ่งจัดเก็บ MOP ไว้ในบัฟเฟอร์เรียงลำดับใหม่ (ROB) บัฟเฟอร์การเรียงลำดับใหม่ประกอบด้วย 24 บรรทัดจากสาม MOP MOP ทั้งสามรายการจะถูกบันทึกไว้ในบรรทัดของตัวเอง ดังนั้น ROB จึงอนุญาตให้หน่วยควบคุมตรวจสอบสถานะของ MOP 72 รายการจนกว่าจะเลิกใช้จากบัฟเฟอร์การเรียงลำดับใหม่ MOP จะถูกส่งไปยังคิวตัวกำหนดเวลาจำนวนเต็มและหน่วยการดำเนินการจริงตามลำดับที่ออกจากตัวถอดรหัส MOP triplets ยังคงถูกจัดเก็บไว้ในบัฟเฟอร์การเรียงลำดับใหม่จนกว่าการดำเนินการเก่าทั้งหมดจะเสร็จสมบูรณ์และละทิ้ง ในระหว่างการเกษียณอายุ ค่าสุดท้ายจะถูกเขียนไปยังทะเบียนสถาปัตยกรรมและหน่วยความจำ การดำเนินการลาออก การลบข้อมูลเกี่ยวกับการดำเนินการดังกล่าวออกจาก ROB และการบันทึกค่าสุดท้ายจะดำเนินการในลำดับซอฟต์แวร์ที่การดำเนินการเข้าสู่บัฟเฟอร์การเรียงลำดับใหม่ นี่เป็นสิ่งจำเป็นเพื่อว่าในกรณีที่มีข้อยกเว้นหรือการหยุดชะงัก ผลลัพธ์ของการดำเนินการภายหลังทั้งหมดที่ดำเนินการแบบไม่เรียงลำดับจะถูกย้อนกลับ
การดำเนินการคำสั่งจำนวนเต็ม
ในโปรเซสเซอร์ K8 และ K10 บล็อกการดำเนินการจำนวนเต็ม ( หน่วยการดำเนินการจำนวนเต็ม) ประกอบด้วยช่องจำนวนเต็มสมมาตรสามช่อง ช่องการประมวลผลแต่ละช่องมีตัวกำหนดเวลาของตัวเองซึ่งมีคิว MOS 8 คิว ชุดตรรกะเลขจำนวนเต็ม (ALU) หน่วยที่อยู่ (AGU) และหน่วยสาขาแบบมีเงื่อนไขชุดเดียวกัน นอกจากนี้ บล็อกการคูณเชื่อมต่อกับแชนเนลการคำนวณ 0 และบล็อกสำหรับการดำเนินการใหม่ LZCNT และ POPCNT (ดูข้อมูลเพิ่มเติมด้านล่าง) เชื่อมต่อกับแชนเนลการคำนวณ 2
ข้าว. 3. บล็อกสำหรับการดำเนินการจำนวนเต็ม
การเลือกคิวสำหรับ MOP แต่ละรายการจะถูกกำหนดโดยตำแหน่งคงที่ของคำสั่งในสามที่เกิดขึ้นที่เอาต์พุตของตัวถอดรหัส การดำเนินการมาโครแต่ละครั้งในสามรายการจะถูกส่งจากบัฟเฟอร์การเรียงลำดับใหม่สำหรับการดำเนินการตามลำดับ ซึ่งในอีกด้านหนึ่งทำให้การจัดการคำสั่งง่ายขึ้นและในอีกด้านหนึ่งสามารถนำไปสู่การโหลดคิวที่ไม่สมดุลหากห่วงโซ่ของการดำเนินการที่ขึ้นต่อกันนั้นอยู่ในตำแหน่งที่ไม่น่าพอใจ รหัสโปรแกรม (ซึ่งในทางปฏิบัติแทบไม่เคยเกิดขึ้นเลยดังนั้นจึงมีผลกระทบเพียงเล็กน้อยต่อประสิทธิภาพ) ตัวถอดรหัสจะวางการดำเนินการทวีคูณและบิตที่ขยายในช่องสามช่องที่ถูกต้องเพื่อให้แน่ใจว่าจะอยู่ในช่องที่ระบุ
ในคิวของตัวกำหนดเวลาช่องทางการคำนวณ MOP ดังที่ได้กล่าวไว้ข้างต้น จะถูกแบ่งออกเป็นการดำเนินการไมโครจำนวนเต็ม และที่อยู่ไมโครการดำเนินการของการเข้าถึงหน่วยความจำ เมื่อข้อมูลพร้อม ตัวกำหนดเวลาสามารถเรียกใช้การดำเนินการจำนวนเต็มหนึ่งรายการจากแต่ละคิวไปยังอุปกรณ์ ALU และการดำเนินการที่อยู่หนึ่งรายการไปยังอุปกรณ์ AGU จำนวนการเข้าถึงหน่วยความจำพร้อมกันถูกจำกัดไว้ที่สองครั้ง ดังนั้น สำหรับแต่ละรอบสัญญาณนาฬิกา การดำเนินการจำนวนเต็ม 3 รายการและการดำเนินการหน่วยความจำ 2 รายการ (การอ่าน/เขียนแบบ 64 บิตในการรวมกันใดๆ ก็ตาม) จึงสามารถดำเนินการได้ การดำเนินการย่อยจาก MOP ทางคณิตศาสตร์ต่างๆ จะถูกส่งไปดำเนินการจากคิวทันทีที่ข้อมูลพร้อมสำหรับการดำเนินการตามลำดับที่ไม่อยู่ในลำดับ หลังจากที่การดำเนินการไมโครเลขคณิตและที่อยู่จาก MOP เสร็จสิ้นแล้ว MOP จะถูกลบออกจากคิวตัวกำหนดตารางเวลา เพื่อเพิ่มพื้นที่ว่างสำหรับการดำเนินการครั้งต่อไป
ในโปรเซสเซอร์ K8 หน่วยความจำ micro-ops จะถูกเลือกตามลำดับซอฟต์แวร์ การดำเนินการเข้าถึงหน่วยความจำที่อยู่ภายหลังในลำดับโปรแกรมจะไม่สามารถทำงานได้ก่อนการดำเนินการก่อนหน้านี้ ซึ่งทำให้ล้มเหลวในการคำนวณที่อยู่สำหรับการดำเนินการที่อยู่ก่อนหน้าเพื่อบล็อกการดำเนินการที่อยู่ในภายหลังทั้งหมด แม้ว่าตัวถูกดำเนินการทั้งหมดสำหรับการดำเนินการในภายหลังจะพร้อมก็ตาม
ตัวอย่างเช่น:
เพิ่ม ebx, ecx
mov eax – การคำนวณที่อยู่อย่างรวดเร็ว
mov ecx – ที่อยู่ขึ้นอยู่กับผลลัพธ์ของคำสั่งก่อนหน้า
mov edx - คำสั่งนี้จะไม่ทำงานจนกว่าจะคำนวณที่อยู่ของคำสั่งก่อนหน้าทั้งหมด
สิ่งนี้สามารถนำไปสู่การลงโทษด้านประสิทธิภาพและเป็นหนึ่งในปัจจัยจำกัดในโปรเซสเซอร์ K8 เนื่องจากในบางโค้ด K8 แม้จะมีความสามารถในการออกคำสั่งการอ่านสองคำสั่งต่อรอบสัญญาณนาฬิกา แต่ก็ดำเนินการคำสั่งการเข้าถึงหน่วยความจำอย่างมีประสิทธิภาพน้อยกว่า โปรเซสเซอร์ Core 2 รันหนึ่งคำสั่งอ่านต่อรอบสัญญาณนาฬิกา แต่ในขณะเดียวกันก็มีกลไกสำหรับการดำเนินการคำสั่งอ่านที่ไม่เป็นไปตามคำสั่งแบบเก็งกำไร โดยข้ามคำสั่งอ่านและเขียนก่อนหน้า
ในสถาปัตยกรรมโปรเซสเซอร์ K10 ปัญหาคอขวดนี้จะหมดไป ขณะนี้ โปรเซสเซอร์ K10 ไม่เพียงแต่สามารถรันคำสั่งอ่านแบบไม่เรียงลำดับเท่านั้น แต่ยังสามารถรันคำสั่งเขียนก่อนคำสั่งอ่านได้ด้วย ในกรณีที่โปรเซสเซอร์รู้ว่าที่อยู่การเขียนและการอ่านไม่ขัดแย้งกัน การเริ่มต้นการเขียนโดยข้ามการอ่านช่วยให้คุณเร่งความเร็วการประมวลผลโค้ดบางประเภทได้อย่างมาก เช่น รอบที่ขึ้นต้นด้วยคำสั่งเพื่ออ่านส่วนถัดไปของข้อมูลจากหน่วยความจำ และสิ้นสุดด้วยการบันทึกผลลัพธ์ที่คำนวณลงในหน่วยความจำ
.....// การดำเนินการกับข้อมูล
mov , eax // บันทึกผลลัพธ์
ซีเอ็มพี
เจนซ์ L1
ในกรณีเช่นนี้ โปรเซสเซอร์ที่ไม่รองรับการเริ่มอ่านก่อนเขียนจะไม่สามารถเริ่มดำเนินการได้ ทำซ้ำครั้งต่อไปวนซ้ำจนกระทั่งผลลัพธ์ปัจจุบันถูกเขียน โปรเซสเซอร์ที่รองรับการเรียงลำดับการอ่านใหม่สามารถเริ่มโหลดข้อมูลและประมวลผลสำหรับการวนซ้ำครั้งถัดไปโดยไม่ต้องรอให้การวนซ้ำปัจจุบันเสร็จสิ้น
น่าเสียดายที่โปรเซสเซอร์ K10 ยังไม่ทราบวิธีการโหลดแบบเก็งกำไรโดยข้ามการเขียนไปยังที่อยู่ที่ไม่รู้จักเหมือนกับที่โปรเซสเซอร์ Core 2 ทำ แม้ว่าการเก็งกำไรดังกล่าวอาจนำไปสู่การปรับ แต่ในความเป็นจริงค่าปรับเหล่านี้หาได้ยากในโค้ดโปรแกรม (ประมาณ 5 % กรณี) ดังนั้นการโหลดแบบเก็งกำไรจึงสมเหตุสมผลจากมุมมองของประสิทธิภาพ
การปรับปรุงบล็อกจำนวนเต็มของโปรเซสเซอร์ K10 อีกประการหนึ่งคือการเพิ่มประสิทธิภาพของอัลกอริธึมการสอนการหารจำนวนเต็ม ตอนนี้ความเร็วของการดำเนินการคำสั่งการหารจำนวนเต็มขึ้นอยู่กับบิตที่สำคัญที่สุดของเงินปันผลและตัวหาร ตัวอย่างเช่น ในกรณีที่การจ่ายเงินปันผลเป็นศูนย์ การหารจะดำเนินการเร็วขึ้นเกือบสองเท่า โดยทั่วไปแล้ว การหารจำนวนเต็มเป็นการดำเนินการที่หายากมาก ซึ่งเนื่องจากมีความเร็วในการดำเนินการต่ำ พวกเขาจึงพยายามหลีกเลี่ยงในทุกวิถีทางที่เป็นไปได้ในโปรแกรมจริง โดยแทนที่ด้วยการคูณด้วยค่าผกผันของตัวหาร เลื่อน หรือข้ามไปในวิธีอื่นๆ ดังนั้นการเพิ่มประสิทธิภาพนี้จึงไม่น่าจะมีส่วนสนับสนุนประสิทธิภาพของแอปพลิเคชันอย่างเห็นได้ชัด
โดยรวมแล้วบล็อกอุปกรณ์จำนวนเต็ม K10 จะมีประสิทธิภาพมาก หลังจากเพิ่มกลไกสำหรับการดำเนินการหน่วยความจำที่ไม่อยู่ในลำดับ ตอนนี้ก็ไม่มีจุดอ่อนที่ชัดเจน แม้จะมีความลึกของคิวต่ำกว่าโปรเซสเซอร์ Core 2 แต่โปรเซสเซอร์ K10 ไม่มีข้อจำกัดในการอ่านรีจิสเตอร์จากไฟล์รีจิสเตอร์ และข้อจำกัดด้านกำหนดเวลาอื่นๆ บางประการที่ทำให้ Core 2 ไม่สามารถดำเนินการอย่างต่อเนื่องในอัตราที่รวดเร็วที่สุดเท่าที่จะเป็นไปได้
การดำเนินการตามคำสั่งจริง
ในโปรเซสเซอร์ K8 และ K10 ตัวกำหนดเวลาหน่วยจุดลอยตัว (FPU) จะแยกจากตัวกำหนดเวลาคำสั่งจำนวนเต็ม และมีการจัดระเบียบแตกต่างกันเล็กน้อย บัฟเฟอร์ตัวกำหนดเวลาสามารถรองรับ MOP 3 กลุ่มได้สูงสุด 12 กลุ่ม (การดำเนินการจริง 36 รายการตามทฤษฎี) ต่างจากบล็อกสำหรับดำเนินการคำสั่งจำนวนเต็มด้วยช่องคำนวณแบบสมมาตร บล็อกของเลขคณิตลอยตัวประกอบด้วยสามช่อง อุปกรณ์ต่างๆ: FADD สำหรับการบวกจริง FMUL สำหรับการคูณจริง และ FMISC (หรือ FSTORE) สำหรับคำแนะนำในการจัดเก็บหน่วยความจำและการดำเนินการแปลงเสริม ดังนั้นบัฟเฟอร์ตัวกำหนดเวลาจึงไม่ผูกตำแหน่งของ MOP ในกลุ่มคำสั่งกับอุปกรณ์คอมพิวเตอร์เฉพาะ (รูปที่ 1) 4)
ข้าว. 4. หน่วยดำเนินการจุดลอยตัว
แต่ละรอบสัญญาณนาฬิกา K8 และ K10 สามารถดำเนินการได้หนึ่งการดำเนินการในอุปกรณ์เลขคณิตจริงแต่ละตัว อุปกรณ์จุดลอยตัวของโปรเซสเซอร์ K8 เป็นแบบ 80 บิต คำสั่ง Vector 128 บิต SSE จะถูกแบ่งในขั้นตอนการถอดรหัสออกเป็น MOP สองชุด ซึ่งดำเนินการกับครึ่งหนึ่งของ 64 บิตของตัวถูกดำเนินการ 128 บิต และดำเนินการตามลำดับในรอบสัญญาณนาฬิกาที่ต่างกัน สิ่งนี้ไม่เพียงจำกัดอัตราการดำเนินการของคำสั่งเวกเตอร์ แต่ยังลดปริมาตรประสิทธิผลของบัฟเฟอร์ตัวกำหนดตารางเวลา FPU ลงเกือบครึ่งหนึ่ง และส่งผลให้ความลึกของการดำเนินการคำสั่งที่ไม่อยู่ในลำดับอีกด้วย
ในโปรเซสเซอร์ K10 ความกว้างของอุปกรณ์ FPU เพิ่มขึ้นเป็น 128 บิต K10 ประมวลผลโอเปอเรเตอร์เวกเตอร์ 128 บิตทั้งหมดในการดำเนินการเดียว ซึ่งเพิ่มความเร็วในการดำเนินการตามทฤษฎีของคำสั่ง vector SSE เป็นสองเท่า เมื่อเทียบกับ K8 นอกจากนี้ การลดจำนวน MOP ลงครึ่งหนึ่ง ความยาวคิวที่มีประสิทธิภาพของตัวกำหนดตารางเวลาจะเพิ่มขึ้น ซึ่งช่วยให้สามารถดำเนินการนอกคำสั่งได้ลึกยิ่งขึ้น
ในโปรเซสเซอร์ K8 คำสั่งการบูต SSE จะดำเนินการโดยใช้อุปกรณ์ FSTORE ซึ่งในอีกด้านหนึ่งไม่อนุญาตให้ดำเนินการคำสั่งอื่น ๆ ที่อ้างสิทธิ์ในอุปกรณ์นี้พร้อมกันและในทางกลับกัน จำกัด จำนวนคำสั่งการบูตที่เรียกใช้พร้อมกันที่ หนึ่ง. การอ่านแบบขนานสองครั้งจากหน่วยความจำใน K8 สามารถทำได้ก็ต่อเมื่อคำสั่งใดคำสั่งหนึ่งเป็นคำสั่งที่รวมการเข้าถึงหน่วยความจำและการดำเนินการข้อมูล (ที่เรียกว่าคำสั่ง Load-Execute) ตัวอย่างเช่น เพิ่ม xmm1,.
โปรเซสเซอร์ K10 ได้ทำการปรับปรุงที่สำคัญหลายประการในกลไกการดำเนินการคำสั่งการบูต SSE
ประการแรก คำสั่งโหลดจะไม่ใช้ทรัพยากร FPU อีกต่อไป ดังนั้นพอร์ต FSTORE จึงถูกปล่อยให้เป็นอิสระในการรันคำสั่งอื่นๆ และคำสั่งโหลดสามารถรันได้ 2 ครั้งต่อรอบสัญญาณนาฬิกา
ประการที่สอง ในกรณีที่ข้อมูลในหน่วยความจำถูกจัดแนวบนขอบเขต 16 ไบต์ คำแนะนำในการโหลดข้อมูล MOVU** ที่ไม่ได้จัดแนว ขณะนี้ทำงานได้อย่างมีประสิทธิภาพเท่ากับคำแนะนำในการโหลดข้อมูล MOVA** ที่จัดชิดแล้ว ดังนั้น สำหรับโปรเซสเซอร์ K10 การใช้คำสั่ง MOVA** จึงไม่มีประโยชน์ใดๆ อีกต่อไป
ประการที่สาม ในโปรเซสเซอร์ K10 ขณะนี้อนุญาตให้ใช้โหลดที่ไม่สอดคล้องกันสำหรับคำสั่ง Load-Execute ที่รวมโหลดเข้ากับการดำเนินการข้อมูล โดยทั่วไป หากไม่แน่ใจว่าข้อมูลอยู่ในหน่วยความจำ คอมไพเลอร์ (หรือโปรแกรมเมอร์) จะใช้คำสั่ง MOVU** เพื่ออ่านข้อมูลลงในรีจิสเตอร์ จากนั้นจึงดำเนินการกับรีจิสเตอร์ การใช้โหลดที่ไม่สอดคล้องโดยตรงกับคำสั่ง Load-Execute สามารถลดจำนวนคำสั่งโหลดแยกกันในโค้ดโปรแกรมของคุณได้อย่างมาก และด้วยเหตุนี้จึงปรับปรุงประสิทธิภาพด้วย การสนับสนุนคุณลักษณะนี้ควรมีอยู่ในคอมไพเลอร์ โดยทั่วไปตามข้อกำหนด SSE ที่พัฒนาขึ้น โดยอินเทลการเรียกคำสั่ง Load-Execute ไปยังที่อยู่ที่ไม่สอดคล้องกับขอบเขต 16 ไบต์จะต้องส่งผลให้เกิดข้อยกเว้น เพื่อรักษาการปฏิบัติตามข้อกำหนด จะต้องเปิดใช้งานการอนุญาตให้โหลดที่ไม่สอดคล้องกันในคำสั่ง Load-Execute โดยการตั้งค่าสถานะพิเศษโดยซอฟต์แวร์ที่ออกแบบและคอมไพล์โดยคำนึงถึงความสามารถของโปรเซสเซอร์ใหม่
ประการที่สี่ บัสการอ่านข้อมูลสองตัวจากแคชระดับแรกในโปรเซสเซอร์ K10 ได้รับการขยายเป็น 128 บิต ซึ่งช่วยให้โปรเซสเซอร์สามารถอ่านข้อมูลขนาด 128 บิตได้สองครั้งทุกรอบสัญญาณนาฬิกา นี่เป็นคุณลักษณะที่สำคัญมากของสถาปัตยกรรม เนื่องจากการประมวลผลสองคำสั่งแบบขนานต้องใช้ตัวถูกดำเนินการ 4 ตัว (2 ตัวต่อคำสั่ง) และในอัลกอริธึมการประมวลผลข้อมูลแบบเธรดจำนวนหนึ่ง ตัวถูกดำเนินการสองในสี่ตัวมักจะอ่านจาก RAM ในทางตรงกันข้าม บัสการเขียนสองตัวของ K10 ยังคงเป็น 64 บิต และการเขียนหน่วยความจำ 128 บิตจะถูกแบ่งออกเป็นแพ็กเก็ต 64 บิตสองชุด ดังนั้น โปรเซสเซอร์สามารถทำการเขียนแบบ 128 บิตได้เพียงครั้งเดียว หรืออ่านแบบ 128 บิตสองครั้ง หรืออ่านแบบ 128 บิตหนึ่งครั้งและเขียนแบบ 64 บิตหนึ่งครั้งในแต่ละรอบสัญญาณนาฬิกา อย่างไรก็ตาม เนื่องจากจำนวนการอ่านโดยปกติจะมีอย่างน้อยสองเท่าของจำนวนการเขียน ขีดจำกัดการเขียนไม่ควรส่งผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพของโปรเซสเซอร์เมื่อประมวลผลข้อมูล 128 บิต
ขณะนี้คำสั่งคัดลอกข้อมูลการลงทะเบียนเพื่อลงทะเบียน MOV*** 128 บิตที่ห้าสามารถดำเนินการบนอุปกรณ์ FPU ใดก็ได้จากทั้งหมด 3 เครื่อง ไม่ใช่แค่ FADD และ FMUL เท่านั้น ซึ่งยังช่วยเพิ่มพื้นที่บล็อก FADD และ FMUL สำหรับการดำเนินการตามเป้าหมายอีกด้วย
ดังที่เราเห็นหน่วย FPU ของโปรเซสเซอร์ K10 มีความยืดหยุ่นมากขึ้นอย่างเห็นได้ชัด มีคุณลักษณะเฉพาะที่ยังไม่มีให้บริการบนโปรเซสเซอร์ Intel เช่น การโหลดแบบไม่สอดคล้องที่มีประสิทธิภาพ รวมถึงคำสั่ง Load-Execute และการอ่าน 128 บิตสองครั้งต่อนาฬิกา ต่างจาก Core 2 ตรงที่ตัวกำหนดเวลาจริงและจำนวนเต็มใช้คิวแยกกัน ซึ่งช่วยหลีกเลี่ยงการดำเนินการที่ขัดแย้งกันบนพอร์ตการดำเนินการเดียวกัน อย่างไรก็ตาม K10 ยังคงแชร์อุปกรณ์ FMISC (FSTORE) สำหรับการดำเนินการจัดเก็บ SSE กับคำสั่งการแปลงข้อมูลบางคำสั่ง ซึ่งในบางกรณีอาจส่งผลต่อความเร็วในการดำเนินการของการดำเนินการ
โดยทั่วไป หน่วย FPU ใน K10 สัญญาว่าจะมีประสิทธิภาพมาก โดยเหนือกว่าหน่วย Core 2 FPU ในด้านพารามิเตอร์จำนวนหนึ่ง (เช่น ความสามารถในการอ่าน 128 บิตสองครั้งต่อรอบสัญญาณนาฬิกา และการโหลดที่ไม่สอดคล้องกันอย่างมีประสิทธิภาพ)
ระบบย่อยหน่วยความจำ
โหลด/บันทึกอุปกรณ์ในโปรเซสเซอร์ K8 หลังจากคำนวณที่อยู่การเข้าถึงหน่วยความจำบน AGU แล้ว การดำเนินการโหลดและจัดเก็บจะถูกส่งไปยัง LSU (หน่วยโหลด/จัดเก็บ) ซึ่งเป็นอุปกรณ์โหลด/บันทึก LSU มีสองคิว LS1 และ LS2 ขั้นแรก การดำเนินการโหลดและจัดเก็บจะเข้าสู่คิว LS1 ซึ่งมี 12 องค์ประกอบลึก จากคิว LS1 การเข้าถึงแคชระดับแรกจะทำตามลำดับซอฟต์แวร์ สองการดำเนินการต่อรอบ ในกรณีที่แคชหายไป การดำเนินการจะถูกย้ายไปยังคิววินาที LS2 แบบลึก 32 องค์ประกอบ ซึ่งเป็นจุดที่มีการเข้าถึงแคช L2 และ RAM
มีการเปลี่ยนแปลงกับโปรเซสเซอร์ K10 ที่ LSU ตอนนี้เฉพาะการดำเนินการโหลดเท่านั้นที่จะไปที่คิว LS1 และการดำเนินการบันทึกจะถูกส่งไปยังคิว LS2 ขณะนี้การดำเนินการโหลดจาก LS1 สามารถดำเนินการแบบไม่เรียงลำดับได้ โดยคำนึงถึงที่อยู่ของการดำเนินการบันทึกในคิว LS2 การดำเนินการบันทึกแบบ 128 บิต ตามที่กล่าวไว้ข้างต้น ได้รับการประมวลผลในโปรเซสเซอร์ K10 เป็น 64 บิตสองตัว ดังนั้นจึงครอบครองสองตำแหน่งในคิว LS2
แคชระดับ 1
แคชระดับแรกในโปรเซสเซอร์ K8 และ K10 แยกจากกัน โดยแต่ละแคชขนาด 64 KB สำหรับคำสั่ง (L1I) และข้อมูล (L1D) การเชื่อมโยงแคชคือสอง ขนาดบรรทัดคือ 64 ไบต์ การเชื่อมโยงที่ต่ำอาจนำไปสู่การชนกันบ่อยครั้งระหว่างแถวที่แข่งขันกันเพื่อชุดเดียวกัน ซึ่งอาจเพิ่มจำนวนการพลาดแคชและส่งผลกระทบด้านลบต่อประสิทธิภาพการทำงาน การเชื่อมโยงต่ำได้รับการชดเชยบางส่วนด้วยแคช L1 ที่ค่อนข้างใหญ่ ข้อได้เปรียบที่สำคัญของแคช L1D คือความสามารถแบบสองพอร์ต โดยสามารถรองรับคำสั่งอ่านและ/หรือเขียนได้สองคำสั่งต่อหนึ่งนาฬิกาในการรวมกันแบบใดก็ได้
ในโปรเซสเซอร์ K10 ขนาดและการเชื่อมโยงของแคชระดับแรกน่าเสียดายที่ยังคงไม่เปลี่ยนแปลง การปรับปรุงแคช L1 ใน K10 ที่เห็นได้ชัดเจนเพียงอย่างเดียวคือการเพิ่มความกว้างของบัสข้อมูลการอ่าน ขณะนี้โปรเซสเซอร์ ตามที่กล่าวไว้ในบทที่แล้ว สามารถอ่านแบบ 128 บิตได้สองครั้งทุกๆ รอบสัญญาณนาฬิกา ซึ่งจะช่วยเพิ่มประสิทธิภาพได้อย่างมากเมื่อประมวลผลข้อมูล SSE ในหน่วยความจำภายใน
แคชระดับ 2
ในโปรเซสเซอร์แบบดูอัลและควอดคอร์ของสถาปัตยกรรม K8 และ K10 แต่ละคอร์จะมีแคช L2 แยกต่างหาก ขนาดของแคชระดับที่สองใน K10 ยังคงเท่ากับ 512 KB ในแต่ละคอร์ การเชื่อมโยงคือ 16 แคชระดับที่สองที่แยกจากกันมีข้อดีและข้อเสียเมื่อเปรียบเทียบกับแคชระดับที่สองที่ใช้ร่วมกันในโปรเซสเซอร์ Core 2 ข้อดี ได้แก่ ไม่มีข้อขัดแย้งและการแข่งขันต่อแคชภายใต้การโหลดหลายคอร์พร้อมกัน ข้อเสียคือขนาดแคชต่อคอร์มีขนาดเล็กลงระหว่างการทำงานอย่างเข้มข้นในหนึ่งงาน
แคช L2 มีองค์กรจัดเก็บข้อมูลพิเศษ: ข้อมูลในแคชระดับที่หนึ่งและสองจะไม่ซ้ำกัน แคชของระดับที่หนึ่งและสองจะแลกเปลี่ยนข้อมูลผ่านบัสแบบทิศทางเดียวสองตัว - อันหนึ่งสำหรับรับข้อมูล และอีกอันสำหรับส่ง ในโปรเซสเซอร์สถาปัตยกรรม K8 ความกว้างของแต่ละบัสคือ 64 บิต (8 ไบต์) (รูปที่ 5a) เนื่องจากองค์กรนี้ โปรเซสเซอร์จึงได้รับข้อมูลที่ร้องขอใน L2 ในอัตราต่ำที่ 8 ไบต์ต่อรอบสัญญาณนาฬิกา นั่นคือการถ่ายโอนบรรทัดขนาด 64 ไบต์จะใช้เวลา 8 รอบสัญญาณนาฬิกา ซึ่งเพิ่มเวลาแฝงของข้อมูลรับหลักอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อเข้าถึงบรรทัดแคช L2 สองบรรทัดขึ้นไปพร้อมกัน
ตามข้อมูลที่ยังไม่ได้รับการยืนยันอย่างสมบูรณ์ในโปรเซสเซอร์ K10 ความกว้างบิตของบัสรับและส่งเพิ่มขึ้น 2 เท่านั่นคือสูงสุด 128 บิตต่ออัน (รูปที่ 5b) วิธีนี้จะช่วยลดเวลาแฝงในการเข้าถึงแคชลงอย่างมากเมื่อร้องขอแถวตั้งแต่สองแถวขึ้นไปในเวลาเดียวกัน
แคชระดับ 3
เพื่อชดเชยปริมาณแคชระดับที่สองแต่ละรายการที่ไม่เพียงพอ ขณะนี้โปรเซสเซอร์ K10 มีแคช L3 ระดับที่สาม 2 MB ที่ใช้ร่วมกันกับคอร์ทั้งหมดโดยมีความสัมพันธ์กันที่ 32 แคช L3 มีองค์กรพิเศษที่ปรับเปลี่ยนได้: เก็บข้อมูลทั้งสอง ถูกขับออกจากแคช L2 ของคอร์ทั้งหมด และข้อมูลที่แชร์ที่ใช้โดยหลายคอร์ เมื่อได้รับคำขอจากคอร์เพื่ออ่านบรรทัด จะมีการตรวจสอบ: ถ้าบรรทัดนั้นถูกใช้โดยคอร์เดียวเท่านั้น มันจะถูกลบออกจาก L3 เพื่อเพิ่มพื้นที่ว่างสำหรับบรรทัดที่จะขับออกจากแคช L2 ของ ขอหลัก หากเคอร์เนลอื่นใช้บรรทัดนั้นด้วย บรรทัดนั้นจะยังคงอยู่ในแคช ในเวลาเดียวกัน เพื่อให้มีที่ว่างสำหรับบรรทัดที่ถูกไล่ออกจากแคช L2 บรรทัดอื่นที่เก่ากว่าจะถูกลบออกจากแคช L3
แคช L3 ควรช่วยเพิ่มความเร็วของการสื่อสารระหว่างคอร์ด้วย ดังที่เราพบก่อนหน้านี้ การแลกเปลี่ยนข้อมูลระหว่างคอร์ในโปรเซสเซอร์ Athlon 64 สมัยใหม่เกิดขึ้นผ่านบัสหน่วยความจำ ซึ่งจะช่วยลดความเร็วในการเข้าถึงข้อมูลที่แชร์และแก้ไขได้อย่างมาก ตามวัสดุของ AMD ในโปรเซสเซอร์ Quad-Core ของสถาปัตยกรรม K10 การแลกเปลี่ยนข้อมูลระหว่างคอร์สามารถเกิดขึ้นได้ผ่านแคช L3 เมื่อได้รับการร้องขอจากคอร์อื่น คอร์ที่จัดเก็บข้อมูลที่ถูกแก้ไขจะคัดลอกไปยัง L3 ซึ่งคอร์ที่ร้องขอจะอ่านจากที่นั้น ความเร็วในการเข้าถึงข้อมูลที่เปลี่ยนแปลงในแคชของเคอร์เนลอื่นควรเพิ่มขึ้นอย่างมาก เมื่อมีโอกาสเราจะไปดูแน่นอน :)
ข้าว. 6. การถ่ายโอนข้อมูลระหว่างคอร์ในโปรเซสเซอร์ K10
เวลาแฝงของแคช L3 จะสูงกว่าเวลาแฝงของแคช L2 อย่างเห็นได้ชัด แต่วัสดุของ AMD บอกว่ามันจะเปลี่ยนแปลงไปตามโหลด - ในกรณีที่ไม่มีภาระหนัก เวลาแฝงจะดีกว่า โดยมีภาระสูง อัตราจะเพิ่มขึ้น สิ่งที่อยู่เบื้องหลังสิ่งนี้ยังคงต้องได้รับการตรวจสอบ
ทีแอลบี
นอกเหนือจากหน่วยความจำแคชสำหรับคำสั่งและข้อมูลแล้ว โปรเซสเซอร์ยังมีหน่วยความจำแคชอีกประเภทหนึ่ง - Translation-lookaside buffer (TLB) ใช้เพื่อจัดเก็บการติดต่อระหว่างที่อยู่เพจเสมือนและฟิสิคัลที่ได้รับจากตารางการแปลเพจ จำนวนบัฟเฟอร์การแปลจะกำหนดจำนวนเพจหน่วยความจำที่สามารถใช้ได้พร้อมกันโดยไม่ต้องแปลงตารางราคาแพงเพิ่มเติม นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับแอปพลิเคชันที่ประมวลผลข้อมูลหน่วยความจำตามลำดับแบบสุ่ม ซึ่งมีการเข้าถึงข้อมูลอยู่ตลอดเวลา หน้าที่แตกต่างกัน. โปรเซสเซอร์ K10 ได้เพิ่มจำนวนบัฟเฟอร์การแปลอย่างมาก เพื่อความสะดวกในการรับรู้จึงสรุปเป็นตาราง
ตารางที่ 1 – ความจุ TLB ของโปรเซสเซอร์ K8 และ K10
ดังที่เห็นจากตาราง จำนวนบัฟเฟอร์ที่ใช้ในการแปลที่อยู่ของเพจขนาด 2 MB เพิ่มขึ้นอย่างมาก และยังรองรับเพจขนาดใหญ่ 1 GB อีกด้วย ซึ่งจะเป็นประโยชน์สำหรับเซิร์ฟเวอร์ที่ประมวลผลข้อมูลจำนวนมาก ด้วยการสนับสนุนจากระบบปฏิบัติการ แอปพลิเคชันที่ใช้เพจขนาดใหญ่ 2 MB และ 1 GB จะได้รับประโยชน์จากประสิทธิภาพที่เพิ่มขึ้น
ตัวควบคุมหน่วยความจำ
ในกรณีที่ไม่พบข้อมูลที่ร้องขอในแคชของทุกระดับ ระบบจะทำการเรียกไปยังตัวควบคุมหน่วยความจำที่รวมอยู่ในชิปโปรเซสเซอร์ การรวมตัวควบคุมบนชิปโปรเซสเซอร์จะช่วยลดเวลาแฝงได้อย่างมากเมื่อเข้าถึงหน่วยความจำ และในขณะเดียวกันก็เชื่อมโยงโปรเซสเซอร์กับหน่วยความจำประเภทใดประเภทหนึ่ง และยังเพิ่มพื้นที่แกนกลางและเพิ่มปัญหาเกี่ยวกับการปฏิเสธชิปอีกด้วย ตัวควบคุมหน่วยความจำเป็นหนึ่งในจุดแข็งของโปรเซสเซอร์ K8 แต่ในบางกรณีก็ไม่มีประสิทธิภาพเพียงพอ ในโปรเซสเซอร์ K10 ตัวควบคุมหน่วยความจำได้รับการปรับปรุงอย่างมาก
ประการแรก ขณะนี้สามารถทำงานในโหมดการถ่ายโอนข้อมูลได้ไม่เพียงแต่บนช่องสัญญาณ 128 บิตเดียวเท่านั้น แต่ยังทำงานบนช่องสัญญาณ 64 บิตอิสระสองช่อง ซึ่งทำให้การเข้าถึงหน่วยความจำพร้อมกันโดยหลายคอร์มีประสิทธิภาพมากขึ้น
ประการที่สอง อัลกอริธึมสำหรับการกำหนดเวลาและการจัดลำดับการดำเนินการใหม่ได้รับการปรับให้เหมาะสมในคอนโทรลเลอร์ ตัวควบคุมหน่วยความจำจัดกลุ่มการดำเนินการอ่านและเขียนเพื่อให้การใช้งานบัสหน่วยความจำมีประสิทธิภาพสูงสุด การดำเนินการอ่านมีความสำคัญมากกว่าการดำเนินการเขียน ข้อมูลที่มีไว้สำหรับการเขียนจะถูกเก็บไว้ในบัฟเฟอร์ซึ่งไม่ทราบขนาดในขณะนี้ แต่ตามแหล่งข้อมูลต่าง ๆ อยู่ในช่วงตั้งแต่ 16 ถึง 30 บรรทัด 64 ไบต์ การยกเลิกการโหลดกลุ่มของบรรทัดที่เลื่อนออกไปหลายบรรทัดสามารถลดต้นทุนในการเปลี่ยนบัสหน่วยความจำจากโหมดอ่านเป็นเขียนและย้อนกลับได้อย่างมาก สิ่งนี้ช่วยปรับปรุงประสิทธิภาพโดยเฉพาะเมื่อต้องรับมือกับกระแสคำขออ่านและเขียนแบบแทรกสลับ
ประการที่สาม ตัวควบคุมหน่วยความจำสามารถวิเคราะห์ลำดับคำขอและทำการดึงข้อมูลล่วงหน้าได้
ดึงข้อมูลล่วงหน้า
การดึงข้อมูลล่วงหน้าไม่ใช่จุดแข็งของโปรเซสเซอร์ K8 ตัวควบคุมหน่วยความจำแฝงต่ำในตัว เป็นเวลานานอนุญาตให้โปรเซสเซอร์ AMD แสดงประสิทธิภาพที่ดีเมื่อทำงานกับหน่วยความจำ อย่างไรก็ตาม เมื่อทำงานร่วมกับหน่วยความจำ DDR2 ใหม่ โปรเซสเซอร์ K8 ไม่ได้แสดงประสิทธิภาพสูง ต่างจากโปรเซสเซอร์ Core 2 ซึ่งมีระบบดึงข้อมูลล่วงหน้าที่ทรงพลัง โปรเซสเซอร์ K8 มีหน่วยดึงข้อมูลล่วงหน้าสองหน่วย - หนึ่งหน่วยสำหรับโค้ดและอีกหน่วยสำหรับข้อมูล หน่วยดึงข้อมูลล่วงหน้าจะทำการดึงข้อมูลล่วงหน้าลงในแคชระดับที่สองโดยใช้ลำดับแบบง่าย
การดึงข้อมูลล่วงหน้าได้รับการปรับปรุงใน K10
ขั้นแรก K10 จะดึงข้อมูลล่วงหน้าโดยตรงไปยังแคช L1 ซึ่งช่วยให้สามารถซ่อนเวลาแฝงของแคช L2 เมื่อเข้าถึงข้อมูล แม้ว่าสิ่งนี้จะเพิ่มโอกาสที่แคช L1 จะถูกอุดตันด้วยข้อมูลที่ไม่จำเป็น โดยเฉพาะอย่างยิ่งเมื่อมีความเชื่อมโยงของแคชต่ำ อย่างไรก็ตาม จากข้อมูลของ AMD พบว่ามันให้ผลตอบแทนและปรับปรุงประสิทธิภาพ
ประการที่สอง มีการนำกลไกการดึงข้อมูลล่วงหน้าแบบปรับเปลี่ยนมาใช้ซึ่งเปลี่ยนระยะการดึงข้อมูลล่วงหน้าแบบไดนามิกเพื่อให้แน่ใจว่าข้อมูลมาถึงตรงเวลาและไม่อุดตันแคชด้วยข้อมูลที่ยังไม่จำเป็น ความยืดหยุ่นของหน่วยการดึงข้อมูลล่วงหน้าเพิ่มขึ้น: ขณะนี้สามารถเรียนรู้จากคำขอหน่วยความจำ ณ ที่อยู่ใดก็ได้ ไม่ใช่แค่ที่อยู่ที่อยู่ในบรรทัดที่อยู่ติดกัน นอกจากนี้ บล็อกการดึงข้อมูลล่วงหน้าจะยึดตามคำสั่งการดึงข้อมูลล่วงหน้าของซอฟต์แวร์
ประการที่สาม มีการเพิ่มหน่วยการดึงข้อมูลล่วงหน้าแยกต่างหากลงในตัวควบคุมหน่วยความจำโดยตรง ตัวควบคุมหน่วยความจำจะวิเคราะห์ลำดับคำขอจากคอร์และโหลดข้อมูลลงในบัฟเฟอร์การเขียน ทำให้ใช้งานบัสหน่วยความจำได้อย่างเหมาะสมที่สุด การจัดเก็บบรรทัดการดึงข้อมูลล่วงหน้าในบัฟเฟอร์การเขียนช่วยให้คุณหลีกเลี่ยงการอุดตันหน่วยความจำแคชและในขณะเดียวกันก็ช่วยลดเวลาแฝงในการเข้าถึงข้อมูลได้อย่างมาก
ด้วยเหตุนี้เราจึงเห็นว่าระบบย่อยหน่วยความจำในโปรเซสเซอร์ K10 มีการเปลี่ยนแปลง ด้านที่ดีกว่า. แต่ควรสังเกตด้วยว่าในลักษณะหลายประการอาจมีความด้อยกว่าระบบย่อยหน่วยความจำในโปรเซสเซอร์ Intel นี่คือการขาดการเก็งกำไรโดยข้ามการเขียนไปยังที่อยู่ที่ยังไม่ทราบ การเชื่อมโยงที่ต่ำกว่าของแคช L1D บัสที่แคบกว่า (ในแง่ของอัตราการถ่ายโอนข้อมูล) ระหว่างแคช L1 และ L2 ปริมาณ L2 ที่น้อยกว่า และการดึงข้อมูลล่วงหน้าที่ง่ายกว่า แม้จะมีการปรับปรุง แต่การดึงข้อมูลล่วงหน้าของ Core 2 อาจมีประสิทธิภาพมากกว่า K10 เช่น อย่างหลัง ไม่มีการดึงข้อมูลที่อยู่คำสั่งล่วงหน้าเพื่อติดตามพฤติกรรมของคำสั่งแต่ละรายการ รวมถึงการดึงข้อมูลล่วงหน้า L2-to-L1 เพื่อปกปิดเวลาแฝง L2 ได้อย่างมีประสิทธิภาพ ปัจจัยเหล่านี้อาจส่งผลต่อแอพพลิเคชั่นที่แตกต่างกันออกไป แต่ในบางกรณีอาจส่งผลให้โปรเซสเซอร์ Intel มีประสิทธิภาพที่เหนือกว่า
มาดูกันว่าสถาปัตยกรรม K10 มีนวัตกรรมอื่นๆ อะไรบ้าง
ทีมใหม่
ขณะนี้โปรเซสเซอร์ K10 รองรับคำสั่งใหม่หลายคำสั่งที่ขยายขีดความสามารถ
1. คำสั่งสำหรับการดำเนินการบิตเพิ่มเติมบนรีจิสเตอร์วัตถุประสงค์ทั่วไป:
LZCNT – นับศูนย์นำหน้า – นับจำนวนบิตศูนย์นำหน้าในตัวถูกดำเนินการ
POPCNT – จำนวนประชากรบิต – นับจำนวนหนึ่งบิตในตัวถูกดำเนินการ
2. คำแนะนำการประมวลผลการลงทะเบียน SSE เรียกว่า SSE4a:
EXTRQ – แยกจำนวนบิตที่ระบุจากตำแหน่งที่ระบุในส่วน 64 บิตต่ำของการลงทะเบียน SSE
INSERTQ – แทรกจำนวนบิตที่ระบุลงในตำแหน่งที่ระบุในส่วน 64 บิตต่ำของการลงทะเบียน SSE
MOVNTSS, MOVNTSD - คำสั่งสำหรับการสตรีม (โดยไม่ต้องใช้หน่วยความจำแคช) เพื่อจัดเก็บค่าจริงสเกลาร์
ส่วนขยายชุดคำสั่งที่เรียกว่า SSE4a นั้นมีความเป็นอิสระ โดยจะไม่ทับซ้อนกันในทางใดทางหนึ่งกับส่วนขยายใหม่ของ Intel ที่เรียกว่า SSE4.1 และ SSE4.2
การจำลองเสมือน
AMD ยังคงปรับปรุงเทคโนโลยีเวอร์ช่วลไลเซชั่นที่ใช้ในการรันหลายๆ อย่างอย่างต่อเนื่อง ระบบปฏิบัติการบนคอมพิวเตอร์เครื่องหนึ่ง การปรับปรุงที่สำคัญที่สุดอย่างหนึ่งในการจำลองเสมือนคือการใช้ตารางเพจแบบซ้อน (Nested Paging) ในโหมดนี้ ตารางเพจเครื่องเสมือนจะซ้อนกันภายในตารางเพจไฮเปอร์ไวเซอร์ส่วนกลาง ในกรณีที่ไม่มีการอ้างอิงหน้าใน TLB การดำเนินการแปลงตารางจะดำเนินการโดยอัตโนมัติโดยโปรเซสเซอร์ ซึ่งแตกต่างจาก Shadow Paging ซึ่งต้องใช้ ปริมาณมากทรัพยากรเพื่อจัดการการแมปตารางเครื่องเสมือน
ตามรายงานบางฉบับ ต้องขอบคุณการใช้ตารางหน้าที่ซ้อนกัน ความเร็วของแอปพลิเคชันจึงสูงถึง เครื่องเสมือนเพิ่มขึ้นสูงสุด 40% เมื่อเทียบกับความเร็วในการดำเนินการของแอปพลิเคชันเหล่านี้ เมื่อใช้ตารางเพจ "เงา"
การจัดการพลังงานและความถี่
โปรเซสเซอร์ K10 ใหม่แนะนำการจัดการพลังงานและแผนการจัดการความถี่คอร์ใหม่ แต่ละคอร์สามารถทำงานได้อย่างอิสระจากคอร์อื่นๆ ด้วยความถี่ของตัวเอง ซึ่งจะเปลี่ยนแปลงแบบไดนามิกขึ้นอยู่กับโหลดของแต่ละคอร์
ข้าว. 8. การควบคุมความถี่อิสระ
แกนประมวลผลในโปรเซสเซอร์ K10
ในขณะเดียวกัน ยังไม่ทราบแน่ชัดว่าความถี่ในการทำงานของแคช L3 ที่ใช้ร่วมกันกับคอร์ทั้งหมดจะเป็นอย่างไร แรงดันไฟฟ้าบนคอร์ทั้งหมดจะเท่ากันและถูกกำหนดโดยคอร์ที่มีโหลดมากที่สุด ตัวควบคุมหน่วยความจำจะควบคุมแรงดันไฟฟ้าโดยไม่ขึ้นอยู่กับแกนและสามารถลดแรงดันไฟฟ้าลงได้เมื่อไม่มีภาระหนัก
ข้อสรุป
ข้อมูลทั้งหมดเกี่ยวกับโปรเซสเซอร์ AMD ใหม่ยังไม่ได้เผยแพร่ ดังนั้นความประหลาดใจอาจยังรอเราอยู่ อย่างไรก็ตามสามารถสรุปข้อสรุปหลักเกี่ยวกับสถาปัตยกรรมไมโครได้แล้ว โปรเซสเซอร์ AMD ใหม่ ต้องขอบคุณการปรับปรุงคอร์จำนวนมาก ทำให้ประสิทธิภาพเพิ่มขึ้นอย่างก้าวกระโดดเหนือรุ่นก่อน โดยเฉพาะอย่างยิ่งในแอพพลิเคชั่นแบบเรียลไทม์ ในแอปพลิเคชันที่หลากหลาย โปรเซสเซอร์จะสามารถแข่งขันในเงื่อนไขที่เท่าเทียมกันด้วยความถี่เดียว โปรเซสเซอร์อินเทลและเอาชนะพวกเขา ใบสมัครที่เขียนโดยคำนึงถึงใหม่ โอกาสพิเศษโปรเซสเซอร์ เช่น การโหลดแบบไม่สอดคล้องที่มีประสิทธิภาพและการรองรับเพจขนาดใหญ่ 1GB อย่างไรก็ตาม โปรเซสเซอร์ยังมีจุดอ่อนเมื่อเปรียบเทียบกับโปรเซสเซอร์ Intel ซึ่งเป็นระบบย่อยแคชและการดึงข้อมูลล่วงหน้าซึ่งอาจส่งผลเสียต่อประสิทธิภาพในแอปพลิเคชันจำนวนหนึ่ง แต่ข้อเสียเปรียบที่ใหญ่ที่สุดในการต่อสู้เพื่อผลงานสูงสุดในช่วงเริ่มต้นมีแนวโน้มที่จะไม่เพียงพอ ความถี่สูง. ขอให้เราหวังว่า AMD จะพัฒนาความถี่ใหม่อย่างรวดเร็ว และติดตามดูว่าทั้งสองบริษัทยังคงต่อสู้และปรับปรุงโปรเซสเซอร์ต่อไปอย่างไรในการต่อสู้เพื่อพวกเราผู้บริโภคผู้เขียนแสดงความขอบคุณต่อ Maria Malich และ Sergei Romanov หรือที่รู้จักในชื่อเกรย์สำหรับความช่วยเหลือในการจัดทำบทความ.
โปรเซสเซอร์ที่มีซ็อกเก็ต AM3 จะยังคงวางตลาดจนถึงไตรมาสที่สองของปี 2556
การลดราคาสำหรับรุ่น APU ราคาประหยัดจาก AMD
AMD เป็นเรื่องที่น่าประหลาดใจ ราคาต่ำสำหรับ APU รุ่นที่สองของ AMD A (Trinity) และในอนาคตอันใกล้นี้ บริษัทวางแผนที่จะสร้างความพึงพอใจให้กับนโยบายการกำหนดราคาอีกครั้งและลดต้นทุนของ APU งบประมาณลงอย่างมาก
และหากลดราคาของรุ่นก่อนหน้า (AMD A4-3300 และ A4-3400) จาก 46 ดอลลาร์และ 48 ดอลลาร์เหลือ 30 ดอลลาร์และ 35 ดอลลาร์ตามลำดับ ดูเหมือนว่าจะเป็นการตัดสินใจที่คาดหวังไว้พอสมควร (เพื่อขายหุ้นที่เหลืออยู่ออกไป) จากนั้นจะลดลง ราคาของโปรเซสเซอร์ไฮบริด AMD A4 ใหม่ 5300 จาก 53 ดอลลาร์ถึง 30 ดอลลาร์นั้นค่อนข้างจะคาดไม่ถึงแม้ว่าจะเป็นการเคลื่อนไหวที่น่ายินดีก็ตาม
โปรดทราบว่าข้อมูลเกี่ยวกับการลดราคาของ APU ที่กล่าวถึงข้างต้นมาจากแหล่งที่ใกล้ชิดกับผู้ผลิตเมนบอร์ดในไต้หวัน ดังนั้นจึงยังไม่ทราบวันที่เปิดตัวราคาใหม่อย่างเป็นทางการ ตารางข้อกำหนดทางเทคนิคของ AMD APU ซึ่งราคาจะลดลงในอนาคตอันใกล้นี้มีดังนี้:
โปรเซสเซอร์ระดับเริ่มต้น“ ที่ถูกลืม” AMD Sempron X2 198 และ AMD Athlon II X2 221
เมื่อกลางปีที่แล้ว AMD ได้ขยายตัว ผู้เล่นตัวจริงโปรเซสเซอร์ระดับเริ่มต้นใหม่สองตัว: เอเอ็มดี เซมพรอน X2 198และสร้างขึ้นสำหรับแพลตฟอร์ม AMD Lynx และติดตั้งรองรับตัวเชื่อมต่อ Socket FM1 อย่างไรก็ตามไม่เหมือน รุ่นอื่นที่คล้ายคลึงกันสินค้าใหม่เหล่านี้ไม่เคยวางจำหน่ายทั่วไปหรือในตลาดระบบ OEM
ดังที่ทราบกันดีว่าโมเดลต่างๆ เอเอ็มดี เซมพรอน X2 198แต่ยังวางจำหน่ายโดยเป็นส่วนหนึ่งของเดสก์ท็อปสำเร็จรูปซึ่งมุ่งเป้าไปที่ตลาดจีนโดยเฉพาะและจากนั้นไปที่ตลาดยุโรปและนำเสนอในช่วงครึ่งแรกของปีนี้
โปรดทราบว่าแนวทางแก้ไข เอเอ็มดี เซมพรอน X2 198และติดตั้งคอร์โปรเซสเซอร์สองตัวซึ่งมีความเร็วสัญญาณนาฬิกาเล็กน้อยคือ 2.5 และ 2.8 GHz ตามลำดับตัวควบคุม RAM แบบดูอัลแชนเนลของมาตรฐาน DDR3-1600 MHz และตัวควบคุมอินเทอร์เฟซ พีซีไอ เอ็กซ์เพรส 2.0. TDP ของผลิตภัณฑ์ใหม่ทั้งสองอยู่ที่ 65 W รายละเอียด ตารางเปรียบเทียบข้อกำหนดทางเทคนิคของโปรเซสเซอร์ เอเอ็มดี เซมพรอน X2 198และ:
เอเอ็มดี เซมพรอน X2 198 |
|||
ระบบเดสก์ท็อป |
|||
สถาปัตยกรรมไมโคร |
|||
แพลตฟอร์ม |
|||
ซ็อกเก็ตซีพียู |
|||
มาตรฐานการผลิต น.ม |
|||
จำนวนคอร์ฟิสิคัล |
|||
ขนาดแคช L1, KB |
คำแนะนำ |
||
ขนาดแคช L2, KB |
|||
คอนโทรลเลอร์แบบรวม |
หน่วยความจำ DDR3 แบบดูอัลแชนเนล, อินเทอร์เฟซ PCI Express 2.0 |
||
โมดูลหน่วยความจำที่รองรับ |
|||
แพคเกจความร้อน (TDP), W |
|||
MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, การจัดการบิตขั้นสูง, AMD64, การจำลองเสมือน, การป้องกันไวรัสที่ได้รับการปรับปรุง, PowerNow! |
โปรเซสเซอร์ไฮบริด AMD A4-3450 และ AMD A4-4300M ใหม่คู่หนึ่ง
เป็นที่ทราบกันดีเกี่ยวกับการเตรียมโปรเซสเซอร์ไฮบริดใหม่สองตัว - เอเอ็มดี A4-3450และ. ประการแรกอยู่ในกลุ่มโซลูชันเดสก์ท็อป มีพื้นฐานมาจากสถาปัตยกรรมไมโคร AMD K10 และเป็นของ APU รุ่นแรก หรือที่รู้จักกันดีในชื่อ AMD Llano หัวใจสำคัญของโมเดล เอเอ็มดี A4-3450มีคอร์โปรเซสเซอร์สองตัวที่มีความถี่สัญญาณนาฬิกา 2.8 GHz ซึ่งเป็นคอร์กราฟิก เอเอ็มดี เรดออน HD 6410 และตัวควบคุม RAM แบบดูอัลแชนเนลมาตรฐาน DDR3-1600 TDP ของผลิตภัณฑ์ใหม่อยู่ที่ 65 W และอาจจะไม่วางจำหน่ายจำนวนมาก แต่จะมีจำหน่ายในเดสก์ท็อปที่มีอุปกรณ์ครบครันเท่านั้น
APU อยู่ในกลุ่มโซลูชันมือถือราคาประหยัดและเป็นของโปรเซสเซอร์ไฮบริดรุ่นที่สอง (AMD Trinity) ผลิตภัณฑ์ใหม่นี้ประกอบด้วยคอร์โปรเซสเซอร์สองตัวซึ่งมีความถี่สัญญาณนาฬิกาปกติอยู่ที่ 2.5 GHz และคอร์ไดนามิกสามารถเข้าถึง 3.0 GHz, คอร์กราฟิก AMD Radeon HD 7420G และตัวควบคุม RAM DDR3 สองแชนเนล
ตารางเปรียบเทียบโดยละเอียดเกี่ยวกับข้อกำหนดทางเทคนิคของโปรเซสเซอร์ไฮบริดใหม่ เอเอ็มดี A4-3450และมีลักษณะดังนี้:
โปรเซสเซอร์ dual-core AMD Sempron X2 190 แบบดูอัลคอร์ราคาประหยัด ราคา 49.87 ดอลลาร์
โปรเซสเซอร์งบประมาณใหม่วางจำหน่ายในญี่ปุ่นแล้ว ขึ้นอยู่กับสถาปัตยกรรมไมโคร AMD K10 ขนาด 45 นาโนเมตร โดยใช้คอร์โปรเซสเซอร์ AMD Regor สองคอร์ และรองรับซ็อกเก็ต AM3
ความถี่สัญญาณนาฬิกาที่กำหนดของรุ่นคือ 2.5 GHz โปรดทราบว่ามันไม่รองรับคอร์กราฟิกในตัว แต่มีคอนโทรลเลอร์ในตัวสำหรับ DDR3-1066 MHz มาตรฐาน RAM แบบดูอัลแชนเนล แพ็คเกจระบายความร้อนของผลิตภัณฑ์ใหม่อยู่ภายใน 45 W
ราคาโดยประมาณของโซลูชันนี้ในตลาดญี่ปุ่นคือ 49.87 ดอลลาร์ ตารางสรุปข้อกำหนดทางเทคนิคของโปรเซสเซอร์ใหม่:
ส่วนตลาด |
ระบบเดสก์ท็อป |
|
สถาปัตยกรรมไมโคร |
||
ชื่อรหัสเคอร์เนล |
||
ซ็อกเก็ตซีพียู |
||
จำนวนคอร์ฟิสิคัล |
||
ความถี่สัญญาณนาฬิกาที่กำหนด MHz |
||
ขนาดแคช L1, KB |
คำแนะนำ |
|
ขนาดแคช L2, KB |
||
คอนโทรลเลอร์แบบรวม |
หน่วยความจำ DDR3 แบบดูอัลแชนเนล |
|
โมดูลที่รองรับ |
||
ตัวบ่งชี้ TDP, W |
||
ราคาโดยประมาณ |
AMD A4-3420 APU จะวางจำหน่ายสำหรับทุกคน
AMD กำลังเตรียมที่จะเปิดตัว APU เดสก์ท็อปรุ่น Box สู่ตลาดมวลชน เอเอ็มดี A4-3420. เราขอเตือนคุณว่าตั้งแต่เดือนมกราคมของปีนี้ การตัดสินใจครั้งนี้บริษัท OEM ประสบความสำเร็จในการใช้เพื่อสร้างระบบที่สมบูรณ์
แบบอย่าง เอเอ็มดี A4-3420สร้างขึ้นบนพื้นฐานของสถาปัตยกรรมไมโคร AMD K10 ขนาด 32 นาโนเมตรสำหรับแพลตฟอร์ม “Lynx” ของ AMD และรองรับ:
โปรเซสเซอร์สองตัวที่มีความถี่สัญญาณนาฬิกา 2.8 GHz;
แกนกราฟิก AMD Radeon HD 6410D โอเวอร์คล็อกที่ 600 MHz;
แคช L2 1 MB;
ตัวควบคุมหน่วยความจำแบบดูอัลแชนเนลที่รองรับโมดูล DDR3-1600 MHz
แพ็คเกจระบายความร้อนของผลิตภัณฑ์ใหม่อยู่ภายใน 65 W และรุ่นจะวางจำหน่ายในราคาประมาณ 65 ดอลลาร์ แผ่นข้อมูล เอพียูเอเอ็มดี A4-3420
แบบอย่าง |
เอเอ็มดี A4-3420 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ส่วนตลาด |
เดสก์ทอป |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
แพลตฟอร์ม |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
สถาปัตยกรรมไมโคร |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
มาตรฐานกระบวนการผลิต นน |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ซ็อกเก็ตซีพียู |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
จำนวนคอร์ฟิสิคัล |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ความถี่สัญญาณนาฬิกาที่กำหนด GHz |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ขนาดแคช L1, KB |
คำแนะนำ |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ขนาดแคช L2, KB |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
คอนโทรลเลอร์แบบรวม |
หน่วยความจำ DDR3 แบบดูอัลแชนเนล, คอร์กราฟิก, อินเทอร์เฟซ PCI Express 2.0 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ชื่อแบรนด์ |
เอเอ็มดี Radeon HD 6410D |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ความถี่สัญญาณนาฬิกา MHz |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
โมดูล RAM ที่รองรับ |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
แพคเกจความร้อน W |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
คำแนะนำและเทคโนโลยีที่รองรับ |
MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, AMD64, AMD-V (การจำลองเสมือน), การป้องกันไวรัสที่ได้รับการปรับปรุง, PowerNow! |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ราคาโดยประมาณ $ |
การเปลี่ยนแปลงนโยบายการกำหนดราคาของ AMD สำหรับโปรเซสเซอร์และ APU บางตัวAMD ได้ตัดสินใจเปลี่ยนแปลงราคาของโปรเซสเซอร์และ APU บางตัว โดยเฉพาะค่าใช้จ่ายที่แนะนำ โปรเซสเซอร์หกคอร์ เอเอ็มดี FX-6100ลดลง $10 และแตะ $155 ราคาของ Triple-Core APU ก็ลดลงจาก $89 เหลือ $85 เช่นกัน โปรดทราบว่าต้นทุนของ APU บางตัวเพิ่มขึ้น สิ่งนี้ใช้ได้กับสองโซลูชันเดสก์ท็อป - เอเอ็มดี A4-3300 และ A4-3400. ราคาของพวกเขาเพิ่มขึ้น 2 ดอลลาร์และสูงถึง 66 ดอลลาร์และ 71 ดอลลาร์ตามลำดับ ตารางสรุปข้อกำหนดทางเทคนิคของโปรเซสเซอร์และ APU ที่กล่าวมาข้างต้นมีดังต่อไปนี้: ประกาศอย่างเป็นทางการของโปรเซสเซอร์ AMD Athlon II X4 651 ใหม่อย่างเป็นทางการมีการเปิดตัวโปรเซสเซอร์เดสก์ท็อปใหม่ เช่นเดียวกับรุ่นก่อน () มันเป็นของแพลตฟอร์ม AMD Lynx สำหรับตัวเชื่อมต่อ AMD FM1 รุ่นนี้มีคอร์โปรเซสเซอร์สี่คอร์โอเวอร์คล็อกที่ 3.0 GHz และตัวควบคุมอินเทอร์เฟซ PCI Express 2.0 ต่างจาก AMD A line APU ซึ่งเป็นส่วนหนึ่งของแพลตฟอร์ม AMD Lynx เช่นกัน ผลิตภัณฑ์ใหม่นี้ไม่มีคอร์กราฟิก แพคเกจระบายความร้อนของสารละลายอยู่ที่ระดับ 100 วัตต์ ราคาแนะนำของผลิตภัณฑ์ใหม่ในปริมาณ 1,000 ชิ้นคือ 92 ดอลลาร์ และจะวางจำหน่ายเร็วๆ นี้ ตารางข้อมูลจำเพาะทางเทคนิคสำหรับโปรเซสเซอร์ใหม่มีดังนี้:
|
การกล่าวถึงสถาปัตยกรรมไมโครรุ่นต่อไปครั้งแรกปรากฏในปี 2546 บนฟอรัม ไมโครโปรเซสเซอร์ฟอรั่ม 2546. มีข้อสังเกตว่าสถาปัตยกรรมไมโครใหม่จะรวมโปรเซสเซอร์แบบมัลติคอร์ที่จะทำงานที่ความเร็วสัญญาณนาฬิกาสูงสุด 10 GHz ต่อมาความถี่สัญญาณนาฬิกาลดลงหลายครั้ง การกล่าวถึงอย่างเป็นทางการครั้งแรกเกี่ยวกับการพัฒนาโปรเซสเซอร์ Quad-Core ของ AMD ปรากฏในเดือนพฤษภาคมในแผนเชิงกลยุทธ์ที่เผยแพร่ในช่วงจนถึงปี 2552
จริงอยู่ที่ในเวลานั้นสถาปัตยกรรมไมโครใหม่ได้รับการจดทะเบียนภายใต้ชื่อรหัส AMD K8L และเฉพาะในเดือนกุมภาพันธ์ พ.ศ. 2550 ชื่อสุดท้าย AMD K10 เท่านั้นที่ได้รับการอนุมัติ
โปรเซสเซอร์ที่ใช้สถาปัตยกรรม AMD K8 ที่ได้รับการปรับปรุงนั้นควรจะเป็นโปรเซสเซอร์ AMD แบบ quad-core ตัวแรกรวมถึงโปรเซสเซอร์ตัวแรกในตลาดที่มีทั้ง 4 คอร์อยู่บนชิปตัวเดียว (ก่อนหน้านี้มีข่าวลือเกี่ยวกับการปรากฏตัวของ โปรเซสเซอร์ AMD แบบ quad-core ซึ่งเป็นคริสตัล Opteron แบบ dual-core สองตัว)
คุณสมบัติทางสถาปัตยกรรม
ความแตกต่างที่สำคัญระหว่างโปรเซสเซอร์รุ่น K10 และรุ่นก่อนที่ใช้ AMD K8 คือการรวมกันของสี่คอร์บนชิปตัวเดียวการอัปเดตโปรโตคอล Hyper-Transport เป็นเวอร์ชัน 3.0 แคช L3 ทั่วไปสำหรับคอร์ทั้งหมดรวมถึงการสนับสนุนที่มีแนวโน้มสำหรับ ตัวควบคุมหน่วยความจำ DDR3 ตัวคอร์เองก็ได้รับการอัพเกรดจากคอร์ K8 ของ AMD
สถาปัตยกรรมการเชื่อมต่อโดยตรง
- ช่วยให้คุณเพิ่มประสิทธิภาพและประสิทธิผลโดยการเชื่อมต่อตัวควบคุมหน่วยความจำและช่อง I/O เข้ากับคอร์โดยตรง
- ออกแบบมาเพื่อทำการคำนวณทั้งแบบ 32 บิตและ 64 บิตพร้อมกัน
- การรวมตัวควบคุมหน่วยความจำ DDR2 (สูงสุด 533 (1066) MHz โหมดรวมถึงการรองรับ DDR3 ในอนาคต)
ข้อดี:
- เพิ่มประสิทธิภาพแอปพลิเคชันโดยลดเวลาแฝงในการเข้าถึงหน่วยความจำ
- จัดสรรแบนด์วิธหน่วยความจำตามคำขอ
- เทคโนโลยี Hyper-Transport มอบการเชื่อมต่อด้วยความเร็วสูงสุดถึง 16.0 GB/s เพื่อป้องกันความล่าช้า
- รวมสูงสุด 33.1 GB/s แบนด์วิธระหว่างโปรเซสเซอร์และระบบ (รวมถึง Hyper-Transport บัสและตัวควบคุมหน่วยความจำ)
แคชอัจฉริยะที่สมดุลของ AMD
แคช L3 ขนาด 2MB ถูกใช้ร่วมกันในทุกคอร์ นอกเหนือจากแคช L2 ขนาด 512KB ต่อคอร์ ประโยชน์ที่ได้รับคือลดเวลาแฝงเมื่อเข้าถึงข้อมูลที่ใช้บ่อยเพื่อปรับปรุงประสิทธิภาพ
ตัวเร่งจุดลอยตัวแบบ Wide ของ AMD
FPU 128 บิตต่อคอร์ ข้อดีคือการสุ่มตัวอย่างและประมวลผลข้อมูลในการคำนวณจุดลอยตัวได้เร็วขึ้น
ไฮเปอร์ทรานสปอร์ต
- หนึ่งช่องสัญญาณ 16 บิต ความเร็ว 4000 MT/s
- การเชื่อมต่อ Hyper-Transport ด้วยความเร็วสูงสุดถึง 8.0 GB/s และสูงสุด 16.0 GB/s เมื่อทำงานในโหมด Hyper-Transport 3.0
- แบนด์วิธรวมสูงสุด 33.1 GB/s ระหว่างโปรเซสเซอร์และระบบ (รวมถึง Hyper-Transport bus และตัวควบคุมหน่วยความจำ)
ตัวควบคุมหน่วยความจำแบบรวม
ข้อได้เปรียบ - เข้าถึงได้รวดเร็วไปยังทรัพยากรระบบเพื่อเพิ่มประสิทธิภาพ
เอเอ็มดี-วี
ชุดฟีเจอร์บนฮาร์ดแวร์ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพ ความน่าเชื่อถือ และความปลอดภัยในสภาพแวดล้อมการจำลองเสมือนทั้งในปัจจุบันและอนาคต เครื่องเสมือนเข้าถึงหน่วยความจำที่จัดสรรได้โดยตรง
คูลแอนด์เงียบ 2.0
- ระบบการจัดการพลังงานขั้นสูงที่ปรับประสิทธิภาพของโปรเซสเซอร์โดยอัตโนมัติตามโหลด
- ลดการใช้พลังงานและความเร็วการหมุนของตัวทำความเย็นในระหว่างโหมดไม่ได้ใช้งาน
คูลคอร์
- ช่วยให้คุณลดการใช้พลังงานโดยการปิดส่วนที่ไม่ได้ใช้ของโปรเซสเซอร์
- ระบบแยกสำหรับตัวควบคุมหน่วยความจำและลอจิกโปรเซสเซอร์ทำให้สามารถควบคุมแรงดันไฟฟ้าและปิดระบบได้โดยแยกจากกัน
- ทำงานโดยอัตโนมัติโดยไม่จำเป็นต้องรองรับไดรเวอร์หรือ BIOS
- ช่วยให้สามารถควบคุมความถี่ของแต่ละคอร์ได้อย่างอิสระ
- ความเร็วของการสลับโหมดการทำงานเท่ากับหนึ่งรอบของคอร์โปรเซสเซอร์
ข้อผิดพลาด TLB
ข้อมูลจำเพาะ
- เทคโนโลยีการผลิต: ซอย 65 นาโนเมตร
- พื้นที่แกนกลาง: 283 มม.²
- จำนวนทรานซิสเตอร์: 450 ล้าน
- แรงดันไฟฟ้า: 1.05-1.38V
- ซ็อกเก็ต: AM2+ (940 พิน) / ซ็อกเก็ต F (1207 พิน)
ตัวเลือก
สำหรับคอมพิวเตอร์เดสก์ท็อป
โปรเซสเซอร์ Phenom สำหรับระบบเดสก์ท็อป รวมถึงซีรีส์ Opteron 13xx สำหรับซ็อกเก็ต Socket AM2+ โปรเซสเซอร์ซีรีส์ Phenom ทั้งหมดสร้างขึ้นบนซ็อกเก็ต AM2+ ซึ่งสามารถใช้งานร่วมกับซ็อกเก็ต AM2 รุ่นเก่าได้ เมื่อใช้โปรเซสเซอร์ Phenom บนเมนบอร์ดที่รองรับ Socket AM2 จะสูญเสียการสนับสนุนบัส Hyper-Transport 3.0, การตอกบัตรแยกต่างหากของตัวควบคุมหน่วยความจำ (นอร์ธบริดจ์), แคช L3 และคอร์รวมถึงฟังก์ชันประหยัดพลังงานบางอย่าง
สำหรับเซิร์ฟเวอร์
Opteron ซีรีส์ 83xx และ 23xx สำหรับเซิร์ฟเวอร์
โปรเซสเซอร์ซีรีส์ Opteron จะสามารถทำงานในมาเธอร์บอร์ดรุ่นเก่าที่ใช้ Socket F ได้ ในทั้งสองกรณี คุณจะต้องอัปเดต BIOS เท่านั้น เมนบอร์ด. โปรเซสเซอร์ทั้งหมดนี้สร้างขึ้นบนสถาปัตยกรรม AMD64 ซึ่งสามารถทำงานกับโค้ด 32 บิต x86, 16 บิต และ AMD64
คอร์ K10 ดั้งเดิมมีชื่อรหัสว่า "Barcelona" สำหรับโปรเซสเซอร์ร่วมที่มีไว้สำหรับเซิร์ฟเวอร์ โปรเซสเซอร์รุ่นต่อมาสำหรับคอมพิวเตอร์เดสก์ท็อปเปิดตัวโดยที่คอร์ K10 เรียกว่า "Agena"
โปรเซสเซอร์ที่มีคอร์ K10
ด้วยการถือกำเนิดของโปรเซสเซอร์เจนเนอเรชั่น K10 ในกลุ่มผลิตภัณฑ์ของ AMD การกำหนดของพวกเขาก็เปลี่ยนไปเช่นกัน - ทั้งสองรุ่นที่ใช้ K10 และ AMD K8 นั้นถูกซ่อนอยู่ภายใต้การกำหนดใหม่
ซีรีย์โปรเซสเซอร์ | การกำหนด |
---|---|
ฟีนอม X4 ควอดคอร์ ( อาเจน่า) | X4 9хх0 |
Phenom X3 ทริปเปิลคอร์ ( โทลิมาน) | X3 8хх0 |
แอธลอนดูอัลคอร์ ( คุมะ) | 7хх0 |
Athlon ซิงเกิลคอร์ ( ลิมา) | 1хх0 |
Sempron คอร์เดียว ( สปาร์ตา) | 1хх0 |
บาร์เซโลน่า คอร์
- AMD Opteron 3G 8350, 4 คอร์, 2.0 GHz, 75 W
- AMD Opteron 3G 8347, 4 คอร์, 1.9 GHz, 75 W
- AMD Opteron 3G 2350, 4 คอร์, 2.0 GHz, 75 W
- AMD Opteron 3G 2347, 4 คอร์, 1.9 GHz, 75 W
- AMD Opteron 3G 8356, 4 คอร์, 2.3 GHz, 75 W
- AMD Opteron 3G 8354, 4 คอร์, 2.2 GHz, 75 W
- AMD Opteron 3G 2356, 4 คอร์, 2.3 GHz, 75 W
- AMD Opteron 3G 2354, 4 คอร์, 2.2 GHz, 75 W
- AMD Opteron 3G 2352, 4 คอร์, 2.1 GHz, 75 W
- AMD Opteron 3G 1356, 4 คอร์, 2.3 GHz, 75 W
- AMD Opteron 3G 1354, 4 คอร์, 2.2 GHz, 75 W
- AMD Opteron 3G 1352, 4 คอร์, 2.1 GHz, 75 W
- AMD Opteron 3G 8347 HE, 4 คอร์, 1.9 GHz, 55 W
- AMD Opteron 3G 8346 HE, 4 คอร์, 1.8 GHz, 55 W
- AMD Opteron 3G 2347 HE, 4 คอร์, 1.9 GHz, 55 W
- AMD Opteron 3G 2346 HE, 4 คอร์, 1.8 GHz, 55 W
- AMD Opteron 3G 2344 HE, 4 คอร์, 1.7 GHz, 55 W
- AMD Opteron 3G 8360 SE, 4 คอร์, 2.5 GHz, 95 W
- AMD Opteron 3G 8358 SE, 4 คอร์, 2.4 GHz, 95 W
- AMD Opteron 3G 2360 SE, 4 คอร์, 2.5 GHz, 95 W
- AMD Opteron 3G 2358 SE, 4 คอร์, 2.4 GHz, 95 W