AMD Piledriver i K10: łeb w łeb. Nowe procesory AMD

Po przełomie początku XXI wieku AMD bezpiecznie wróciło do swojego Zwyczajny stan zawsze nadrabiam zaległości i mimo tego dość ciekawe i niewątpliwie zaawansowane rozwiązania techniczne, nawet nie próbuje konkurować z Intelem pod względem sprzedaży. Według stanu na połowę 2009 roku udziały spółki stanowią około 14,5% rynku mikroprocesorów. Jednocześnie zastrzeżone niegdyś „funkcje” układów AMD - na przykład 64-bitowe rozszerzenia instrukcji lub kontroler wbudowany w procesor pamięć o dostępie swobodnym- od dawna stosowane są w chipach głównego konkurenta.

Produkty AMD zajmują dziś dwie bardzo wąskie nisze: ultrabudżetowe procesory do budowy komputerów klasy ekonomicznej oraz modele o wysokiej wydajności oferowane od trzech do pięciu razy tańsze od porównywalnych chipów Intela.

Tłumaczy to fakt, że na półkach sklepowych można znaleźć procesory AMD różnych rodzin i generacji – od prehistorycznych Sempronów i Athlonów bazujących na zasłużonej architekturze K8 dla gniazda Socket 939, aż po ultranowoczesne sześciordzeniowe Phenom II X6. Tak czy inaczej, AMD opiera się teraz na architekturze K10, więc porozmawiamy konkretnie o procesorach zaprojektowanych na jej podstawie. Należą do nich Phenom i Phenom II, a także ich budżetowy wariant, nieśmiało nazywany Athlonem II.

Historycznie rzecz biorąc, pierwszymi chipami opartymi na K10 był czterordzeniowy Phenom X4 (o nazwie kodowej Agena), wydany w listopadzie 2007 roku. Nieco później, w kwietniu 2008 roku, pojawił się trzyrdzeniowy Phenom X3 – pierwsze na świecie centralne procesory dla komputery osobiste, w którym trzy rdzenie znajdują się w jednym chipie. W grudniu 2008 roku, wraz z przejściem na technologię procesową 45 nanometrów, wprowadzono zaktualizowaną rodzinę Phenom II, a w lutym chipy otrzymały nowe złącze Socket AM3. Produkcja seryjna czterordzeniowego Phenom II X4 rozpoczęła się w styczniu 2009 r., trzyrdzeniowego Phenom II X3 w lutym 2009 r., dwurdzeniowego Phenom II X2 w czerwcu 2009 r., a sześciordzeniowego Phenom II X2 niedawno, w kwietniu. 2010.

Athlon II – nowoczesny następca Sempron – to Phenom II, pozbawiony jednej ze swoich najważniejszych zalet – dużej pamięci podręcznej trzeciego poziomu (L3), wspólnej dla wszystkich rdzeni. Dostępny w wersjach dwu-, trzy- i czterordzeniowych. Athlon II X2 jest produkowany od czerwca 2009 r., X4 od września 2009 r., a X3 od listopada 2009 r.

Architektura AMD K10

Jakie są podstawowe różnice pomiędzy architekturą K10 i K8? Po pierwsze, w procesorach K10 wszystkie rdzenie są wykonane w jednym chipie i wyposażone są w dedykowaną pamięć podręczną L2. Chipy Phenom/Phenom 2 i serwerowy Opteron zapewniają także wspólną pamięć podręczną L3 dla wszystkich rdzeni, której objętość waha się od 2 do 6 MB.

Drugą ważną zaletą K10 jest nowa magistrala systemowa HyperTransport 3.0 o szczytowej przepustowości do 41,6 GB/s w obu kierunkach w trybie 32-bitowym lub do 10,4 GB/s w jednym kierunku w trybie 16-bitowym i częstotliwościach wyższych do 2,6 GHz. Przypomnijmy, że maksymalna częstotliwość robocza Poprzednia wersja HyperTransport 2.0 ma częstotliwość 1,4 GHz, a szczytowa przepustowość sięga 22,4 lub 5,6 GB/s.

Szeroka magistrala jest szczególnie ważna w przypadku procesorów wielordzeniowych, a HyperTransport 3.0 zapewnia konfigurowalność kanałów, dzięki czemu każdy rdzeń ma własną, niezależną ścieżkę. Dodatkowo procesor K10 potrafi dynamicznie zmieniać szerokość i częstotliwość pracy magistrali proporcjonalnie do własnej częstotliwości.

Warto zaznaczyć, że obecnie w chipach AMD magistrala HyperTransport 3.0 pracuje ze znacznie niższą prędkością niż maksymalna dopuszczalna. W zależności od modelu wykorzystywane są trzy tryby: 1,6 GHz i 6,4 GB/s, 1,8 GHz i 7,2 GB/s oraz 2 GHz i 8,0 GB/s. Wyprodukowane układy nie obsługują jeszcze dwóch standardowych trybów – 2,4 GHz i 9,6 GB/s oraz 2,6 GHz i 10,4 GB/s.

Procesory K10 integrują dwa niezależne kontrolery RAM, co przyspiesza dostęp do modułów w rzeczywistych warunkach pracy. Kontrolery mogą współpracować z pamięcią DDR2-1066 (modele na gniazdo AM2+ i AM3) lub DDR3 (chipy na gniazdo AM3). Ponieważ kontroler zintegrowany z Phenom II i Athlon II dla Socket AM3 obsługuje oba typy pamięci RAM, a gniazdo AM3 jest wstecznie kompatybilne z AM2+, nowe procesory można instalować na starszych płytach AM2+ i współpracować z pamięcią DDR2. Oznacza to, że kupując Phenoma II w celu modernizacji, nie będziesz musiał od razu wymieniać płyty głównej ani kupować innego rodzaju pamięci RAM – jak ma to miejsce na przykład w przypadku układów Intel i3/i5/i7.

Mikroprocesory o architekturze K10 wdrażają cały zestaw unowocześnionych technologii oszczędzających energię - AMD Cool"n"Quiet, CoolCore, Independent Dynamic Core i Dual Dynamic Power Management. Ten złożony system pozwala automatycznie zmniejszyć pobór mocy całego układu w trybie bezczynności, zapewnia niezależne zarządzanie energią kontrolera pamięci i rdzeni oraz ma możliwość wyłączenia nieużywanych elementów procesora.


Wreszcie same rdzenie również zostały znacznie ulepszone. Przeprojektowano konstrukcję jednostek próbkowania, przewidywania rozgałęzień i rozgałęzień oraz jednostek dyspozytorskich, co umożliwiło optymalizację obciążenia rdzenia i ostatecznie poprawę wydajności. Zwiększono szerokość bloków SSE z 64 do 128 bitów, możliwe stało się wykonywanie instrukcji 64-bitowych jako jednej oraz dodano obsługę dwóch dodatkowych instrukcji SSE4a (nie mylić z zestawami instrukcji SSE4.1 i 4.2 w procesorach Rdzeń Intela).

W tym miejscu należy wspomnieć o wadzie projektowej zidentyfikowanej w serwerach Opterons (o nazwie kodowej Barcelona) oraz w Phenom X4 i X3 pierwszych wydań - tzw. „błądzie TLB”, który w pewnym momencie doprowadził do całkowitego zaprzestania dostaw wszystkich Opterony wersji B2. W bardzo rzadkich przypadkach, przy dużym obciążeniu, z powodu wady konstrukcyjnej bloku TLD pamięci podręcznej L3, system może zachowywać się niestabilnie i nieprzewidywalnie. Wadę uznano za krytyczną dla systemów serwerowych, dlatego też wstrzymano wysyłkę wszystkich wydanych Opteronów. Wydano specjalną łatkę dla komputerów stacjonarnych Phenoms, która wyłącza wadliwy blok za pomocą BIOS-u, ale jednocześnie zauważalnie spadła wydajność procesora. Wraz z przejściem na wersję B3 problem został całkowicie wyeliminowany, a takich chipów od dawna nie można było znaleźć w sprzedaży.

Aktualna gama modeli

Choć topowe procesory AMD są wręcz gorsze od topowych modeli Intela, to w segmencie masowo produkowanych dwu- i czterordzeniowych chipów od dłuższego czasu utrzymuje się pewien parytet. Jednocześnie sama platforma AMD jest zauważalnie tańsza – mniej kosztuje nie tylko sam procesor, ale także płyta główna. Różnicę tę szczególnie widać, jeśli porównamy budżetowe maszyny na Phenomach II X3 i X4 z komputerami opartymi na Core i3, które są nieco wydajniejsze, ale za to niemal dwukrotnie droższe. A jeśli poświęcisz jeszcze większą moc i wybierzesz Athlona II, to PC będzie tańszy o ponad połowę!

Jeśli chodzi o maszyny bardziej produktywne, z Core i5 mogą konkurować tylko te najpotężniejsze potężne modele Phenom II X4, a najnowszy sześciordzeniowy X6 można poprawnie porównać jedynie z najmłodszym czterordzeniowym Core i7.

Wszystkie produkowane Athlony II i Phenom II są przeznaczone do montażu w gnieździe AM3, z wyjątkiem dwóch modeli: Phenom II X4 940 i 920, które są instalowane w gnieździe AM2+ i działają wyłącznie z pamięcią RAM DDR2. Chipy Phenom są przeznaczone wyłącznie do gniazda AM2. Procesora dla gniazda AM2+ nie można zainstalować w gnieździe AM3, ale jak już powiedzieliśmy, chipy AM3 można zainstalować na płytach z gniazdem AM2+.

Najwyraźniej AMD stopniowo wycofuje chipy dla Socket AM2 i podobnie jak Intel stawia na modele obsługujące nowocześniejszą pamięć RAM DDR3. Modele dla AM3 i AM2+, podobne pod względem częstotliwości taktowania i innych cech, kosztują prawie tyle samo, a jeśli weźmie się pod uwagę wsteczną kompatybilność nowych chipów, zakup pierwszych Phenomów nie ma większego sensu. Dlatego w przyszłości będziemy rozważać wyłącznie Phenom II i Athlon II.

Zarówno Athlon II, jak i Phenom II są dostępne w wersjach dwu-, trzy- i czterordzeniowych (X2, X3, X4), a „fenomy” są również dostępne w wersjach sześciordzeniowych. Dostępne są również modyfikacje Czarna Edycja, różniące się od standardowych odblokowanym mnożnikiem, który ułatwia podkręcanie.

Niestety, większość nowych chipów AMD znów jest gorsza pod względem termicznym od modeli Intela o podobnych parametrach, co oznacza większe wymagania wobec systemów chłodzenia i zwiększone zużycie energii. W przypadku wielordzeniowych Phenomów II typowy TDP wynosi 80, 95 lub 125 W. Specjalne ekonomiczne (65 W) modyfikacje z literą „e” po indeksie modelu są sprzedawane, ale są zauważalnie wolniejsze niż „zwykłe” opcje i są droższe.

Procesory Athlon II X2 to „prawdziwe” układy dwurdzeniowe, a nie czterordzeniowe z dwoma martwymi rdzeniami, jak Phenom II X2. Ale Athlon II X3 to Athlon II X4 z jednym niefunkcjonalnym rdzeniem. Wszystkie Athlony II są produkowane w technologii 45 nm.

Każdy rdzeń Athlone X2, X3 i X4 jest wyposażony w 128 KB pamięci podręcznej L1 i 512 KB pamięci podręcznej drugiego poziomu. Jednak w przeciwieństwie do Phenom II nie współdzielą pamięci podręcznej L3, co oznacza, że ​​procesory będą częściej uzyskiwać dostęp do z natury wolniejszej pamięci podręcznej. pamięć systemowa. Rezultatem jest ograniczona wydajność w aplikacjach wymagających dużych zasobów, takich jak trójwymiarowa grafika I gry komputerowe. Jednak w połączeniu z dobrą kartą graficzną systemy Athlon II wykazują całkiem przyzwoitą wydajność w grach.

Phenom II stoi w obliczu silnej konkurencji ze strony Core i3 i i5, ale z pewnością przewyższają one cenę porównywalnego systemu. Podobnie jak w Athlonie II, każdy rdzeń fenomenalny ma 128 KB pamięci podręcznej L1 i 512 KB pamięci podręcznej L2. Jednocześnie Phenom II zapewnia także pamięć podręczną trzeciego poziomu, wspólną dla wszystkich rdzeni. Prawie wszystkie „zjawiska” - dwu-, trzy-, cztero- i sześciordzeniowe - mają 6 MB pamięci podręcznej L3, z wyjątkiem trzech młodszych modeli X4 o indeksach 805, 810 i 820, które mają tylko 4 MB pamięci L3 .

W drugiej części artykułu przedstawimy Państwu brief informacje podstawowe o głównym Specyfikacja techniczna wszystkie obecnie produkowane procesory AMD Athlon II i Phenom II oraz szacunkowe ceny detaliczne ich w rosyjskich sklepach. Na zakończenie porozmawiamy o najciekawszych naszym zdaniem modelach, na które warto zwrócić uwagę Specjalna uwaga przy wyborze.

Na początku września Firma AMD obiecuje zaprezentować swoje nowe czterordzeniowe procesory o architekturze K10. Pierwszymi procesorami o nowej architekturze będą chipy serwerowe Opteron z rdzeniem o nazwie kodowej Barcelona. Niestety inżynierom AMD nie udało się w obecnej wersji osiągnąć masowej produkcji procesorów pracujących z wysokimi częstotliwościami. Główną przeszkodą w zwiększeniu częstotliwości najwyraźniej był fakt, że cztery rdzenie przy wysokich częstotliwościach zużywają moc przekraczającą wartość, jaką zapewnia pakiet termiczny platformy. Zużycie energii spadnie, a częstotliwości wzrosną wraz z wydaniem nowych wersji i przejściem na bardziej wyrafinowane procesy techniczne. W międzyczasie AMD musi pilnie rozpocząć sprzedaż, aby wyjść z trudnej sytuacji ekonomicznej, dlatego dostawy Barcelony rozpoczną się od czterordzeniowych procesorów serwerowych pracujących na częstotliwości 2 GHz.

W czwartym kwartale 2007 roku AMD obiecuje zwiększyć częstotliwości Opteron do 2,4–2,5 GHz i wypuścić desktopowe wersje procesorów o architekturze K10:

Phenom FX (nazwa kodowa Agena FX) – 4 rdzenie, 2 MB pamięci podręcznej L3, szacunkowe częstotliwości początkowe 2,2–2,4 GHz, gniazda AM2+ i F+;
Phenom X4 (nazwa kodowa Agena) – 4 rdzenie, 2 MB pamięci podręcznej L3, szacowane częstotliwości początkowe 2,2–2,4 GHz, gniazdo AM2+.

Później, na początku 2008 roku, AMD obiecuje wprowadzić uproszczone wersje nowych procesorów:

Phenom X2 (nazwa kodowa Kuma) – 2 rdzenie, 2 MB pamięci podręcznej L3, szacunkowe częstotliwości początkowe 2,2–2,6 GHz, gniazdo AM2+;
Athlon X2 (nazwa kodowa Rana) – 2 rdzenie, bez pamięci podręcznej L3, szacunkowa częstotliwość startowa 2,2 GHz, gniazdo AM2+;
Sempron (nazwa kodowa Spica) – 1 rdzeń, szacunkowe częstotliwości początkowe 2,2–2,4 GHz, gniazdo AM2+.

Ale to wszystko jest kwestią najbliższej przyszłości, a tymczasem zobaczmy, jakie innowacje przyniosła nowa architektura AMD. W tym artykule postaram się szczegółowo przybliżyć jego szczegóły i ocenić, czego możemy się po nim spodziewać.

Pobieram instrukcje

Wykonywanie kodu przez procesor rozpoczyna się od pobrania instrukcji z pamięci podręcznej instrukcji L1I i ich dekodowania. Instrukcje x86 mają zmienną długość, co utrudnia określenie ich granic przed dekodowaniem. Aby mieć pewność, że określenie długości instrukcji nie wpłynie na szybkość dekodowania, procesory K8/K10 wykonują wstępne dekodowanie instrukcji podczas ładowania linii do pamięci podręcznej instrukcji L1I. Informacje o układzie instrukcji przechowywane są w pamięci podręcznej L1I w specjalnych polach (3 bity informacji przed dekodowaniem na każdy bajt instrukcji). Wstępne dekodowanie podczas ładowania do pamięci podręcznej umożliwia przeniesienie narzutu związanego z określaniem granic instrukcji poza kanały dekodowania i utrzymanie stałej szybkości dekodowania niezależnie od długości i struktury instrukcji.

Procesory ładują instrukcje z pamięci podręcznej w blokach, z których są wyodrębniane instrukcje i wysyłane do dekodowania. Procesor o architekturze K10 pobiera instrukcje z pamięci podręcznej instrukcji L1I w wyrównanych 32-bajtowych blokach, w przeciwieństwie do procesorów K8 i Intel Core 2, które pobierają w 16-bajtowych blokach. Częstotliwość próbkowania wynosząca 16 bajtów na zegar umożliwia K8 i Core 2 wysyłanie pięciu instrukcji o średniej długości do 5 bajtów do dekodowania w każdym cyklu zegara. Jednakże długość instrukcji x86 może sięgać 16 bajtów, a w niektórych algorytmach długość kilku sąsiednich instrukcji w łańcuchu może przekraczać 5 bajtów, co uniemożliwia w takich przypadkach zdekodowanie trzech instrukcji na cykl zegara (rys. 1).


Ryż. 1. Kilka sąsiadujących ze sobą długich poleceń ogranicza tempo
dekodowanie podczas próbkowania w blokach 16-bajtowych


W szczególności długość SSE2 to prosta instrukcja z operandami między rejestrami (na przykład movapd xmm0, xmm1) – wynosi 4 bajty. Jednakże, gdy używane są operacje na adresie pamięci, wykorzystujące rejestr bazowy i przesunięcie w instrukcji (na przykład movapdxmm0,) długość polecenia wzrasta do 6–9 bajtów w zależności od przesunięcia. W trybie 64-bitowym, gdy używane są dodatkowe rejestry, do kodu instrukcji dodawany jest kolejny jednobajtowy przedrostek REX. Zatem w trybie 64-bitowym długość poleceń SSE2 może osiągnąć 7–10 bajtów. Długość instrukcji SSE1 jest o 1 bajt mniejsza, jeśli jest to instrukcja wektorowa (to znaczy składająca się z czterech wartości 32-bitowych), ale instrukcje skalarne (z jednym operandem) SSE1 mogą również osiągnąć długość 7–10 bajtów w ramach tego samego warunki.

Pobieranie 16 bajtów na cykl zegara nie stanowi w tej sytuacji ograniczenia dla procesora K8, ponieważ nadal nie jest on w stanie dekodować instrukcji wektorowych SSE z szybkością większą niż 3 instrukcje na 2 cykle zegara, jednak w przypadku architektury K10 próbkowanie 16 bajtów może stać się ograniczenie, dlatego rozsądnym rozwiązaniem jest zwiększenie szerokości próbkowania do 32 bajtów na zegar.

Nawiasem mówiąc, procesory Core 2 pobierają instrukcje w blokach po 16 bajtów, podobnie jak procesory K8, więc mogą skutecznie dekodować strumień instrukcji z szybkością 4 na zegar tylko wtedy, gdy średnia długość instrukcji nie przekracza 4 bajtów, w przeciwnym razie dekoder nie będzie w stanie efektywnie przetworzyć nie tylko 4, ale i 3 instrukcji na cykl zegara. Jednak Core 2 ma specjalny wewnętrzny 64-bajtowy bufor, w którym przechowywane są cztery ostatnie żądane 16-bajtowe bloki. Pobieranie z tego bufora odbywa się z szybkością 32 bajtów na cykl zegara. Bufor ten umożliwia buforowanie krótkich cykli, usuwanie w nich ograniczeń częstotliwości próbkowania, a także zapisywanie 1 cyklu zegara przy każdej prognozie przejścia na początek cyklu. Jednakże pętle nie mogą zawierać więcej niż 18 instrukcji, nie więcej niż 4 gałęzi warunkowych i żadnych instrukcji ret..

Przewidywanie przejścia

Gdy w strumieniu poleceń pojawią się rozgałęzienia, procesor, aby nie przerwać dekodowania, musi spróbować odgadnąć dalsze zachowanie programu i kontynuować dekodowanie od najbardziej prawdopodobnej gałęzi. W takich przypadkach następny blok instrukcji jest pobierany przy użyciu mechanizmu przewidywania rozgałęzień. Predykcja rozgałęzień w procesorach K8 realizowana jest za pomocą adaptacyjnego algorytmu dwupoziomowego, który uwzględnia historię rozgałęzień nie tylko bieżącej instrukcji, ale także 8 poprzednich instrukcji. Główną wadą mechanizmu predykcji rozgałęzień K8 był brak przewidywania rozgałęzień pośrednich z dynamicznie przeplatanymi adresami.

Przejścia pośrednie to te, które są wykonywane przy użyciu wskaźnika, który jest obliczany dynamicznie podczas wykonywania kodu programu. Zazwyczaj kompilatory wstawiają skoki pośrednie do konstrukcji przełączników i są również używane w wywołaniach funkcji według adresu oraz w wywołaniach funkcji wirtualnych w programowaniu obiektowym. Procesor K8 zawsze próbuje pobrać kod pod ostatnim adresem gałęzi. Jeśli adres się zmienił, potok zostanie zresetowany. Jeśli adres skoku będzie okresowo przeplatany, procesor będzie stale popełniał błędy. Mechanizm przewidywania dynamicznie zmieniających się adresów skoków pośrednich pojawił się po raz pierwszy w procesorze Pentium M. Brak takiego mechanizmu w K8 zmniejsza jego skuteczność w kodzie obiektowym.

Zgodnie z oczekiwaniami poprawiono przewidywanie rozgałęzień warunkowych w K10:

Pojawił się mechanizm przewidywania dynamicznie zmieniających się adresów przejść pośrednich, które przewidywane są z tablicy 512 elementów.
Zwiększono rozmiar globalnego rejestru historii, który służy do wyznaczania historii sekwencji poprzednich instrukcji skoku z 8 do 12 bitów.
Zwiększono głębokość stosu zwrotnego z 12 do 24 elementów, co służy do szybkiego określenia adresu zwrotnego z funkcji, dzięki czemu może ona kontynuować pobieranie bez czekania na polecenie ret w celu pobrania adresu zwrotnego ze stosu.

Dzięki tym ulepszeniom K10 powinien uzyskać zauważalny wzrost szybkości wykonywania programów napisanych w językach obiektowych wysokiego poziomu. Niestety dość trudno obiektywnie ocenić wydajność jednostki predykcji rozgałęzień K10, jednak według niektórych danych może ona w niektórych przypadkach być niższa niż w procesorach Intela.

Rozszyfrowanie

Bloki odebrane z pamięci podręcznej instrukcji są kopiowane do bufora wstępnego dekodowania ( Predekoduj/wybierz bufor), gdzie instrukcje są izolowane od bloków, ustalane jest ich typy i przesyłane do odpowiednich kanałów dekodera. Proste instrukcje, które są dekodowane w jedną (pojedynczą) lub dwie (podwójne) makrooperacje, są wysyłane do „prostego” dekodera zwanego Ścieżka bezpośrednia. Złożone instrukcje, które są dekodowane w 3 lub więcej operacjach makro, są wysyłane do dekodera oprogramowania sprzętowego zwanego Ścieżka wektora.


Ryż. 2. Dekoder


W każdym cyklu zegara z kanałów dekodera można wyprowadzić 3 makrooperacje (MOP). Dekoder DirectPath może dekodować 3 proste instrukcje 1-MOP na cykl zegara lub jedną instrukcję 2-MOP i jedną 1-MOP lub półtora instrukcji 2-MOP (trzy instrukcje 2-MOP w dwóch cyklach zegara). Złożone instrukcje można dekodować w więcej niż 3 MOPach, więc dekodowanie takich instrukcji może trwać kilka cykli zegara. Aby uniknąć konfliktów na wyjściu kanałów dekodera, proste i złożone instrukcje w K8 i K10 nie mogą być wysyłane do dekodowania w tym samym czasie.

MOP składają się z pary mikrooperacji: jednej mikrooperacji na liczbach całkowitych lub rzeczywistych oraz jednej mikrooperacji adresowej dostępu do pamięci. Wyboru mikrooperacji z MOP-ów dokonuje planista, który niezależnie od siebie wysyła je do wykonania.

Sygnał wyjściowy MOS z dekodera w każdym cyklu zegara jest łączony w grupy po 3 sztuki. Ze względu na naprzemienność poleceń DirectPath i VectorPath lub różne opóźnienia w pobieraniu instrukcji do dekodowania, w dekoderze może zostać utworzona grupa zawierająca 2 lub nawet tylko 1 MOS wyjście. Taką grupę zapełnia się maksymalnie trzema pustymi MOPami i w takiej formie wysyła do realizacji.

Instrukcje wektorowe SSE, SSE2 i SSE3 w procesorze K8 są podzielone na pary MOP, które oddzielnie przetwarzają górną i dolną 64-bitową połowę 128-bitowego rejestru SSE na urządzeniach 64-bitowych. Zmniejsza to o połowę szybkość dekodowania instrukcji i o połowę liczbę instrukcji wprowadzanych do kolejki programu planującego.

Dzięki temu, że bloki FPU w procesorze K10 są rozbudowane do 128 bitów, nie ma potrzeby dzielenia wektorowych poleceń SSE na dwa MOPy. Większość instrukcji SSE, które zostały zdekodowane w K8 jako DirectPath Double, zaczęto dekodować w 1 MOS jako DirectPath Single w K10. Dodatkowo część instrukcji SSE, które w K8 zostały zdekodowane poprzez dekoder firmware VectorPath, w K10 zaczęto dekodować poprzez prosty dekoder DirectPath ze zmniejszeniem liczby generowanych MOPów do 1 lub 2 MOPów (w zależności od operacji ).

Uproszczono także dekodowanie instrukcji całkowitych do pracy ze stosem. Większość form instrukcji stosu, które są zwykle używane w wywołaniach funkcji CALL-RET i PUSH-POP, jest teraz dekodowanych również przez prosty dekoder do pojedynczego MOS. Ponadto polecenia te korzystają teraz ze specjalnego schematu Optymalizator stosu pasma bocznego przekształcane są w niezależny łańcuch makrooperacji, które można wykonywać równolegle.

Optymalizator stosu pasma bocznego

W K10 do obwodów dekodera dodano specjalny blok o nazwie Sideband Stack Optimizer. Zasada jego działania jest podobna do nowego bloku Stack Pointer Tracker stosowanego w procesorach Core. Dlaczego jest to potrzebne? Zestaw instrukcji x86 wykorzystuje instrukcje CALL, RET, PUSH i POP do wywołania funkcji, wyjścia z niej, przekazania do niej parametrów i zapisania zawartości rejestrów. Wszystkie te instrukcje domyślnie korzystają z rejestru ESP, który wskazuje bieżącą pozycję stosu. Możesz zobaczyć, jak te instrukcje są wykonywane podczas wywoływania funkcji w K8, wyobrażając sobie ich dekodowanie jako sekwencję równoważnych elementarnych operacji zmiany rejestru stosu i ładowania/zapisywania:


Jak widać z tego przykładu, podczas wywoływania funkcji polecenia zmieniają rejestr ESP sekwencyjnie, zatem każde polecenie pośrednio zależy od wyniku poprzedniego. Kolejność poleceń w tym łańcuchu nie może zostać zmieniona, więc treść funkcji, zaczynająca się od polecenia mov eax, , nie może zostać wykonana do czasu wykonania ostatniego polecenia PUSH. Blok Sideband Stack Optimizer monitoruje stos pod kątem zmian i konwertuje łańcuch na niezależny łańcuch, dostosowując przesunięcie każdej instrukcji względem stosu i wstawiając operacje synchronizacji na szczycie stosu (sync-MOP) przed instrukcjami, które jawnie korzystają ze stosu rejestr. Usuwa to ograniczenie dotyczące zmiany kolejności poleceń korzystających ze stosu.


Zespół przesuń się,, od którego rozpoczynają się obliczenia w treści funkcji w w tym przykładzie, zależy tylko od operacji synchronizacji na górze stosu. Operacje te można teraz swobodnie wykonywać równolegle z innymi poleceniami poprzedzającymi je. Tym samym zwiększa się szybkość przekazywania parametrów i zapisywania rejestrów, a jednocześnie treść funkcji może rozpocząć ładowanie parametrów i wykonywanie na nich operacji jeszcze przed zakończeniem przekazywania wszystkich parametrów i zapisywania rejestrów.

Zatem zwiększenie szybkości dekodowania instrukcji do pracy ze stosem, wykorzystanie bloku Sideband Stack Optimizer, zwiększenie głębokości stosu zwrotnego i przewidywanie naprzemiennych gałęzi pośrednich w K10 prowadzi do zauważalnego wzrostu szybkości wykonywania kodów bogatych w funkcje dzwoni.

Dekoder procesora K10 nie będzie w stanie zdekodować 4 instrukcji na cykl zegara, jak może to zrobić dekoder Core 2 w sprzyjających warunkach, ale nie będzie to czynnikiem ograniczającym wykonanie programu. Średnia szybkość wykonywania poleceń prawie nigdy nie osiąga 3 poleceń na cykl zegara, więc dekoder K10 będzie na tyle wydajny, że jednostki obliczeniowe nie będą stać bezczynnie z powodu braku operacji w kolejkach.

Jednostka dowodzenia

Zdekodowane trójki MOP wchodzą do jednostki sterującej instrukcjami (ICU), która przechowuje MOP w buforze zmiany kolejności (ROB). Bufor zmiany kolejności składa się z 24 linii po trzy MOP. Każde trio MOP-ów jest zapisywane w osobnej linii. W ten sposób ROB umożliwia jednostce sterującej monitorowanie stanu 72 MOPów do czasu ich wycofania.

Z bufora zmiany kolejności MOP są wysyłane do kolejek planistów całkowitych i rzeczywistych jednostek wykonawczych w kolejności, w jakiej opuszczają dekoder. Trójki MOP są nadal przechowywane w buforze zmiany kolejności do czasu zakończenia i odrzucenia wszystkich starszych operacji. W czasie emerytury ostateczne wartości zapisywane są w rejestrach i pamięci architektonicznej. Rezygnacja z operacji, usunięcie informacji o nich z ROB oraz zapisanie wartości końcowych odbywa się w kolejności programowej, w jakiej operacje weszły do ​​bufora porządkowania. Jest to konieczne, aby w przypadku wyjątku lub przerwania wyniki wszystkich kolejnych operacji wykonanych poza kolejnością uległy odwróceniu.

Wykonywanie poleceń liczb całkowitych

W procesorach K8 i K10 blok operacji na liczbach całkowitych ( Całkowita jednostka wykonawcza) składa się z trzech symetrycznych kanałów całkowitych. Każdy z kanałów obliczeniowych ma swój własny harmonogram z 8 kolejkami MOS, tym samym zestawem całkowitych jednostek arytmetyczno-logicznych (ALU), jednostek adresowych (AGU) i jednostki rozgałęzień warunkowych. Dodatkowo do kanału obliczeniowego 0 podłączony jest blok mnożenia, a do kanału obliczeniowego 2 blok do wykonywania nowych operacji LZCNT i POPCNT (więcej o nich poniżej).


Ryż. 3. Blok do wykonywania operacji na liczbach całkowitych


O wyborze kolejki dla każdego MOP-a decyduje statyczna pozycja polecenia w trójce utworzonej na wyjściu dekodera. Każda makrooperacja w trójce jest kolejno wysyłana z bufora porządkowania do wykonania, co z jednej strony ułatwia zarządzanie poleceniami, a z drugiej może prowadzić do niezrównoważonego ładowania kolejek w przypadku, gdy łańcuch zależnych operacji będzie niekorzystnie ułożony w kod programu (co jednak w praktyce prawie nigdy nie występuje i dlatego ma niewielki wpływ na wydajność). Mnożenia i rozszerzone operacje bitowe są umieszczane przez dekoder w odpowiednich potrójnych szczelinach, aby mieć pewność, że wpadną do określonego kanału.

W kolejkach planistów kanałów obliczeniowych MOP, jak wspomniano powyżej, dzielą się na mikrooperacje całkowite i mikrooperacje adresowe dostępu do pamięci. Gdy dane będą gotowe, program planujący może uruchomić jedną operację na liczbach całkowitych z każdej kolejki do urządzenia ALU i jedną operację adresową do urządzenia AGU. Liczba jednoczesnych dostępów do pamięci jest ograniczona do dwóch. Zatem dla każdego cyklu zegara można wykonać 3 operacje na liczbach całkowitych i 2 operacje na pamięci (64-bitowy odczyt/zapis w dowolnej kombinacji). Mikrooperacje z różnych arytmetycznych MOPów są wysyłane do wykonania z kolejek, gdy tylko dane będą dla nich gotowe, w kolejności poza kolejnością. Po zakończeniu mikrooperacji arytmetycznych i adresowych z MOP, MOP jest usuwany z kolejki harmonogramu, zwalniając miejsce na kolejne operacje.

W procesorze K8 mikrooperacje pamięci są wybierane w kolejności programowej. Operacje dostępu do pamięci, które są późniejsze w kolejności programu, nie mogą być uruchamiane przed wcześniejszymi. Powoduje to, że niepowodzenie obliczenia adresu dla wcześniejszej operacji adresowej blokuje wszystkie kolejne operacje adresowe, nawet jeśli wszystkie operandy kolejnych operacji są gotowe.

Na przykład:

dodaj ebx, ecx
mov eax, – szybkie obliczenie adresu
mov ecx, – adres zależy od wyniku poprzedniego polecenia
mov edx - to polecenie nie zostanie wykonane, dopóki nie zostaną obliczone adresy wszystkich poprzednich poleceń.


Może to prowadzić do pogorszenia wydajności i jest jednym z czynników ograniczających procesor K8, przez co w przypadku niektórych kodów K8, pomimo możliwości wydania dwóch instrukcji odczytu na cykl zegara, wykonuje instrukcje dostępu do pamięci mniej efektywnie niż procesor Procesor Core 2 obsługujący jedno polecenie odczytu na cykl zegara, ale jednocześnie posiadający mechanizm spekulatywnego wykonywania poleceń odczytu poza kolejnością, z pominięciem poprzednich poleceń odczytu i zapisu.

W procesorach o architekturze K10 to wąskie gardło zostało wyeliminowane. Procesory K10 są teraz w stanie nie tylko uruchamiać polecenia odczytu poza kolejnością, ale także uruchamiać polecenia zapisu przed poleceniami odczytu w przypadkach, gdy procesor wie, że adresy zapisu i odczytu nie kolidują ze sobą. Rozpoczęcie zapisu z pominięciem odczytu pozwala znacznie przyspieszyć wykonanie niektórych typów kodów, np. cykli rozpoczynających się od polecenia odczytania kolejnej porcji danych z pamięci, a kończących się zapisem obliczonego wyniku do pamięci.
.....// operacje na danych
mov, eax // zapisanie wyniku
cmp
jnz L1
W takich przypadkach procesor, który nie obsługuje rozpoczynania odczytu przed zapisem, nie może rozpocząć wykonywania następna iteracja pętli do momentu zapisania bieżącego wyniku. Procesory obsługujące zmianę kolejności odczytu mogą rozpocząć ładowanie danych i przetwarzanie danych w następnej iteracji bez czekania na zakończenie bieżącej.

Niestety, procesor K10 nie wie jeszcze, jak wykonać spekulatywne ładowanie z pominięciem zapisu na nieznany adres, tak jak robią to procesory Core 2. Pomimo tego, że takie spekulacje mogą skutkować karami, w rzeczywistości kary te są rzadkie w kodzie programu (około 5 % przypadków), więc ładowanie spekulacyjne jest uzasadnione z punktu widzenia wydajności.

Kolejnym ulepszeniem bloku liczb całkowitych procesora K10 była optymalizacja algorytmu instrukcji dzielenia liczb całkowitych. Teraz szybkość wykonania instrukcji dzielenia liczb całkowitych zależy od najbardziej znaczących bitów dywidendy i dzielnika. Na przykład w przypadkach, gdy dywidenda wynosi zero, dzielenie odbywa się prawie dwukrotnie szybciej. Ogólnie rzecz biorąc, dzielenie liczb całkowitych jest bardzo rzadką operacją, której ze względu na niską szybkość wykonania starają się w rzeczywistych programach unikać w każdy możliwy sposób, zastępując ją mnożeniem przez odwrotność dzielnika, przesuwaniem lub omijaniem w innych sposobów, więc ta optymalizacja najprawdopodobniej nie będzie miała zauważalnego wpływu na wydajność aplikacji.

Ogólnie rzecz biorąc, blok urządzeń całkowitych K10 będzie bardzo wydajny. Po dodaniu mechanizmu wykonywania operacji pamięciowych poza kolejnością nie ma on już żadnych oczywistych słabych punktów. Pomimo mniejszej głębokości kolejek niż procesory Core 2, procesory K10 nie mają ograniczeń w czytaniu rejestrów z pliku rejestru ani innych ograniczeń planowania, które uniemożliwiają Core 2 ciągłe wykonywanie operacji w najszybszym możliwym tempie.

Wykonywanie prawdziwych instrukcji

W procesorach K8 i K10 harmonogram jednostek zmiennoprzecinkowych (FPU) jest oddzielony od harmonogramu instrukcji całkowitych i jest zorganizowany nieco inaczej. Bufor harmonogramu może pomieścić do 12 grup po 3 MOP (teoretycznie 36 rzeczywistych operacji). W przeciwieństwie do bloku wykonywania instrukcji całkowitych z symetrycznymi kanałami obliczeniowymi, blok arytmetyki pływającej zawiera trzy różne urządzenia: FADD dla rzeczywistego dodawania, FMUL dla rzeczywistego mnożenia i FMISC (aka FSTORE) dla instrukcji przechowywania pamięci i pomocniczych operacji konwersji, więc bufor harmonogramu nie wiąże pozycji MOP w grupie instrukcji z konkretnym urządzeniem obliczeniowym (rys. 4).



Ryż. 4. Jednostka wykonawcza zmiennoprzecinkowa


Każdy cykl zegara K8 i K10 może wykonać jedną operację w każdym z rzeczywistych urządzeń arytmetycznych. Urządzenia zmiennoprzecinkowe procesora K8 są 80-bitowe. 128-bitowe instrukcje wektorowe SSE są dzielone na etapie dekodowania na dwa MOP, które wykonują operacje na 64-bitowych połówkach 128-bitowego operandu i są wykonywane sekwencyjnie w różnych cyklach zegara. To nie tylko ogranicza szybkość wykonywania poleceń wektorowych, ale także prawie o połowę zmniejsza efektywną objętość bufora programu planującego FPU, a w konsekwencji głębokość wykonywania poleceń poza kolejnością.

W procesorze K10 szerokość urządzeń FPU wzrosła do 128 bitów. K10 przetwarza 128-bitowe argumenty wektorowe całkowicie w jednej operacji, podwajając teoretyczną prędkość wykonywania instrukcji wektorowych SSE w porównaniu do K8. Ponadto, zmniejszając o połowę liczbę MOP, zwiększa się efektywna długość kolejki programu planującego, umożliwiając głębsze wykonywanie zadań poza kolejnością.

W procesorze K8 polecenia startowe SSE wykonywane są za pomocą urządzenia FSTORE, co z jednej strony nie pozwala na jednoczesne wykonywanie innych poleceń zajmujących to urządzenie, a z drugiej strony ogranicza liczbę jednocześnie uruchamianych poleceń startowych do jeden. Dwa równoległe odczyty z pamięci w K8 można wykonać tylko wtedy, gdy jedno z poleceń jest instrukcją łączącą dostęp do pamięci i operację na danych (tzw. polecenie Load-Execute), np. DODATKI xmm1,.

Procesor K10 wprowadził kilka istotnych ulepszeń w mechanizmie wykonywania poleceń startowych SSE.

Po pierwsze, polecenia ładowania nie korzystają już z zasobów FPU, więc port FSTORE jest teraz zwolniony i może wykonywać inne polecenia, a polecenia ładowania można uruchamiać 2 razy na cykl zegara.

Po drugie, w przypadkach, gdy dane w pamięci są wyrównane do 16-bajtowej granicy, niewyrównane instrukcje ładowania danych MOVU** działają teraz tak samo wydajnie, jak wyrównane instrukcje ładowania danych MOVA**. Dlatego w przypadku procesorów K10 używanie instrukcji MOVA** nie zapewnia już żadnych korzyści.

Po trzecie, w procesorach K10 dozwolone jest teraz także użycie niewyrównanych obciążeń w przypadku poleceń Load-Execute, które łączą obciążenie z operacją na danych. Zwykle, jeśli nie ma pewności, że dane są wyrównane w pamięci, kompilator (lub programista) używa instrukcji MOVU** do wczytywania danych do rejestrów, a następnie wykonywania operacji na rejestrach. Używanie niewyrównanych obciążeń bezpośrednio z poleceniami Load-Execute może znacznie zmniejszyć liczbę oddzielnych poleceń ładowania w kodzie programu, a tym samym poprawić wydajność. Obsługa tej funkcji powinna być wbudowana w kompilatory. Ogólnie rzecz biorąc, zgodnie z opracowaną specyfikacją SSE przez Intela, wywołanie polecenia Load-Execute na adres, który nie jest wyrównany do 16-bajtowej granicy, musi spowodować wyjątek. Aby zachować zgodność ze specyfikacją, należy włączyć zezwolenie na niewyrównane obciążenia w poleceniach Load-Execute, ustawiając specjalną flagę w oprogramowaniu zaprojektowanym i skompilowanym z myślą o nowych możliwościach procesora.

Po czwarte, dwie szyny odczytu danych z pamięci podręcznej pierwszego poziomu w procesorze K10 zostały rozszerzone do 128 bitów. Dzięki temu procesor może wykonać dwa odczyty 128-bitowego fragmentu danych w każdym cyklu zegara. Jest to bardzo ważna cecha architektury, ponieważ równoległe wykonanie dwóch instrukcji wymaga 4 operandów (2 na instrukcję), a w wielu algorytmach wielowątkowego przetwarzania danych z pamięci RAM zwykle odczytywane są dwa z czterech operandów. Dla kontrastu, dwie szyny zapisu K10 są nadal 64-bitowe, a 128-bitowy zapis w pamięci jest podzielony na dwa 64-bitowe pakiety. Zatem procesor może wykonać tylko jeden 128-bitowy zapis, dwa 128-bitowe odczyty lub jeden 128-bitowy odczyt i jedną 64-bitową serię zapisu w każdym cyklu zegara. Biorąc jednak pod uwagę fakt, że liczba odczytów jest zwykle co najmniej dwukrotnie większa od liczby zapisów, limit zapisu nie powinien znacząco wpływać na wydajność procesora przy przetwarzaniu danych 128-bitowych.

Po piąte, 128-bitowe instrukcje kopiowania danych MOV*** między rejestrami mogą być teraz wykonywane na dowolnym z trzech urządzeń FPU, a nie tylko na FADD i FMUL, co również zwalnia bloki FADD i FMUL na potrzeby ukierunkowanych operacji.

Jak widać, jednostka FPU procesora K10 stała się znacznie bardziej elastyczna. Istnieją takie unikalne funkcje, które nie są jeszcze dostępne w procesorach Intel, takie jak wydajne, niewyrównane ładowanie, w tym dla poleceń Load-Execute i dwa 128-bitowe odczyty na takt. W przeciwieństwie do Core 2, harmonogramy rzeczywiste i całkowite używają oddzielnych kolejek, co pomaga uniknąć konfliktów operacji na tych samych portach wykonawczych. Jednak K10 w dalszym ciągu współdzieli urządzenie FMISC (FSTORE) do operacji przechowywania SSE z niektórymi poleceniami konwersji danych, co w niektórych przypadkach może mieć wpływ na szybkość ich wykonywania.

Ogólnie rzecz biorąc, jednostka FPU w K10 zapowiada się bardzo wydajnie, przewyższając jednostkę FPU Core 2 pod wieloma parametrami (na przykład możliwość wykonania dwóch 128-bitowych odczytów na cykl zegara i wydajne ładowanie niezrównane).

Podsystem pamięci

Załaduj/zapisz urządzenie

W procesorze K8, po obliczeniu adresów dostępu do pamięci na AGU, operacje ładowania i przechowywania są wysyłane do LSU (Load/Store Unit) – urządzenia ładującego/zapisującego. LSU zawiera dwie kolejki LS1 i LS2. Najpierw operacje ładowania i przechowywania trafiają do kolejki LS1 o głębokości 12 elementów. Z kolejki LS1 dostęp do pamięci podręcznej pierwszego poziomu odbywa się w kolejności programowej, dwie operacje na cykl. W przypadku pominięcia pamięci podręcznej operacje są przenoszone do drugiej kolejki LS2 o głębokości 32 elementów, gdzie dokonywany jest dostęp do pamięci podręcznej L2 i pamięci RAM.

W LSU wprowadzono zmiany w procesorze K10. Teraz tylko operacje ładowania trafiają do kolejki LS1, a operacje zapisu są wysyłane do kolejki LS2. Operacje ładowania z LS1 można teraz wykonywać poza kolejnością, biorąc pod uwagę adresy operacji zapisu w kolejce LS2. Operacje zapisu 128-bitowego, jak wspomniano powyżej, są przetwarzane w procesorze K10 jako dwie operacje 64-bitowe, więc zajmują dwie pozycje w kolejce LS2.

Pamięć podręczna poziomu 1

Pamięć podręczna pierwszego poziomu w procesorach K8 i K10 jest osobna i ma po 64 KB na instrukcje (L1I) i na dane (L1D). Łączność pamięci podręcznej wynosi dwa, rozmiar linii wynosi 64 bajty. Niska asocjatywność może prowadzić do częstych kolizji między wierszami konkurującymi o ten sam zestaw, co może zwiększyć liczbę chybień w pamięci podręcznej i negatywnie wpłynąć na wydajność. Niska asocjatywność jest częściowo kompensowana przez dość dużą pamięć podręczną L1. Dużą zaletą pamięci podręcznej L1D jest jej dwuportowość – może ona obsługiwać dwa polecenia odczytu i/lub zapisu na każdy zegar w dowolnej kombinacji.

W procesorze K10 rozmiar i łączność pamięci podręcznej pierwszego poziomu niestety pozostały niezmienione. Jedyną zauważalną poprawą pamięci podręcznej L1 w K10 było zwiększenie szerokości magistrali odczytu danych. Teraz procesor, jak wspomniano w poprzednim rozdziale, może wykonać dwa 128-bitowe odczyty w każdym cyklu zegara, co znacznie zwiększa jego wydajność podczas przetwarzania danych SSE w pamięci lokalnej.

Pamięć podręczna poziomu 2

W dwu- i czterordzeniowych procesorach architektury K8 i K10 każdy rdzeń ma indywidualną pamięć podręczną L2. Rozmiar pamięci podręcznej drugiego poziomu w K10 pozostaje równy 512 KB na każdy z rdzeni, łączność wynosi 16. Oddzielne pamięci podręczne drugiego poziomu mają swoje zalety i wady w porównaniu do współdzielonej pamięci podręcznej drugiego poziomu w procesorach Core 2. Zaletami są m.in. brak konfliktów i konkurencji na pamięć podręczną przy jednoczesnym intensywnym obciążeniu kilku rdzeni. Wadą jest mniejszy rozmiar pamięci podręcznej na rdzeń podczas intensywnej pracy jednego zadania.

Pamięć podręczna L2 ma ekskluzywną organizację przechowywania danych: dane w pamięci podręcznej pierwszego i drugiego poziomu nie są duplikowane. Pamięci podręczne pierwszego i drugiego poziomu wymieniają dane dwoma jednokierunkowymi magistralami - jedną do odbierania danych, drugą do wysyłania. W procesorze o architekturze K8 szerokość każdej magistrali wynosi 64 bity (8 bajtów) (rys. 5a.). Dzięki tej organizacji procesor odbiera dane żądane w warstwie L2 z małą szybkością 8 bajtów na cykl zegara. Oznacza to, że przesłanie linii 64-bajtowej zajmuje 8 cykli zegara, co znacznie zwiększa opóźnienie odbierania danych przez rdzeń, szczególnie w przypadku jednoczesnego dostępu do dwóch lub więcej linii pamięci podręcznej L2.

Według nie do końca potwierdzonych informacji, w procesorze K10 szerokość bitowa szyn odbiorczych i nadawczych wzrosła 2-krotnie, czyli do 128 bitów każda (rys. 5b). To znacznie zmniejszy opóźnienia w dostępie do pamięci podręcznej w przypadku jednoczesnego żądania dwóch lub więcej wierszy.



Skrytka poziomu 3

Aby zrekompensować niewystarczającą objętość poszczególnych pamięci podręcznych drugiego poziomu, procesor K10 ma teraz wspólną dla wszystkich rdzeni pamięć podręczną L3 trzeciego poziomu o wielkości 2 MB, o łączności 32. Pamięć podręczna L3 ma ekskluzywną adaptacyjną organizację: przechowuje oba dane usuwane z pamięci podręcznej L2 wszystkich rdzeni i współdzielone dane wykorzystywane przez wiele rdzeni. Po otrzymaniu od rdzenia żądania odczytania linii następuje sprawdzenie: jeśli linia jest używana tylko przez jeden rdzeń, to jest ona usuwana z L3, zwalniając miejsce na usunięcie linii z pamięci podręcznej L2 żądanie rdzenia. Jeśli linia jest używana także przez inne jądro, pozostanie ona w pamięci podręcznej; Jednocześnie, aby zrobić miejsce na usuwaną linię z pamięci podręcznej L2, z pamięci podręcznej L3 zostanie usunięta kolejna, starsza linia.

Pamięć podręczna L3 powinna również pomóc w zwiększeniu szybkości komunikacji pomiędzy rdzeniami. Jak dowiedzieliśmy się wcześniej, wymiana danych pomiędzy rdzeniami nowoczesnych procesorów Athlon 64 odbywa się za pośrednictwem magistrali pamięci. Znacząco zmniejsza to prędkość dostępu do udostępnianych, modyfikowalnych danych. Jak wynika z materiałów AMD, w czterordzeniowych procesorach architektury K10 wymiana danych pomiędzy rdzeniami może odbywać się poprzez pamięć podręczną L3. Po otrzymaniu żądania od innego rdzenia rdzeń przechowujący zmodyfikowane dane kopiuje je do L3, skąd zostaną odczytane przez rdzeń żądający. Szybkość dostępu do zmienionych danych w pamięci podręcznej innego jądra powinna znacznie wzrosnąć. Gdy tylko będziemy mieli okazję, na pewno to sprawdzimy :).


Ryż. 6. Transfer danych pomiędzy rdzeniami procesora K10


Opóźnienie pamięci podręcznej L3 będzie oczywiście większe niż opóźnienie pamięci podręcznej L2, ale materiały AMD mówią, że będzie się ono zmieniać adaptacyjnie w zależności od obciążenia – w przypadku braku dużego obciążenia opóźnienie będzie lepsze, przy dużym obciążeniu stawka wzrośnie. Co tak naprawdę za tym stoi, wymaga sprawdzenia.

TLB

Oprócz pamięci podręcznej na instrukcje i dane, procesory mają inny typ pamięci podręcznej - bufor translacji-lookaside (TLB). Służą do przechowywania zgodności pomiędzy wirtualnymi i fizycznymi adresami stron uzyskanymi z tabel translacji stron. Liczba buforów translacyjnych określa, ile stron pamięci można wykorzystać jednocześnie bez dodatkowych kosztownych konwersji tabel. Jest to szczególnie istotne w przypadku aplikacji przetwarzających dane pamięci w losowej kolejności, gdzie dostęp do danych jest stały różne strony. Procesor K10 znacząco zwiększył ilość buforów translacyjnych. Dla ułatwienia zestawiono je w tabeli.

Tabela 1 – Pojemność TLB procesorów K8 i K10


Jak widać z tabeli, znacznie zwiększono liczbę buforów służących do translacji adresów stron 2-MB, pojawiła się także obsługa dużych stron 1-GB, co przyda się serwerom przetwarzającym duże ilości danych. Dzięki wsparciu systemu operacyjnego aplikacje korzystające z dużych stron o rozmiarze 2 MB i 1 GB odniosą korzyści ze wzrostu wydajności.

Kontroler pamięci

W przypadkach, gdy żądane dane nie zostały znalezione w pamięci podręcznej wszystkich poziomów, wykonywane jest połączenie z kontrolerem pamięci zintegrowanym z chipem procesora. Zintegrowanie kontrolera z chipem procesora znacznie zmniejsza opóźnienia w dostępie do pamięci, a jednocześnie wiąże procesor z określonym typem pamięci, a także zwiększa powierzchnię rdzenia i powoduje problemy z odrzucaniem chipów. Kontroler pamięci był jedną z mocnych stron procesorów K8, jednak w niektórych przypadkach nie był wystarczająco wydajny. W procesorze K10 znacząco poprawiono kontroler pamięci.

Po pierwsze, może teraz pracować w trybie przesyłania danych nie tylko na jednym kanale 128-bitowym, ale także na dwóch niezależnych kanałach 64-bitowych, co usprawnia jednoczesny dostęp do pamięci przez wiele rdzeni.

Po drugie, w sterowniku zoptymalizowano algorytm planowania i porządkowania operacji. Kontroler pamięci grupuje operacje odczytu i zapisu, aby maksymalnie efektywnie wykorzystać magistralę pamięci. Operacje odczytu mają pierwszeństwo przed operacjami zapisu. Dane przeznaczone do zapisu przechowywane są w buforze, którego wielkość nie jest obecnie znana, ale według różnych źródeł mieści się w przedziale od 16 do 30 linii 64-bajtowych. Rozładowanie grupy kilku odroczonych linii może znacznie obniżyć koszt przełączania magistrali pamięci z trybu odczytu do trybu zapisu i z powrotem. Zwiększa to szczególnie wydajność w przypadku strumienia przeplatanych żądań odczytu i zapisu.

Po trzecie, kontroler pamięci może analizować sekwencje żądań i wykonywać wstępne pobieranie.

Pobierz z wyprzedzeniem

Pobieranie wstępne nie jest mocną stroną procesorów K8. Zintegrowany kontroler pamięci o niskim opóźnieniu przez długi czas pozwoliło procesorom AMD wykazać się dobrą wydajnością podczas pracy z pamięcią. Jednak podczas pracy z nową pamięcią DDR2 procesory K8 nie wykazały dużej wydajności, w przeciwieństwie do procesorów Core 2, które mają potężny system pobierania wstępnego. Procesory K8 mają dwie jednostki pobierania wstępnego - jedną dla kodu i jedną dla danych. Jednostka wstępnego pobierania danych wykonuje pobieranie wstępne do pamięci podręcznej drugiego poziomu przy użyciu uproszczonych sekwencji.

Pobieranie wstępne zostało ulepszone w K10.

Po pierwsze, K10 pobiera z wyprzedzeniem bezpośrednio do pamięci podręcznej L1, co pozwala ukryć opóźnienie pamięci podręcznej L2 podczas uzyskiwania dostępu do danych. Chociaż zwiększa to prawdopodobieństwo zapchania pamięci podręcznej L1 niepotrzebnymi danymi, szczególnie biorąc pod uwagę niską asocjatywność pamięci podręcznej, jednak według AMD opłaca się to i poprawia wydajność.

Po drugie, zaimplementowano adaptacyjny mechanizm pobierania wstępnego, który dynamicznie zmienia odległość pobierania wstępnego, aby mieć pewność, że dane dotrą na czas i nie zaśmiecą pamięci podręcznej danymi, które nie są jeszcze potrzebne. Zwiększono elastyczność jednostki pobierania wstępnego: może ona teraz uczyć się na podstawie żądań pamięci pod dowolnym adresem, a nie tylko pod adresami mieszczącymi się w sąsiednich wierszach. Ponadto blok pobierania wstępnego uwzględnia teraz instrukcje oprogramowania dotyczące pobierania wstępnego.

Po trzecie, bezpośrednio do kontrolera pamięci dodano oddzielną jednostkę pobierania wstępnego. Kontroler pamięci analizuje sekwencje żądań z rdzeni i ładuje dane do bufora zapisu, optymalizując wykorzystanie magistrali pamięci. Przechowywanie linii pobierania wstępnego w buforze zapisu pozwala uniknąć zapychania pamięci podręcznej i jednocześnie znacznie zmniejszyć opóźnienia w dostępie do danych.

W efekcie widzimy, że podsystem pamięci w procesorach K10 uległ zmianom lepsza strona. Należy jednak zauważyć, że pod wieloma względami jest potencjalnie gorszy od podsystemu pamięci w procesorach Intel. Jest to brak ładowania spekulatywnego z pominięciem zapisu na nieznany jeszcze adres, mniejsza asocjatywność pamięci podręcznej L1D, węższa (pod względem szybkości przesyłania danych) magistrala pomiędzy pamięciami podręcznymi L1 i L2, mniejsza objętość L2 i prostsze pobieranie wstępne. Pomimo ulepszeń, pobieranie wstępne w Core 2 jest potencjalnie potężniejsze niż w K10: na przykład w tym ostatnim brakuje wstępnego pobierania adresu instrukcji w celu śledzenia zachowania poszczególnych instrukcji, a także wstępnego pobierania L2 do L1, aby skutecznie maskować opóźnienia L2. Czynniki te mogą w różny sposób wpływać na różne aplikacje, ale w niektórych przypadkach mogą skutkować lepszą wydajnością procesorów Intel.

Przyjrzyjmy się pokrótce, jakie inne innowacje przynosi nam architektura K10.

Nowe zespoły

Procesor K10 obsługuje teraz kilka nowych poleceń, które rozszerzają jego możliwości.

1. Polecenia rozszerzonych operacji bitowych na rejestrach ogólnego przeznaczenia:

LZCNT – Count Leading Zeros – zlicza liczbę wiodących bitów zerowych w operandzie;
POPCNT – Bit Population Count – zlicza liczbę jednego bitu w operandzie.

2. Instrukcje przetwarzania rejestru SSE, zwane SSE4a:

EXTRQ – wyodrębnia określoną liczbę bitów z określonej pozycji w dolnej 64-bitowej części rejestru SSE;
INSERTQ – wstawia określoną liczbę bitów na określoną pozycję w dolnej 64-bitowej części rejestru SSE;
MOVNTSS, MOVNTSD – polecenia do strumieniowania (bez użycia pamięci podręcznej) przechowujące skalarne wartości rzeczywiste.

Rozszerzenie zestawu instrukcji, zwane SSE4a, jest niezależne, nie pokrywa się w żaden sposób z nowymi rozszerzeniami Intela, zwanymi SSE4.1 i SSE4.2.

Wirtualizacja

AMD w dalszym ciągu udoskonalało swoją technologię wirtualizacji wykorzystywaną w kilku wersjach system operacyjny na jednym komputerze. Jednym z najbardziej znaczących udoskonaleń w wirtualizacji było zastosowanie zagnieżdżonych tabel stron (Nested Paging). W tym trybie tabele stron maszyny wirtualnej są zagnieżdżone w globalnej tabeli stron hypervisora. W przypadku braku odniesienia do strony w TLB, operacje konwersji tabeli są wykonywane automatycznie przez procesor, w przeciwieństwie do stronicowania w tle, które wymaga duża ilość zasoby do zarządzania mapowaniami tabel maszyn wirtualnych.


Według niektórych raportów, dzięki zastosowaniu zagnieżdżonych tabel stron, prędkość aplikacji sięga nawet maszyna wirtualna wzrasta do 40% w porównaniu z szybkością wykonywania tych aplikacji, gdy używane są tabele stron „w cieniu”.

Zarządzanie mocą i częstotliwością

Nowe procesory K10 wprowadzają nowy schemat zarządzania energią i częstotliwością rdzenia. Każdy z rdzeni może teraz pracować niezależnie od pozostałych, z własną częstotliwością, która zmienia się dynamicznie w zależności od obciążenia każdego z rdzeni.


Ryż. 8. Niezależna kontrola częstotliwości
rdzenie w procesorach K10


Jednocześnie nie wiadomo, w jaki sposób częstotliwość robocza wspólnej dla wszystkich rdzeni pamięci podręcznej L3 będzie koordynowana. Napięcie na wszystkich rdzeniach jest takie samo i zależy od najbardziej obciążonego rdzenia. Kontroler pamięci kontroluje napięcie niezależnie od rdzeni i może je obniżyć, gdy nie ma dużego obciążenia.

wnioski

Wszystkie informacje na temat nowych procesorów AMD nie zostały jeszcze opublikowane, więc niespodzianki mogą nas jeszcze czekać. Jednak główne wnioski na temat mikroarchitektury można już wyciągnąć. Nowy procesor AMD, dzięki licznym ulepszeniom rdzenia, obiecuje znaczny skok wydajności w stosunku do swojego poprzednika, szczególnie w zastosowaniach intensywnie pracujących w czasie rzeczywistym. W szerokiej gamie zastosowań procesor będzie mógł na równych prawach konkurować z pojedynczą częstotliwością Procesory Intela i pokonać ich. Wnioski pisane z uwzględnieniem nowych wyjątkowe możliwości procesor, takie jak wydajne ładowanie bez wyrównania i obsługa dużych stron o rozmiarze 1 GB. Jednak procesor ma też słabe strony w porównaniu do procesorów Intela – są to podsystemy buforowania i pobierania wstępnego, które mogą mieć negatywny wpływ na wydajność w wielu aplikacjach. Jednak największy mankament w walce o najwyższą wydajność na starcie prawdopodobnie okaże się niewystarczający Wysoka częstotliwość. Życzmy AMD szybkiego rozwoju nowych częstotliwości i obserwujmy, jak obie firmy nadal walczą i udoskonalają swoje procesory w walce o nas, konsumentów.

Autor wyraża wdzięczność Marii Malich i Siergiejowi Romanowowi ps. Grayowi za pomoc w przygotowaniu artykułu.
Wybrać z: Opinie Aktualności
Tylko w dziale Dowolny przemysł cyfrowy Procesory Pamięć RAM Płyty główne Karty graficzne Systemy chłodzenia Dyski pamięci Obudowy Modding Zasilacze Multimedia Cyfrowe zdjęcia i wideo Monitory Laptopy i tablety Smartfony Komunikacja Peryferia Elektronika samochodowa Oprogramowanie Gry
Wyszukaj w znalezionym tagu: AMD AMD AMD A4 AMD A6 AMD A8 AMD FX AMD LYNX AMD REGOR APU ATHLON II X2 ATHLON II X4 Buldozer Comal DDR3-1600 Llano Phenom Phenom II X2 Phen X4 Piledriver Radeon HD 6410D Radeon HD 6480G Radeon HD 6530D Radeon HD 65 50d Sempron Sempron Sempron Sempron Sempron HDRIVRON gniazdo soc am2+ gniazdo am3 gniazdo am3+ gniazdo fm1 gniazdo fs1 Thuban Trinity Zosma

Procesory z gniazdem AM3 pozostaną na rynku do drugiego kwartału 2013 roku

Obniżka cen budżetowych modeli APU firmy AMD

AMD było miłą niespodzianką niskie ceny dla drugiej generacji linii APU AMD A (Trinity). W najbliższej przyszłości planuje po raz kolejny zadowolić swoją polityką cenową i znacznie obniżyć koszty budżetowych APU.

I jeśli obniżenie ceny modeli poprzedniej generacji (AMD A4-3300 i A4-3400) z odpowiednio 46 i 48 dolarów do 30 i 35 dolarów wydaje się decyzją dość oczekiwaną (w celu wyprzedania pozostałych zapasów), to cena nowego hybrydowego procesora AMD A4 5300 z 53 do 30 dolarów jest raczej nieoczekiwanym, choć mile widzianym posunięciem.

Warto zaznaczyć, że informacja o obniżce kosztów wspomnianych APU pochodziła ze źródeł bliskich tajwańskim producentom płyt głównych, zatem data oficjalnego wprowadzenia nowych cen pozostaje nieznana. Tabela specyfikacji technicznych procesorów APU AMD, których ceny w najbliższej przyszłości zostaną obniżone, przedstawia się następująco:

„Zapomniane” procesory klasy podstawowej AMD Sempron X2 198 i AMD Athlon II X2 221

W połowie ubiegłego roku AMD rozszerzyło swoją działalność kolejka dwa nowe procesory klasy podstawowej: AMD Sempron X2 198 i, które są stworzone dla platformy AMD Lynx i są wyposażone w obsługę złącza Socket FM1. Jednak w przeciwieństwie inne podobne modele te nowe produkty nigdy nie trafiły do ​​masowej sprzedaży ani na rynek systemów OEM.

Jak się okazało, modele AMD Sempron X2 198 a mimo to trafiły do ​​sprzedaży w ramach gotowych komputerów stacjonarnych, które kierowane były wyłącznie na rynek chiński, a następnie europejski i zostały zaprezentowane w pierwszej połowie tego roku.

Pamiętaj, że rozwiązania AMD Sempron X2 198 i są wyposażone w dwa rdzenie procesora, których nominalne taktowanie wynosi odpowiednio 2,5 i 2,8 GHz, dwukanałowy kontroler pamięci RAM w standardzie DDR3-1600 MHz oraz kontroler interfejsu PCI Express 2.0. TDP obu nowych produktów wynosi 65 W. Szczegółowe tabela porównawcza specyfikacje techniczne procesora AMD Sempron X2 198 I:

AMD Sempron X2 198

Systemy stacjonarne

Mikroarchitektura

Platforma

Gniazdo procesora

Standardy produkcyjne, nm

Liczba rdzeni fizycznych

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowane kontrolery

Dwukanałowa pamięć DDR3, interfejs PCI Express 2.0

Obsługiwane moduły pamięci

Pakiet termiczny (TDP), W

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, Zaawansowana manipulacja bitami, AMD64, Wirtualizacja, Wzmocniona ochrona przed wirusami, PowerNow!

Para nowych procesorów hybrydowych AMD A4-3450 i AMD A4-4300M

Dowiedzieliśmy się o przygotowaniu dwóch nowych procesorów hybrydowych - AMD A4-3450 I. Pierwsze z nich należy do klasy rozwiązań desktopowych. Opiera się na mikroarchitekturze AMD K10 i należy do pierwszej generacji APU, lepiej znanej jako AMD Llano. W sercu modelu AMD A4-3450 znajdują się dwa rdzenie procesora o częstotliwości taktowania 2,8 GHz, rdzeń graficzny Radeona AMD HD 6410 i dwukanałowy kontroler RAM w standardzie DDR3-1600. TDP nowego produktu wynosi 65 W i prawdopodobnie nie trafi on do masowej sprzedaży, a będzie dostępny jedynie w pełni wyposażonych komputerach stacjonarnych.

APU należy do klasy budżetowych rozwiązań mobilnych i należy do drugiej generacji procesorów hybrydowych (AMD Trinity). Nowy produkt składa się z dwóch rdzeni procesora, których nominalna częstotliwość taktowania wynosi 2,5 GHz, a dynamiczna może sięgać 3,0 GHz, rdzenia graficznego AMD Radeon HD 7420G oraz dwukanałowego kontrolera pamięci RAM DDR3.

Szczegółowa tabela porównawcza specyfikacji technicznych nowych procesorów hybrydowych AMD A4-3450 i wygląda tak:

Budżetowy dwurdzeniowy procesor AMD Sempron X2 190 w cenie 49,87 USD

Nowy budżetowy procesor trafił do sprzedaży detalicznej w Japonii. Opiera się na mikroarchitekturze AMD K10 wykonanej w procesie technologicznym 45 nm, wykorzystującej dwa rdzenie procesora AMD Regor i obsługującej gniazdo AM3.

Nominalna częstotliwość taktowania modelu wynosi 2,5 GHz. Należy pamiętać, że nie obsługuje zintegrowanego rdzenia graficznego, ale zawiera wbudowany kontroler dwukanałowej pamięci RAM w standardzie DDR3-1066 MHz. Pakiet termiczny nowego produktu mieści się w granicach 45 W.

Szacunkowa cena tego rozwiązania na rynku japońskim to 49,87 dolarów. Tabela zbiorcza specyfikacji technicznych nowego procesora:

Segment rynku

Systemy stacjonarne

Mikroarchitektura

Nazwa kodowa jądra

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, MHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowane kontrolery

Dwukanałowa pamięć DDR3

Obsługiwane moduły

Wskaźnik TDP, W

Przybliżona cena

APU AMD A4-3420 będzie dostępne dla każdego

AMD przygotowuje się do wypuszczenia na rynek masowy wersji pudełkowej swojego APU do komputerów stacjonarnych AMD A4-3420. Przypomnijmy, że od stycznia br ta decyzja z powodzeniem stosowane przez firmy OEM do budowy kompletnych systemów.

Model AMD A4-3420 stworzony w oparciu o 32-nm mikroarchitekturę AMD K10 dla platformy AMD „Lynx” i obsługuje:

    dwa rdzenie procesora o nominalnej częstotliwości taktowania 2,8 GHz;

    Rdzeń graficzny AMD Radeon HD 6410D, taktowany zegarem 600 MHz;

    1 MB pamięci podręcznej L2;

    dwukanałowy kontroler pamięci obsługujący moduły DDR3-1600 MHz.

Pakiet termiczny nowego produktu mieści się w granicach 65 W, a model trafi do sprzedaży w szacunkowej cenie 65 dolarów. Arkusz danych APU AMD A4-3420

Model

AMD A4-3420

Segment rynku

Pulpit

Platforma

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowane kontrolery

Dwukanałowa pamięć DDR3, rdzeń graficzny, interfejs PCI Express 2.0

Nazwa handlowa

AMD Radeon HD 6410D

Częstotliwość zegara, MHz

Obsługiwane moduły RAM

Pakiet termiczny, W

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, AMD64, AMD-V (wirtualizacja), Wzmocniona ochrona przed wirusami, PowerNow!

Przybliżona cena, $

Zmiany w polityce cenowej AMD dla niektórych procesorów i APU

AMD zdecydowało się na zmianę cen niektórych swoich procesorów i APU. W szczególności zalecany koszt sześciordzeniowy procesor AMD FX-6100 spadła o 10 dolarów i osiągnęła 155 dolarów. Cena trzyrdzeniowego APU również została obniżona z 89 do 85 dolarów.

Należy pamiętać, że koszt niektórych jednostek APU został zwiększony. Dotyczy to dwóch rozwiązań stacjonarnych - AMD A4-3300 i A4-3400. Ich cena wzrosła o 2 dolary i osiągnęła odpowiednio 66 i 71 dolarów. Tabela zbiorcza specyfikacji technicznych ww. procesorów i APU przedstawia się następująco:

Oficjalna zapowiedź nowego procesora AMD Athlon II X4 651

Wprowadzono nowy procesor do komputerów stacjonarnych. Podobnie jak jego poprzednik (), należy do platformy AMD Lynx dla złącza AMD FM1.

Model posiada cztery rdzenie procesora taktowane zegarem 3,0 GHz oraz kontroler interfejsu PCI Express 2.0. W przeciwieństwie do APU AMD z linii A, które również jest częścią platformy AMD Lynx, nowy produkt nie jest wyposażony w rdzeń graficzny.

Pakiet cieplny rozwiązania kształtuje się na poziomie 100 W. Sugerowana cena nowego produktu w ilościach 1000 sztuk wynosi 92 dolarów i już niedługo powinien pojawić się w sprzedaży. Tabela specyfikacji technicznych nowego procesora przedstawia się następująco:

Segment rynku

Pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowany kontroler

Dwukanałowa pamięć DDR3, Autobusy PCI Ekspres 2.0

Obsługiwane moduły pamięci

Pakiet termiczny, W

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, AMD64, AMD-V, ulepszona ochrona przed wirusami, PowerNow!

Przybliżona cena, $

Nowe procesory APU do komputerów stacjonarnych AMD A6-3670K i A8-3870K z odblokowanym mnożnikiem

AMD przygotowuje się do wprowadzenia dwóch nowych APU - A6-3670K I A8-3870K. główna cecha Nowością jest obsługa odblokowanego mnożnika, co znacznie ułatwi overclockerom optymalizację parametrów. Dlatego w nazwach tych rozwiązań używa się przyrostka „K”. Przypomnijmy, że Intel używa podobnego oznaczenia dla procesorów z odblokowanym mnożnikiem.

Jeśli chodzi o szczegóły specyfikacji technicznych nowych APU AMD A6-3670K I A8-3870K, to ich kluczowe cechy są następujące:

    obsługa czterech rdzeni procesorów pracujących z częstotliwościami odpowiednio 2,7 GHz i 3,0 GHz;

    obsługa 4 MB pamięci podręcznej L2;

    obecność zintegrowanego dwukanałowego kontrolera pamięci RAM z obsługą modułów DDR3-1866 MHz;

    obecność zintegrowanego rdzenia graficznego, który składa się z 320/400 procesorów strumieniowych i działa z częstotliwością 444 MHz / 600 MHz.

Obydwa nowe produkty nie wspierają jednak technologii Turbo Core i ich pakiet termiczny wynosi 100 W. Można się spodziewać, że modele AMD A6-3670K I A8-3870K trafi do sprzedaży w przyszłym kwartale.

Tabela podsumowująca specyfikacje techniczne nowych procesorów APU do komputerów stacjonarnych AMD A6-3670K I A8-3870K wygląda tak:

AMD A6-3670K

AMD A8-3870K

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

dwukanałowa pamięć DDR3

Obsługiwane moduły

Zintegrowany rdzeń graficzny

Nazwa handlowa

AMD Radeon HD 6530D

AMD Radeon HD 6550D

Częstotliwość zegara, MHz

Liczba procesorów strumieniowych

Pakiet termiczny, W

Ogłoszenie trzech nowych mobilnych procesorów APU firmy AMD

AMD w dalszym ciągu aktywnie pracuje nad rozwojem nowych APU. Tym razem pojawiły się szczegóły trzech rozwiązań mobilnych: AMD A4-3320M, A6-3420M I A8-3520M. Wszystkie nowe produkty oparte są na 32nm mikroarchitekturze AMD K10 dla gniazda procesora FS1. Obsługują technologię Turbo Core, a ich pakiet termiczny wynosi 35 W.

Model ten jest jedynym rozwiązaniem dwurdzeniowym spośród prezentowanych APU. Nominalna częstotliwość taktowania nowego produktu wynosi 2 GHz, a dynamiczna 2,6 GHz. Jest również wyposażony w rdzeń graficzny AMD Radeon HD 6480G, który ma 240 procesorów strumieniowych i działa z częstotliwością 444 MHz.

Rozwiązania AMD A6-3420M I AMD A8-3520M wyposażony w cztery rdzenie procesora, których nominalne taktowanie wynosi odpowiednio 1,4 GHz i 1,6 GHz, a dynamiczne na poziomie 2,4 GHz i 2,5 GHz. Należy pamiętać, że nominalna częstotliwość zegara APU wynosi AMD A6-3420M jest wątpliwe, ponieważ jest identyczne z odpowiednim wskaźnikiem modelu A6-3400M. Natomiast częstotliwości taktowania innych nowych produktów różnią się od podobnych wartości swoich poprzedników o 100 MHz.

Nie ma jeszcze informacji o pojawieniu się nowych produktów w sprzedaży i ich szacunkowych kosztach. Szczegółowa tabela porównawcza specyfikacji technicznych nowych mobilnych APU AMD A4-3320M, A6-3420M I A8-3520M ma następującą postać:

Zapowiedź nowego, budżetowego procesora AMD Sempron X2 190

Zaprezentowany w czerwcu procesor nie będzie ostatnim rozwiązaniem z tej serii, gdyż AMD przygotowało już nowy model. Został nazwany i wykonany przy użyciu technologii procesowej 45 nm opartej na mikroarchitekturze AMD K10.

Rozwiązanie posiada dwa rdzenie procesora, które pracują z częstotliwością 2,5 GHz. Nowy produkt jest także wyposażony w dwukanałowy kontroler pamięci DDR2/DDR3 i pozbawiony jest zintegrowanego rdzenia graficznego. Pakiet termiczny tego modelu mieści się w granicach 45 W.

Nowy produkt trafi do sprzedaży w szacunkowej cenie 37–40 dolarów i będzie dostępny wyłącznie dla firm OEM. Szczegółowa tabela specyfikacji technicznych nowego procesora budżetowego przedstawia się następująco:

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Czynnik

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowane sterowniki

dwukanałowa pamięć DDR2/DDR3

Autobus wewnętrzny

HyperTransport 3

Pakiet termiczny, W

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, Zaawansowana manipulacja bitami, AMD64, AMD-V, Wzmocniona ochrona przed wirusami, Cool’n’Quiet 3.0

Przybliżona cena, $

Znane są ceny przedsprzedaży nowych procesorów APU do komputerów stacjonarnych AMD A4-3300 i A4-3400

AMD w dalszym ciągu aktywnie rozszerza swoją ofertę procesorów APU do komputerów stacjonarnych z serii A. Na chwilę obecną obejmuje sześć rozwiązań: pierwsze dwa modele zostały zaprezentowane pod koniec czerwca i cztery następne- tydzień temu.

W najbliższej przyszłości pojawią się jeszcze dwa APU: i A4-3400. Obydwa nowe produkty posiadają dwa rdzenie procesorów pracujące z częstotliwością odpowiednio 2,5 GHz i 2,7 GHz, dwukanałowy kontroler pamięci RAM obsługujący moduły DDR3-1600 MHz oraz rdzeń graficzny AMD Radeon HD 6410D taktowany zegarem 443 MHz i Odpowiednio 600 MHz.

Niektóre sklepy internetowe włączyły już APU i A4-3400 w swoich cennikach po szacunkowej cenie 73,52 USD / 79,25 USD (wersja „Tay”) i 78,78 USD / 84,92 USD (wersja „Box”). Biorąc pod uwagę historię cenową poprzednich rozwiązań Seria AMD A, możemy założyć, że oficjalna cena nowych produktów będzie oscylować wokół 65 dolarów za model i 70 dolarów za APU AMD A4-3400.

Tabela porównawcza specyfikacji technicznych nowego komputera stacjonarnego i A4-3400 ma następującą postać:

Nowe procesory AMD z linii A już w sprzedaży

Oficjalny cennik AMD został natychmiast uzupełniony czterema nowymi rozwiązaniami: trzema APU ( A6-3500, A6-3600, A8-3800) i jeden procesor Athlona II X4 631. Wszystkie nowe produkty oparte są na mikroarchitekturze AMD K10 wykonanej w procesie 32 nm i należą do linii AMD A. Pierwsze trzy procesory szczegółowo sprawdziliśmy już w jeden z poprzednich materiałów, więc tym razem przyjrzyjmy się bliżej rozwiązaniu.

Model ten jest pierwszym z linii AMD A, w którym zastosowano markę „Athlon”, choć już wcześniej informowano o zamiarze AMD całkowitej rezygnacji z tej nazwy. Nowy produkt posiada cztery rdzenie procesora, dwukanałowy kontroler pamięci RAM DDR3 oraz kontroler interfejsu PCI Express 2.0. Nominalne taktowanie procesora wynosi 2,6 GHz i nie obsługuje technologii Turbo Core, dlatego też powyższy wskaźnik nie może zmieniać się dynamicznie. Należy również zauważyć, że nie ma zintegrowanego rdzenia graficznego. Jednocześnie pakiet termiczny nowego produktu wynosi 100 W, a sugerowana cena w partiach po 1000 sztuk to 79 dolarów.

Tabela porównawcza specyfikacji technicznych nowego procesora i linii APU AMD A ma następującą postać:

Znane są ceny przedsprzedaży nowych APU AMD z serii A

Pod koniec czerwca w ofercie procesorów AMD do komputerów stacjonarnych pojawili się pierwsi przedstawiciele linii („Llano”). Jak wiadomo, w trzecim kwartale ich liczba powinna znacząco wzrosnąć. Pierwszym z nowych APU, które trafią do sprzedaży, są rozwiązania AMD A6-3600 i AMD A8-3800.

Przypomnijmy, że APU jest modelem trzyrdzeniowym, pracującym z nominalną częstotliwością taktowania 2,1 GHz. W trybie Turbo Core liczba ta może automatycznie wzrosnąć do 2,4 GHz. Rozwiązanie posiada także dwukanałowy kontroler pamięci RAM DDR3-1866 MHz, kontroler magistrali PCI Express 2.0 oraz rdzeń graficzny AMD Radeon HD 6530D.

Model AMD A6-3600 ma podobną charakterystykę, ale jest wyposażony w cztery rdzenie. APU AMD A8-3800 Jest również czterordzeniowy, z wyższym taktowaniem, kontrolerami RAM i PCI Express 2.0 oraz ulepszonym rdzeniem graficznym AMD Radeon HD 6550D. Pakiet cieplny wszystkich trzech nowych produktów kształtuje się na poziomie 65 W.

Należy pamiętać, że kilka sklepów internetowych umieściło już wyżej wymienione nowości na swoich listach przedsprzedażowych. W szczególności model będzie dostępny w szacunkowej cenie 104,22 USD. AMD A6-3600– 126,87 dolarów i rozwiązanie AMD A8-3800 oczekiwano za 150,16 USD. Biorąc pod uwagę, że cena identycznych modeli w różnych sklepach różni się jedynie o 3-6 dolarów, możemy przewidzieć, że odpowiednie wskaźniki utrzymają się na określonym poziomie.

Skrócona specyfikacja techniczna nowej linii APU AMD A przedstawiono w poniższej tabeli:

Pierwsze spojrzenie na nowy APU AMD A8-3870

Jak się okazało, AMD zamierza wprowadzić nowy APU A8-3870. Główną zaletą będzie odblokowany mnożnik, który ułatwi entuzjastom optymalizację charakterystyki tego nowego produktu.

Jeśli chodzi o inne szczegóły techniczne modelu AMD A8-3870, to wśród nich warto zwrócić uwagę na wsparcie:

    cztery rdzenie fizyczne pracujące z nominalną częstotliwością taktowania 3,1 GHz;

    dwukanałowy kontroler pamięci RAM obsługujący moduły DDR3-1866 MHz;

    Rdzeń graficzny AMD Radeon HD 6550D, który zawiera 400 procesorów strumieniowych i działa z częstotliwością 600 MHz.

Można się spodziewać, że nowy produkt trafi do sprzedaży w czwartym kwartale tego roku. Tabela podsumowująca specyfikacje techniczne nowego APU AMD A8-3870 następująco:

AMD A8-3870

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowany kontroler pamięci RAM

dwukanałowa pamięć DDR3

Zintegrowany rdzeń graficzny

Nazwa handlowa

AMD Radeon HD 6550D

Częstotliwość zegara, MHz

Liczba procesorów strumieniowych

Pakiet termiczny, W

Przybliżony czas wprowadzenia na rynek

IV kwartał 2011 r

Pierwsze testy trzyrdzeniowego APU do komputerów stacjonarnych AMD A6-3500

Pierwsze spojrzenie na nowy procesor APU AMD A4-3300 do komputerów stacjonarnych

Pojawiły się pierwsze szczegóły dotyczące nowego desktopowego APU. Posiada dwa rdzenie pracujące z częstotliwością 2,5 GHz. Jednocześnie nowy produkt nie obsługuje autorskiej technologii Turbo Core, więc nie ma możliwości dynamicznej zmiany tego wskaźnika.

Podobnie jak inny znany przedstawiciel tej serii - APU AMD A4-3400- Model A4-3300 Wyposażony jest także w dwukanałowy kontroler RAM obsługujący moduły DDR3-1600 MHz oraz rdzeń graficzny AMD Radeon HD 6410D o częstotliwości roboczej 443 MHz. W tym przypadku pakiet termiczny rozwiązania A4-3300 wynosi 65 W.

Możemy spodziewać się, że nowy produkt trafi do sprzedaży przed końcem bieżącego kwartału. Specyfikacje techniczne nowego APU do komputerów stacjonarnych są następujące:

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowany kontroler pamięci RAM

dwukanałowa pamięć DDR3

Częstotliwość zegara obsługiwanych modułów, MHz

Zintegrowany rdzeń graficzny

Nazwa handlowa

AMD Radeon HD 6410D

Częstotliwość zegara, MHz

Liczba procesorów strumieniowych

Pakiet termiczny, W

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, AMD64, AMD-V, Wzmocniona ochrona przed wirusami

Zapowiedź nowego trzyrdzeniowego APU AMD A6-3500

W trzecim kwartale tego roku oferta procesorów APU do komputerów stacjonarnych AMD powinna zostać poszerzona o kilka nowych produktów, wśród których znajdzie się pierwsze ze znanych rozwiązań trójrdzeniowych - A6-3500. Pod względem parametrów nowy produkt jest niemal identyczny z modelem czterordzeniowym AMD A6-3600 :

    nominalna częstotliwość taktowania rdzenia centralny procesor wynosi 2,1 GHz;

    w trybie Turbo Core liczba ta może wzrosnąć do 2,4 GHz;

    rdzeń graficzny wykorzystuje rozwiązanie AMD Radeon HD 6530D, które jest wyposażone w 320 procesorów strumieniowych i pracuje z częstotliwością taktowania 443 MHz;

    Obsługuje działanie standardowych modułów DDR3-1866 MHz w trybie dwukanałowym;

    Pakiet termiczny ma moc 65 W.

Biorąc pod uwagę powyższe parametry można założyć, że model jest wytwarzany poprzez blokowanie jednego rdzenia w rozwiązaniu AMD A6-3600. Jeśli jednocześnie inżynierowie AMD pozostawią użytkownikom możliwość odblokowania tego rdzenia, wówczas APU może odnieść znaczący sukces komercyjny.

Szczegółowa tabela specyfikacji technicznych nowego APU przedstawia się następująco:

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Częstotliwość zegara w trybie Turbo Core, GHz

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowany kontroler pamięci RAM

dwukanałowa pamięć DDR3

Częstotliwość zegara obsługiwanych modułów, MHz

Zintegrowany rdzeń graficzny

Nazwa handlowa

AMD Radeon HD 6530D

Częstotliwość zegara, MHz

Liczba procesorów strumieniowych

Pakiet termiczny, W

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, AMD64, AMD-V, ulepszona ochrona przed wirusami, Turbo Core

AMD Phenom II X4 960T Black Edition – nowy czterordzeniowy procesor z obsługą Turbo Core

W trzecim kwartale ubiegłego roku AMD ogłosiło wprowadzenie na rynek pierwszych procesorów AMD Phenom II z serii X4, które bazowały na rdzeniach o nazwie kodowej „Zosma”. Zasadniczo były to uproszczone wersje rozwiązań AMD „Thuban”, w których zablokowano dwa rdzenie i odpowiednią ilość pamięci podręcznej L2. Do tego czasu procesory z rdzeniem kodowym Zosma były wysyłane wyłącznie do firm OEM.

Jednak ostatnio kilku japońskich dystrybutorów zaczęło otrzymywać procesory przeznaczone do masowej sprzedaży. Nowe produkty mają cztery rdzenie i bazują na mikroarchitekturze AMD K10 wykorzystującej technologię procesową 45 nm. A ostatnie cztery znaki ( 4DGR) w numerze produktu ( D96ZTWFK4DGR) wskazują na zastosowanie wspomnianego rdzenia AMD „Zosma”.

Procesory posiadają trzy niezwykle przyjazne dla użytkownika funkcje. Po pierwsze, obsługują autorską technologię Turbo Core, która pozwala procesorowi niezależnie zwiększać taktowanie kilku rdzeni z 3,0 GHz do 3,4 GHz. Po drugie, można odblokować dwa zablokowane rdzenie. Tym samym kupując czterordzeniowy procesor użytkownik może otrzymać w pełni funkcjonalne rozwiązanie sześciordzeniowe. Po trzecie model AMD Phenom II X4 960T powróci do serialu” Czarna Edycja”, co wskazuje na duży potencjał optymalizacyjny nowego produktu.

Tabela specyfikacji technicznych nowego procesora przedstawia się następująco:

AMD Sempron 130 – nowy budżetowy procesor

Pojawił się nowy budżetowy procesor, zmontowany w oparciu o mikroarchitekturę AMD K10 z wykorzystaniem technologii procesowej 45 nm.Nowy produkt jest już w sprzedaży w jednym ze znanych sklepów internetowych w cenie 29,99 dolarów (wersja na tackę). Procesor ma pojedynczy rdzeń o częstotliwości 2,6 GHz i posiada 512 KB pamięci podręcznej L2.

Należy pamiętać, że model ten jest najmniej produktywnym rozwiązaniem w swojej serii. Ale po pomyślnym zakończeniu procedury odblokowania kolejnego rdzenia, procesor ten jest rozpoznawany przez narzędzie CPU-Z jako dwurdzeniowy model AMD Athlon II X2 430.

Nowością mogą zainteresować się także miłośnicy kolekcjonowania. Jak wiadomo, AMD wstrzymuje rozwój i produkcję nowych modeli linii AMD Sempron, koncentrując się w budżetowym segmencie rynku na APU AMD serii E. Tym samym procesor może stać się ostatnim rozwiązaniem zaprezentowanym w tej linii.

Tabela specyfikacji technicznych nowego procesora budżetowego przedstawia się następująco:

Segment rynku

pulpit

Mikroarchitektura

Standardy procesu produkcyjnego, nm

Gniazdo procesora

Liczba rdzeni fizycznych

Nominalna częstotliwość zegara, GHz

Czynnik

Rozmiar pamięci podręcznej L1, KB

Instrukcje

Rozmiar pamięci podręcznej L2, KB

Zintegrowany kontroler

dwukanałowa pamięć DDR2/DDR3

Autobus wewnętrzny

Hipertransport 3

Obsługiwane instrukcje i technologie

MMX, 3DNow!, SSE, SSE2, SSE3, SSE4a, Zaawansowana manipulacja bitami, AMD64, AMD-V, Wzmocniona ochrona przed wirusami, Cool'n'Quiet 3.0

Pierwsza wzmianka o mikroarchitekturze nowej generacji pojawiła się na forum w 2003 roku Forum Mikroprocesorów 2003. Zaznaczono, że nowa mikroarchitektura obejmie procesory wielordzeniowe, które będą pracować z częstotliwością taktowania do 10 GHz. Później częstotliwości zegara zostały kilkakrotnie zmniejszone. Pierwsza oficjalna wzmianka o rozwoju czterordzeniowych procesorów przez AMD pojawiła się w maju w opublikowanym planie strategicznym na okres do 2009 roku.

To prawda, że ​​​​w tym czasie nowa mikroarchitektura była wymieniona pod nazwą kodową AMD K8L i dopiero w lutym 2007 r. Zatwierdzono ostateczną nazwę AMD K10.

Procesory oparte na ulepszonej architekturze AMD K8 miały być pierwszymi czterordzeniowymi procesorami AMD, a także pierwszymi na rynku procesorami, w których wszystkie 4 rdzenie znajdują się w jednym chipie (wcześniej krążyły plotki o pojawieniu się czterordzeniowy procesor AMD, czyli dwa dwurdzeniowe kryształy Opteron).

Cechy architektury

Główną różnicą pomiędzy procesorami generacji K10 a ich poprzednikami opartymi na AMD K8 jest połączenie czterech rdzeni w jednym chipie, aktualizacja protokołu Hyper-Transport do wersji 3.0, wspólna pamięć podręczna L3 dla wszystkich rdzeni, a także obiecująca obsługa Kontroler pamięci DDR3. Same rdzenie również zostały ulepszone w porównaniu z rdzeniami K8 firmy AMD.

Architektura bezpośredniego połączenia

  • Umożliwia zwiększenie wydajności i efektywności poprzez bezpośrednie podłączenie kontrolera pamięci i kanału we/wy do rdzenia.
  • Zaprojektowany do jednoczesnego wykonywania obliczeń 32-bitowych i 64-bitowych.
  • Integracja kontrolera pamięci DDR2 (tryb do 533 (1066) MHz, a także przyszła obsługa DDR3)

Zalety:

  • Zwiększ wydajność aplikacji, zmniejszając opóźnienia w dostępie do pamięci
  • Przydziela przepustowość pamięci na podstawie żądań
  • Technologia Hyper-Transport zapewnia połączenia z maksymalną szybkością do 16,0 GB/s, aby zapobiec opóźnieniom
  • Łącznie do 33,1 GB/s przepustowość łącza pomiędzy procesorem a systemem (w tym magistralą Hyper-Transport i kontrolerem pamięci)

Zrównoważona inteligentna pamięć podręczna AMD

2 MB pamięci podręcznej L3 jest współdzielone przez wszystkie rdzenie, a ponadto 512 KB pamięci podręcznej L2 na rdzeń. Korzyść polega na zmniejszeniu opóźnień podczas uzyskiwania dostępu do często używanych danych w celu poprawy wydajności.

Szerokokątny akcelerator zmiennoprzecinkowy AMD

128-bitowy FPU na rdzeń. Zaletą jest szybsze próbkowanie i przetwarzanie danych w obliczeniach zmiennoprzecinkowych.

HiperTransport

  • Jeden kanał 16-bitowy z prędkością 4000 MT/s
  • Połączenie Hyper-Transport o prędkościach szczytowych do 8,0 GB/s i do 16,0 GB/s podczas pracy w trybie Hyper-Transport 3.0
  • Do 33,1 GB/s całkowitej przepustowości między procesorem a systemem (w tym magistrala Hyper-Transport i kontroler pamięci)

Zintegrowany kontroler pamięci

Korzyść - szybki dostęp do zasobów systemowych w celu zwiększenia wydajności.

AMD-V

Zestaw funkcji sprzętowych zaprojektowany w celu poprawy wydajności, niezawodności i bezpieczeństwa w obecnych i przyszłych środowiskach wirtualizacji wirtualne maszyny bezpośredni dostęp do przydzielonej pamięci

Cool'n'Quiet 2.0

  • Zaawansowany system zarządzania energią, który automatycznie dostosowuje wydajność procesora w zależności od obciążenia
  • Zmniejszone zużycie energii i niższa prędkość obrotowa w trybie bezczynności

CoolCore

  • Umożliwia zmniejszenie zużycia energii poprzez wyłączenie nieużywanych części procesora.
  • Oddzielny układ kontrolera pamięci i logiki procesora umożliwia niezależną kontrolę napięcia i wyłączanie
  • Działa automatycznie, bez konieczności stosowania sterowników lub obsługi systemu BIOS
  • Umożliwia niezależną kontrolę częstotliwości każdego rdzenia
  • Szybkość przełączania trybów pracy jest równa jednemu cyklowi rdzenia procesora

Błąd TLB

Dane techniczne

  • Technologia procesowa: 65 nm SOI
  • powierzchnia rdzenia: 283 mm²
  • liczba tranzystorów: 450 milionów
  • napięcie: 1,05-1,38V
  • Gniazdo: AM2+ (940 pinów) / Gniazdo F (1207 pinów)

Opcje

Dla komputerów stacjonarnych

Procesor Phenom do systemów desktopowych, a także seria Opteron 13xx na gniazdo Socket AM2+. Wszystkie procesory serii Phenom są zbudowane na gnieździe AM2+, które jest wstecznie kompatybilne z gniazdem AM2. Używając procesorów Phenom na płytach głównych obsługujących Socket AM2, traci się obsługę magistrali Hyper-Transport 3.0, osobne taktowanie kontrolera pamięci (mostek północny), pamięć podręczną L3 i rdzenie, a także niektóre funkcje oszczędzania energii.

Dla serwerów

Seria Opteron 83xx i 23xx do serwerów.

Procesory z serii Opteron będą mogły współpracować także ze starszymi płytami głównymi opartymi na Socket F. W obu przypadkach wystarczy jedynie zaktualizować BIOS płyta główna. Wszystkie te procesory są zbudowane na architekturze AMD64, są w stanie pracować z 32-bitowym kodem x86, 16-bitowym i kodem AMD64.

Oryginalny rdzeń K10 nosi nazwę kodową „Barcelona” dla koprocesorów przeznaczonych dla serwerów. Później wypuszczono procesory do komputerów stacjonarnych, w których rdzeń K10 nazwano „Agena”.

Procesory z rdzeniem K10

Wraz z pojawieniem się w asortymencie AMD procesorów generacji K10, zmieniły się także ich oznaczenia – oba modele oparte na K10 i AMD K8 kryją się pod nowymi oznaczeniami.

System oznaczania procesorów AMD
Seria procesorów Przeznaczenie
Czterordzeniowy Phenom X4 ( Agena) X4 9хх0
Trzyrdzeniowy Phenom X3 ( Tolimana) X3 8хх0
Dwurdzeniowy Athlon ( Kuma) 7хх0
Jednordzeniowy Athlon ( Lima) 1хх0
Jednordzeniowy Sempron ( Sparty) 1хх0

Rdzeń Barcelony

  • AMD Opteron 3G 8350, 4 rdzenie, 2,0 GHz, 75 W
  • AMD Opteron 3G 8347, 4 rdzenie, 1,9 GHz, 75 W
23xx
  • AMD Opteron 3G 2350, 4 rdzenie, 2,0 GHz, 75 W
  • AMD Opteron 3G 2347, 4 rdzenie, 1,9 GHz, 75 W
  • AMD Opteron 3G 8356, 4 rdzenie, 2,3 GHz, 75 W
  • AMD Opteron 3G 8354, 4 rdzenie, 2,2 GHz, 75 W
23xx
  • AMD Opteron 3G 2356, 4 rdzenie, 2,3 GHz, 75 W
  • AMD Opteron 3G 2354, 4 rdzenie, 2,2 GHz, 75 W
  • AMD Opteron 3G 2352, 4 rdzenie, 2,1 GHz, 75 W
13xx
  • AMD Opteron 3G 1356, 4 rdzenie, 2,3 GHz, 75 W
  • AMD Opteron 3G 1354, 4 rdzenie, 2,2 GHz, 75 W
  • AMD Opteron 3G 1352, 4 rdzenie, 2,1 GHz, 75 W
  • AMD Opteron 3G 8347 HE, 4 rdzenie, 1,9 GHz, 55 W
  • AMD Opteron 3G 8346 HE, 4 rdzenie, 1,8 GHz, 55 W
23xx
  • AMD Opteron 3G 2347 HE, 4 rdzenie, 1,9 GHz, 55 W
  • AMD Opteron 3G 2346 HE, 4 rdzenie, 1,8 GHz, 55 W
  • AMD Opteron 3G 2344 HE, 4 rdzenie, 1,7 GHz, 55 W
  • AMD Opteron 3G 8360 SE, 4 rdzenie, 2,5 GHz, 95 W
  • AMD Opteron 3G 8358 SE, 4 rdzenie, 2,4 GHz, 95 W
23xx
  • AMD Opteron 3G 2360 SE, 4 rdzenie, 2,5 GHz, 95 W
  • AMD Opteron 3G 2358 SE, 4 rdzenie, 2,4 GHz, 95 W