Claude 3.5 Haiku
Přehled modelu Claude 3.5 Haiku od Anthropic se zaměřením na technické parametry, podmínky použití a specifika provozu v AWS Bedrock.
Co je Claude 3.5 Haiku
Claude 3.5 Haiku je nejrychlejší a nákladově nejúspornější člen rodiny Claude 3.5; hodí se pro produkční scénáře, kde je klíčová latence a nízká cena (např. vyhledání znalostí, zákaznické workflow, automatizace). Verze pro Amazon Bedrock navíc podporuje „latency-optimized inference“ (optimalizované nasazení pro co nejnižší zpoždění). Anthropic+1
Dostupnost v Amazon Bedrock
Model ID (Bedrock):
anthropic.claude-3-5-haiku-20241022-v1:0Regiony: us-east-1, us-east-2*, us-west-2 (hvězdička značí omezenou dostupnost/preview podle AWS tabulek). Kompletní a průběžně aktualizovaný seznam udržuje AWS. AWS Documentation
Pozn.: Starší Claude 3 Haiku (
anthropic.claude-3-haiku-20240307-v1:0) podporuje i obrazové vstupy; Claude 3.5 Haiku v Bedrocku je čistě textový model (text in → text/chat out). Zkontrolujte tabulku modalit v dokumentaci. AWS Documentation
Klíčové technické parametry (modelové)
Kontextové okno: až 200 000 tokenů (rodina Claude 3.x/3.5; viz srovnávací tabulky Anthropic).
Max. výstup pro 3.5 Haiku: až 8 192 tokenů (tabulka modelů Anthropic).
Tréninkové znalosti (cut-off): červenec 2024 pro Haiku 3.5. Anthropic
Výkon a latence
Latency-optimized inference (Bedrock): veřejný náhled (public preview); zrychluje odezvy a dle AWS/Anthropic dnes běží Haiku přes Bedrock nejrychleji ze všech platforem. Aktivace je parametrická volba při volání služby. Amazon Web Services, Inc.+1
Kvóty a propustnost (Bedrock)
On-demand tokens per minute (TPM): AWS zveřejňuje per-model a per-region limity. Pro Claude 3.5 Haiku uvádí AWS např. až 2 000 000 tokenů/min (mimo specifikované výjimky). Sledujte aktuální tabulku „Endpoints and quotas“. AWS Documentation
Vlastnosti a funkce důležité pro návrh aplikace
Režim chat (streaming podporován):
InvokeModelWithResponseStreampro nízkou latenci v UI. AWS DocumentationPrompt caching (Bedrock): snížení latence a nákladů pro stabilní části promptu/kontextu. AWS Documentation
Bezpečnost a compliance: šifrování v klidu i za provozu (TLS 1.2+; KMS), možnost privátní konektivity přes VPC endpoints (AWS PrivateLink), detailní řízení přístupů přes IAM. AWS Documentation+2AWS Documentation+2
IAM a přístup k modelu
K volání modelu stačí minimální oprávnění bedrock:InvokeModel (a/nebo bedrock:InvokeModelWithResponseStream pro streaming). Přístup ke konkrétnímu modelu lze zpřísnit na úroveň ARN daného FM. Žádosti o „model access“ pro poskytovatele (Anthropic) se spravují v konzoli Bedrock. AWS Documentation+1
Síť a architektura
Privátní přístup: vytvořte Interface VPC Endpoint pro Bedrock a volání nepůjde přes internet (užitečné pro enterprise a regulované prostředí). Nezapomeňte na náklady za endpointy a data processing. AWS Documentation+1
Šifrování: Bedrock šifruje přenos (TLS) a úložiště; pro vlastní data a artefakty používejte KMS (včetně vlastní správy klíčů). AWS Documentation+1
Parametry volání (Bedrock – Anthropic Claude)
Základní parametry se řídí specifikací „Anthropic Claude models“ v dokumentaci Bedrock (teplota, top_p, max_tokens, systémové instrukce, formát zpráv atd.). Streaming i nativní API jsou k dispozici pro .NET, Python, JS… s oficiálními příklady. AWS Documentation+1
Porovnání modalit (Haiku 3 vs. 3.5 Haiku)
Claude 3 Haiku (20240307): vstup Text + Image, výstup Text/Chat.
Claude 3.5 Haiku (20241022): vstup Text, výstup Text/Chat. Volba modelu tedy závisí na tom, zda potřebujete vizuální vstupy (v takovém případě zvažte 3 Haiku nebo jiné multimodální varianty). AWS Documentation
Kdy sáhnout po 3.5 Haiku
Realtime/nízkolatenční UX: chatboty první linie, asistenti v aplikacích, vyhledání informací.
Hromadné zpracování (batch) s nízkou cenou/tok: ETL sumarizace, extrakce klíčových informací, klasifikace.
Dlouhé kontexty: až ~200k tokenů bez nutnosti složitého „chunkování“ (pozor na max. výstup 8k tokenů a na účty za dlouhé dotazy). Anthropic
Rychlý „checklist“ parametrů (Claude 3.5 Haiku na Bedrocku)
Model ID:
anthropic.claude-3-5-haiku-20241022-v1:0. AWS DocumentationModalita: text → text/chat; streaming podporován. AWS Documentation+1
Kontextové okno: ~200k tokenů; max. výstup ~8k tokenů. Anthropic
Latency-optimized inference: dostupné (public preview) — rychlejší odezvy, odlišná sazba. Amazon Web Services, Inc.+1
Ceny: od $0.80 / $4 (vstup/výstup) — ověřte aktuální AWS/Anthropic ceník; pro latency-optimized od $1 / $5. Anthropic
Bezpečnost: TLS 1.2+, šifrování v klidu (KMS), podpora VPC endpoints. AWS Documentation+1
Kvóty: až ~2M TPM (regionálně se liší). AWS Documentation
Last updated
Was this helpful?

