200台サーバーのローカルllmクラスターを構築
Large-language-model(LLM)APIはとても強力ですが、コストが高いものです。一方、ローカルでLLMを推論させる場合、ハードウェアさえ手元にあればほぼ無料で動かせます。本記事では、オフィスで眠っていたApple Siliconラップトップを活用し、200台の推論クラスターを構築して本番トラフィックの25 %を処理するまでの道のりを紹介します。しかもデータセンター契約は一切ありません。
ネタバレ: あるほこりだらけの会議室から始まり、最後は午前3時にオフィスのネットワークを総配...
blog.alvinend.tech1 min read