【Python/Kubernetes】AIインフラでのLLM性能評価・最適化の開発支援(フルリモート)
作業内容
・最新のOSS LLM / Local LLM を複数ベンダーのAI半導体(NVIDIA Blackwell、AMD、Cerebras、SambaNova等)上で動作させ、学習・推論性能の評価・ベンチマーク設計 ・vLLM / SGLang など商用規模の推論フレームワークの動向把握と、スループット・レイテンシを最大化するためのチューニング ・GPUスケジューリング技術や、LLM評価指標の検討・実装など、実運用を見据えたインフラ・基盤技術の研究開発 ・社内R&Dチームとの連携を通じた、当該企業コンテンツへのフィードバックとプロダクト反映 ・開発知見のOSS公開、各半導体ベンダーとの技術ディスカッション、技術記事執筆や登壇 ■募集背景 AI時代の安全な情報インフラを目指す事業において、NVIDIA、AMD、Cerebras等の最新AI半導体上でOSS LLM/Local LLMを動作させ、そのポテンシャルを最大限に引き出すための性能評価・ベンチマーク設計・最適化を担うエンジニアを募集します。 ■その他歓迎スキル ・LLMの評価指標設計(品質評価・安全性評価)や、NIST 等の標準化動向への興味・知識 ・OSSプロジェクトへのコントリビューション経験(Issue / PR / 自作ライブラリの公開など) ・英語での技術文書の読解や、海外ベンダーとのコミュニケーション経験
必須スキル
・PyTorch を用いたモデル学習・推論パイプラインの構築・運用経験 ・LLM もしくは大規模モデル(Vision/言語問わず)の学習または推論基盤の開発・運用経験 ・GPU を用いた高速化(CUDA / ROCm / cuDNN など)に関する基礎知識 ・Kubernetes 等を用いたコンテナベースの分散実行環境の利用・運用経験 ・Linux 環境での開発スキル(シェル、基本的なオペレーション、リソースモニタリングなど) ・ベンチマーク結果やログを元に、ボトルネックを特定し改善方針を立てられる分析力 ・技術的な議論を日本語で行えるコミュニケーション能力
歓迎スキル
・vLLM / SGLang / TensorRT-LLM など、LLM向け推論フレームワークの実運用・チューニング経験 ・GPUクラスタ上での大規模学習・分散学習(Data Parallel / Model Parallel / Pipeline Parallelなど)の設計・運用経験 ・CUDA等を用いた低レイヤーでの性能最適化経験、あるいはC++による高パフォーマンスな実装経験 ・AIアクセラレータ(TPU, IPU, 専用AIチップなど)におけるモデル移植・ベンチマーク経験 など
稼働日数
週4〜5日新日本橋
勤務形態
フルリモート
勤務地
新日本橋 東京都 中央区 新日本橋
募集回数
1回
職種・ポジション
スキル
募集背景
この案件は、新規プロジェクトの立ち上げに伴い、経験豊富なエンジニアを募集しています。チームは10名規模で、アジャイル開発を採用しています。現場の雰囲気は和やかで、コミュニケーションを大切にしています。
募集人数
2名を予定しており、即日参画可能な方を優先的にご案内いたします。経験年数は3年以上を想定しています。フロントエンド1名、バックエンド1名の募集となります。
企業名
大手IT企業の子会社で、安定した経営基盤を持っています。詳細は面談時にご案内いたします。上場企業グループの一員として、長期的なプロジェクトを多数抱えています。
チーム人数
チーム構成はフロントエンド3名、バックエンド5名、インフラ2名となっています。プロジェクトマネージャー1名、デザイナー2名も在籍しています。総勢13名のチームで開発を進めています。
現場の雰囲気
アジャイル開発を採用しており、チーム内のコミュニケーションを大切にしています。週1回の定例会議があり、意見交換が活発です。リモートワークも可能で、柔軟な働き方ができます。
この案件を掲載しているエージェントについて

FLEXY(フレキシー)
運営会社:株式会社サーキュレーション案件について詳しく聞いてみませんか?
知りたい内容を選んでください(複数選択可)