pengw00

Follow

🎯

Focusing

Ping Woo pengw00

🎯

Focusing

Follow

Stay foolish, stay hungry! LLM infra - Jax on TPU, neuron, custom inference serving.

9 followers · 24 following

Silicon Vally
https://pengw00.github.io/

Achievements

Achievements

Pinned Loading

vllm-david-lab vllm-david-lab Public

Forked from vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

Python
vllm-dynamic-sparsity vllm-dynamic-sparsity Public

An optimized vLLM fork featuring Dynamic KV Cache Sparsity. Reduces HBM bandwidth bottlenecks by bypassing 40% of non-essential blocks via a custom Triton-based PagedAttention kernel.

Python
vllm-local-practices vllm-local-practices Public

local test
llm-kernel-triton-assignment2-systems llm-kernel-triton-assignment2-systems Public

Forked from stanford-cs336/assignment2-systems

Student version of Assignment 2 for Stanford CS336 - Language Modeling From Scratch

Python
llm-kernel-triton-assignment3-scaling llm-kernel-triton-assignment3-scaling Public

Forked from stanford-cs336/assignment3-scaling

Python
flashinfer flashinfer Public

Forked from flashinfer-ai/flashinfer

FlashInfer: Kernel Library for LLM Serving

Python