My logo

das All

Make the Unknown known

Đôi dòng về DeepSeek

Chiếc hộp Pandora đã được mở

Thanh-Vy Hua

3 phút để đọc

Pandora box

Ảnh Bìa tạo bởi Gemini 1.5 Flash

Trong bối cảnh tranh sáng tranh tối, khi DeepSeek vẫn chưa công bố hết mã nguồn, lẫn chi tiết về dữ liệu họ đã dùng để huấn luyện mô hình. Mình chỉ bàn về những khía cạnh mà mình cảm thấy rất ấn tượng.

DeepSeek dường như đã chạm vào “điểm mù” của các cách tiếp cận trước đó. Một dạng phát kiến “cái khó ló cái khôn”. Ở những nơi dư thừa lúa gạo, sẽ ít ai bận tâm đi tìm 800 cách khác nhau để nấu củ khoai lang.

  1. DeepSeek kết hợp các thành phần trong mô hình học tăng cường (reinforcement learning) và kỹ thuật chưng cất chuỗi-tư-duy phát minh bởi Jürgen Schmidhuber (công bố các năm 1991, 2015, 2018). Một lựa chọn cài đặt căn cơ về thuật toán để nâng tầm năng lực nhận thức của mô hình ngôn ngữ lớn (LLM). Tinh gọn, tự tiến hóa, bớt lệ thuộc vào dữ liệu lớn, sử dụng ít bộ nhớ, tiêu thụ năng lượng thấp. Thay vì dạy cho máy học tường tận giải pháp, chúng ta chỉ cần đưa nó một động lực phù hợp, một ít thông tin cơ sở, và để nó tự phát triển chiến lược giải quyết vấn đề.

  2. DeepSeek trình làng kiến trúc Mạng Lưới Chuyên Gia (Mixture of Experts) cho quá trình xây dựng kết quả suy luận. Thay vì chỉ dựa vào một tư vấn viên biết-tuốt, người cho ra những kết quả hời hợt, thỉnh thoảng tự biên tự diễn. Mạng Lưới Chuyên Gia tập hợp những chuyên gia chuyên biệt và chỉ được triệu hồi khi cần. Một quỹ đạo hướng về Trí Tuệ Nhân Tạo Đặc Thù (Artificial Specific Intelligence), thay vì Trí Tuệ Nhân Tạo Phổ Quát (Artificial General Intelligence).

  3. DeepSeek lập trình thẳng quá trình xử lý và truyền dẫn tín hiệu vào tầng sâu của GPU (Assembly-like), thay vì sử dụng NVIDIA CUDA. Cải tiến này giúp vượt qua rào cản về giới hạn băng thông bộ nhớ giữa các chip.

Tinh thần tối ưu hóa tận răng (1)(2)(3) diễn ra trong điều kiện hạn hẹp về nguồn lực, như mình đọc từ báo cáo tài chính của công ty High-flyer, chủ quản DeepSeek. Lượng phần cứng DeepSeek công bố là 2048 NVIDIA H800 GPUs. Con số này có vẻ cao một chút, nhưng vẫn hợp lý với chi phí vốn (CapEx) mà High-flyer có thể điều tiết được.

DeepSeek có thể sẽ không phải là mô hình thành công nhất về mặt thương mại. Nhưng nó đã mở chiếc hộp Pandora cho vô số khả năng xây dựng các mô hình suy luận với chi phí thấp, chạy được trên đa dạng kiến trúc phần cứng với bộ nhớ hạn chế. Một kỷ nguyên mà các mô hình suy luận tự dạy chính nó, và dạy lẫn nhau! Một viễn cảnh với nhiều cộng đồng cùng tham gia xây dựng song song các chiến lược cải tiến nhận thức cho những mô hình ngôn ngữ lớn (LLMs).

Không ai trong chúng ta biết được thị trường sẽ hấp thụ những giải pháp này theo hướng nào. Riêng mình, mình đang trông đợi một sự kết hợp tinh tế giữa phần mềm và phần cứng, để giải quyết một vấn đề cụ thể, trong một lĩnh vực cụ thể. Thứ mình đang trông đợi đó là: Khoảnh khắc iPod.

p/s: Dọn nhà ăn Tết, tình cờ thấy 1 cái dĩa cài AOL, 1 dĩa cài laptop Toshiba M300, 1 chiếc máy tính vẽ đồ thị TI-83 Plus. Cảm thấy vừa hoài niệm, vừa khấp khởi vì mình đã sống qua 3 thập kỷ phát triển vũ bão của công nghệ.

Old computational devices

Bài viết gần đây

Xem thêm

Các chủ đề

Ivy là ai

Founder ● Engineer ● Human Explorer ● INTJ
I build things and tell stories about them.