Làm thế nào để tự động giải CAPTCHA bằng NanoClaw và CapSolver

Rajinder Singh
Deep Learning Researcher
20-Mar-2026

Khi trợ lý AI của bạn duyệt web bên trong một container an toàn, CAPTCHA vẫn là rào cản số một. Các trang được bảo vệ chặn trợ lý, các biểu mẫu không thể gửi đi, và các nhiệm vụ bị dừng lại chờ can thiệp từ con người — ngay cả khi trợ lý đang chạy trong môi trường sandbox.
NanoClaw là một khung công tác trợ lý AI nhẹ, chạy các trợ lý Claude trong các container Linux cô lập. Mỗi trợ lý có hệ tệp riêng, trình duyệt riêng và các công cụ riêng — hoàn toàn tách biệt khỏi máy chủ và các trợ lý khác. Tuy nhiên, giống như bất kỳ tự động hóa trình duyệt nào, CAPTCHA vẫn làm ngưng trệ nó.
CapSolver thay đổi hoàn toàn điều này. Bằng cách tải tiện ích mở rộng CapSolver vào trình duyệt Chromium trong container, CAPTCHA được giải tự động và vô hình ở nền. Không cần mã. Không cần gọi API từ phía bạn. Không cần thay đổi cách bạn giao tiếp với trợ lý AI của mình.
Điều tuyệt nhất? Bạn thậm chí không cần đề cập đến CAPTCHA cho AI. Bạn chỉ cần bảo nó chờ một chút trước khi gửi — và khi nó nhấn nút Gửi, CAPTCHA đã được giải.
Và vì NanoClaw chạy mỗi trợ lý trong container riêng, mỗi trợ lý đều có trình duyệt cô lập riêng với phiên bản CapSolver riêng — không xung đột, không trạng thái chung, không can thiệp giữa các trợ lý.
NanoClaw là gì?
NanoClaw là một khung công tác trợ lý AI nhẹ, được thiết kế cho bảo mật và đơn giản. Nó chạy các trợ lý Claude trong các container Linux cô lập — mang lại cho mỗi trợ lý sự cô lập cấp hệ điều hành thay vì kiểm soát quyền cấp ứng dụng.
Tính năng chính
- Cô lập container: Mỗi trợ lý chạy trong sandbox Docker hoặc Apple Container riêng với hệ tệp riêng
- Giao tiếp đa kênh: Giao tiếp với AI của bạn qua WhatsApp, Telegram, Discord, Slack và Gmail
- Trình duyệt tích hợp: Mỗi container bao gồm Chromium và công cụ
agent-browserđể tự động hóa web - Tùy chỉnh dựa trên kỹ năng: Thêm khả năng thông qua kỹ năng Claude — không cần cấu hình rườm rà
- Mã nguồn tối giản: Một tiến trình, vài tệp, dễ hiểu và tùy chỉnh
- Nhiệm vụ định kỳ: Thiết lập các công việc lặp lại chạy Claude và gửi kết quả cho bạn
Trình duyệt bên trong container
Mỗi container NanoClaw đi kèm với Chromium Debian và công cụ dòng lệnh agent-browser. Trợ lý có thể:
- Mở và điều hướng đến bất kỳ URL nào
- Đọc nội dung trang và chụp ảnh màn hình
- Nhấp nút, điền biểu mẫu, chọn danh sách thả xuống
- Chụp ảnh màn hình
- Quản lý phiên trình duyệt
Hãy tưởng tượng bạn đang trao cho mỗi trợ lý AI một cửa sổ trình duyệt riêng biệt bên trong một môi trường được khóa.
CapSolver là gì?
CapSolver là một dịch vụ giải CAPTCHA hàng đầu cung cấp các giải pháp dựa trên AI để vượt qua các thách thức CAPTCHA khác nhau. Với hỗ trợ cho nhiều loại CAPTCHA và thời gian phản hồi nhanh, CapSolver tích hợp liền mạch vào các quy trình tự động hóa.
Các loại CAPTCHA được hỗ trợ
- reCAPTCHA v2 (dựa trên hình ảnh & ẩn)
- reCAPTCHA v3 & v3 Enterprise
- Cloudflare Turnstile
- Cloudflare 5-second Challenge
- AWS WAF CAPTCHA
Vì sao tích hợp này khác biệt?
Hầu hết các tích hợp giải CAPTCHA yêu cầu bạn viết mã — tạo các cuộc gọi API, kiểm tra kết quả, chèn các token vào các trường ẩn. Đó là cách hoạt động với các công cụ như Crawlee, Puppeteer hoặc Playwright.
NanoClaw + CapSolver hoàn toàn khác biệt:
| Truyền thống (dựa trên mã) | NanoClaw (ngôn ngữ tự nhiên) |
|---|---|
Viết lớp CapSolverService |
Gắn một tiện ích mở rộng vào container |
Gọi createTask() / getTaskResult() |
Chỉ cần trò chuyện với AI của bạn |
Chèn token qua page.$eval() |
Tiện ích mở rộng xử lý mọi thứ |
| Xử lý lỗi, thử lại, thời gian chờ trong mã | Bảo AI "chờ 70 giây, sau đó nhấn Gửi" |
| Mã khác nhau cho mỗi loại CAPTCHA | Hoạt động cho tất cả các loại tự động |
| Trạng thái trình duyệt chung giữa các nhiệm vụ | Mỗi trợ lý có trình duyệt cô lập riêng |
Điểm mấu chốt: Tiện ích mở rộng CapSolver chạy bên trong trình duyệt Chromium trong container. Khi trợ lý điều hướng đến trang có CAPTCHA, tiện ích mở rộng phát hiện nó, giải CAPTCHA ở nền, và chèn token — tất cả trước khi trợ lý thậm chí cố gắng gửi biểu mẫu.
Bạn chỉ cần cho nó thời gian. Thay vì bảo AI "giải CAPTCHA", bạn chỉ cần nói:
"Đến trang đó, chờ 70 giây, sau đó nhấn Gửi."
Đó là tất cả. AI không cần biết gì về CapSolver cả.
Ưu thế của container
Vì NanoClaw chạy mỗi trợ lý trong container riêng, bạn nhận được một lợi ích độc đáo: mỗi trợ lý có trình duyệt Chromium riêng với tiện ích mở rộng CapSolver riêng. Điều này có nghĩa:
- Nhiều trợ lý có thể giải CAPTCHA đồng thời mà không xung đột
- Trạng thái trình duyệt của mỗi trợ lý hoàn toàn tách biệt
- Không có cookie, bộ nhớ đệm, hoặc trạng thái tiện ích mở rộng chung giữa các trợ lý
- Nếu trình duyệt của một trợ lý bị treo, các trợ lý khác không bị ảnh hưởng
Yêu cầu tiên quyết
Trước khi thiết lập tích hợp, hãy đảm bảo bạn đã:
- Cài đặt và chạy NanoClaw (hướng dẫn cài đặt)
- Tài khoản CapSolver với khóa API (đăng ký tại đây)
Không cần Chrome để kiểm tra
Tin tốt: Các container NanoClaw sử dụng Chromium Debian (thông qua
apt-get install chromium), không có thương hiệu và hỗ trợ đầy đủ cờ--load-extension. Khác với Chrome của Google 137+, đã gỡ bỏ hỗ trợ tải tiện ích mở rộng vào giữa năm 2025, Chromium Debian hoạt động ngay lập tức.
Bạn không cần cài đặt Chrome để kiểm tra, Chromium tích hợp của Playwright, hoặc trình duyệt thay thế nào cả. Chromium đã có sẵn trong container của bạn là đủ.
Hướng dẫn cài đặt từng bước
Bước 1: Tải tiện ích mở rộng CapSolver Chrome
Tải tiện ích mở rộng CapSolver Chrome vào thư mục dự án NanoClaw của bạn:
- Truy cập các phiên bản tiện ích mở rộng CapSolver trên GitHub
- Tải xuống phiên bản mới nhất
CapSolver.Browser.Extension-chrome-vX.X.X.zip - Giải nén zip:
bash
mkdir -p assets/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d assets/capsolver-extension/
- Xác minh việc giải nén:
bash
ls assets/capsolver-extension/manifest.json
Bạn nên thấy manifest.json — điều này xác nhận tiện ích mở rộng ở đúng vị trí.
Bước 2: Thiết lập khóa API CapSolver
Mở tệp cấu hình tiện ích mở rộng tại assets/capsolver-extension/assets/config.js và thay giá trị apiKey bằng khóa của bạn:
js
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', // ← khóa của bạn ở đây
useCapsolver: true,
// ... phần còn lại của cấu hình
};
Bạn có thể lấy khóa API từ bảng điều khiển CapSolver.
Bước 3: Gắn tiện ích mở rộng vào container
NanoClaw chạy các trợ lý trong các container Docker. Thư mục tiện ích mở rộng cần có sẵn bên trong container tại /opt/capsolver-extension.
Tùy chọn A: Tự động gắn qua trình chạy container (được khuyến khích)
Đặt tiện ích mở rộng tại assets/capsolver-extension/ trong thư mục dự án NanoClaw của bạn. Sau đó thêm một điểm gắn trong src/container-runner.ts:
typescript
// Gắn tiện ích mở rộng CapSolver nếu có
const capsolverPath = path.join(process.cwd(), 'assets', 'capsolver-extension');
if (fs.existsSync(capsolverPath)) {
mounts.push({
hostPath: capsolverPath,
containerPath: '/opt/capsolver-extension',
readonly: true,
});
}
Tùy chọn B: Gắn vào hình ảnh container
Thêm vào container/Dockerfile của bạn:
dockerfile
# Thêm tiện ích mở rộng CapSolver
COPY ../assets/capsolver-extension/ /opt/capsolver-extension/
Sau đó xây dựng lại hình ảnh container.
Bước 4: Cấu hình agent-browser để tải tiện ích mở rộng
NanoClaw sử dụng công cụ dòng lệnh agent-browser để tự động hóa trình duyệt bên trong container. Nó hỗ trợ tải tiện ích mở rộng Chrome thông qua biến môi trường.
Thêm các biến môi trường sau vào container trong src/container-runner.ts:
typescript
if (fs.existsSync(capsolverPath)) {
args.push('-e', 'AGENT_BROWSER_EXTENSIONS=/opt/capsolver-extension');
args.push('-e', 'DISPLAY=:99');
args.push('-e', 'AGENT_BROWSER_ARGS=--no-sandbox,--disable-gpu,--disable-blink-features=AutomationControlled,--disable-background-timer-throttling');
args.push('-e', 'AGENT_BROWSER_HEADED=true');
}
| Biến môi trường | Mục đích |
|---|---|
AGENT_BROWSER_EXTENSIONS |
Đường dẫn đến tiện ích mở rộng CapSolver bên trong container |
DISPLAY |
Màn hình ảo cho Xvfb (tiện ích mở rộng cần ngữ cảnh màn hình) |
AGENT_BROWSER_ARGS |
Các cờ Chrome: không sandbox, chống phát hiện, ngăn chặn làm chậm tiện ích mở rộng |
AGENT_BROWSER_HEADED |
Chạy ở chế độ có giao diện (tiện ích mở rộng hoạt động đáng tin cậy hơn) |
Bước 5: Thiết lập Xvfb trong container
Tiện ích mở rộng Chrome yêu cầu màn hình, ngay cả trong container. Thêm xvfb vào container/Dockerfile và khởi động tự động trong entrypoint:
dockerfile
# Thêm xvfb vào danh sách apt-get install
RUN apt-get update && apt-get install -y \
chromium \
xvfb \
# ... các phụ thuộc khác
&& rm -rf /var/lib/apt/lists/*
# Cho phép người dùng không root chạy Xvfb
RUN chmod u+s /usr/bin/Xvfb
# Tạo thư mục phiên (agent-browser cần điều này)
RUN mkdir -p /home/node/.claude/session-env && chown -R node:node /home/node/.claude
Cập nhật entrypoint để khởi động Xvfb tự động:
bash
#!/bin/bash
set -e
# Khởi động Xvfb cho tiện ích mở rộng
if [ -n "$DISPLAY" ]; then
Xvfb $DISPLAY -screen 0 1280x720x24 &
sleep 0.5
fi
# ... phần còn lại của entrypoint
Bước 6: Khởi động lại NanoClaw
bash
# Khởi động lại NanoClaw để nhận các thay đổi
npm run dev
# hoặc nếu chạy như một dịch vụ:
pm2 restart nanoclaw
Bước 7: Xác minh cài đặt
Gửi một tin nhắn thử nghiệm đến trợ lý NanoClaw của bạn qua bất kỳ kênh nào đã kết nối (Discord, WhatsApp, Telegram):
Đến https://www.google.com/recaptcha/api2/demo, chờ 70 giây,
sau đó nhấn Gửi và cho tôi biết văn bản nào xuất hiện trên trang.
Nếu CapSolver hoạt động, trợ lý sẽ báo: "Verification Success... Hooray!"
Cách sử dụng
Đây là phần quan trọng nhất. Sau khi cài đặt xong, sử dụng CapSolver với NanoClaw là rất đơn giản.
Quy tắc vàng
Không nên đề cập đến CAPTCHA hoặc CapSolver cho AI. Chỉ cần cho nó thời gian trước khi gửi biểu mẫu.
Trợ lý AI không cần biết về CAPTCHA. Tiện ích mở rộng xử lý mọi thứ ở nền. Tất cả những gì bạn cần làm là bao gồm một thời gian chờ trong hướng dẫn của bạn để tiện ích mở rộng có thời gian giải quyết thách thức trước khi biểu mẫu được gửi đi.
Ví dụ 1: Demo reCAPTCHA
Gửi tin nhắn này đến trợ lý NanoClaw của bạn (qua Discord, WhatsApp, Telegram, hoặc bất kỳ kênh nào):
Đến https://example.com, chờ 70 giây,
sau đó nhấn Gửi và cho tôi biết văn bản nào xuất hiện trên trang.
Điều gì xảy ra phía sau hậu trường:
- Container của trợ lý nhận được tin nhắn
- Trợ lý khởi động Chromium (với tiện ích mở rộng CapSolver được tải)
- Chromium điều hướng đến trang
- Nội dung script của tiện ích mở rộng phát hiện widget reCAPTCHA
- Tiện ích mở rộng gọi API CapSolver và giải quyết thách thức (thường trong 10-20 giây)
- Token được chèn vào trường ẩn
- Sau 70 giây, trợ lý nhấn Gửi
- Trang hiển thị: "Verification Success... Hooray!"
Ví dụ 2: Đăng nhập vào trang được bảo vệ
Đến https://example.com/login, điền trường email với
"me@example.com" và trường mật khẩu với "mypassword123",
sau đó chờ 30 giây và nhấn nút Đăng nhập.
Cho tôi biết trang nào tải sau khi đăng nhập.
Ví dụ 3: Gửi biểu mẫu sau Turnstile
Mở https://example.com/contact, điền biểu mẫu liên hệ:
- Tên: "John Doe"
- Email: "john@example.com"
- Tin nhắn: "Xin chào, tôi có câu hỏi về dịch vụ của bạn."
Chờ 45 giây, sau đó nhấn Gửi Tin nhắn. Thông báo nào xuất hiện?
Thời gian chờ được khuyến nghị
| Loại CAPTCHA | Thời gian giải thường | Thời gian chờ được khuyến nghị |
|---|---|---|
| reCAPTCHA v2 (nút bấm) | 10-30 giây | 60-70 giây |
| reCAPTCHA v2 (ẩn) | 5-15 giây | 45 giây |
| reCAPTCHA v3 | 3-10 giây | 30 giây |
| Cloudflare Turnstile | 3-10 giây | 30 giây |
Lời khuyên: Khi không chắc, hãy dùng 70 giây. Tốt hơn là chờ lâu hơn một chút thay vì gửi quá sớm. Thời gian chờ thêm không ảnh hưởng đến kết quả. Trong các thử nghiệm của chúng tôi, 60 giây là giới hạn cho reCAPTCHA v2 — 70 giây hoạt động đáng tin cậy.
Các mẫu ngôn ngữ tự nhiên hoạt động
Dưới đây là các cách diễn đạt đã được kiểm chứng bạn có thể sử dụng:
- "Đến [URL], chờ 70 giây, sau đó gửi biểu mẫu"
- "Điều hướng đến [URL], điền [các trường], chờ 30 giây, sau đó nhấn [nút]"
- "Mở [URL] và sau khoảng một phút, nhấn Gửi và cho tôi biết kết quả"
- "Truy cập [URL] và sau khi trang tải đầy đủ, nhấn Gửi"
Những điều KHÔNG nên nói
Tránh những điều này — chúng có thể làm AI hiểu lầm hoặc từ chối:
"Chờ cho đến khi CAPTCHA được giải"(AI không biết về CAPTCHA)"Sử dụng CapSolver để giải xác thực"(AI không thể kiểm soát tiện ích mở rộng)"Nhấn nút reCAPTCHA"(tiện ích mở rộng xử lý điều này — nhấn có thể gây xung đột)
Cách hoạt động bên trong
Đối với những người quan tâm đến kỹ thuật, đây là những gì xảy ra khi tiện ích mở rộng CapSolver được tải bên trong container NanoClaw:
Tin nhắn của bạn Máy chủ NanoClaw
───────────────────────────────────────────────────
"đến trang, ──► Bộ định tuyến tin nhắn nhận được tin nhắn
chờ 60 giây, gửi" │
▼
Container được tạo cho trợ lý
┌─────────────────────────────────┐
│ Container Docker cô lập │
│ │
│ Trợ lý Claude (qua SDK Trợ lý) │
│ │ │
│ ▼ │
│ agent-browser: điều hướng đến URL │
│ │ │
│ ▼ │
│ Chromium + Phần mở rộng CapSolver │
│ ┌───────────────────────────┐ │
│ │ Trang có reCAPTCHA │ │
│ │ │ │
│ │ Phần mở rộng CapSolver: │ │
│ │ 1. Script nội dung phát hiện │ │
│ │ reCAPTCHA trên trang │ │
│ │ 2. Worker dịch vụ gọi │ │
│ │ API CapSolver │ │
│ │ 3. Nhận token │ │
│ │ 4. Token được chèn vào │ │
│ │ trường dạng ẩn │ │
│ └───────────────────────────┘ │
│ │ │
│ ▼ │
│ Agent chờ 70 giây... │
│ │ │
│ ▼ │
│ agent-browser: nhấp Submit │
│ │ │
│ ▼ │
│ "Xác minh thành công!" │
└─────────────────────────────────┘
│
▼
Trả lời được gửi lại qua Discord/WhatsApp/etc.
Cách phần mở rộng được tải
NanoClaw sử dụng công cụ dòng lệnh agent-browser, hỗ trợ tải phần mở rộng Chrome bằng biến môi trường AGENT_BROWSER_EXTENSIONS. Khi biến này được thiết lập, agent-browser tự động truyền --load-extension đến Chromium.
- Container khởi động với biến môi trường
AGENT_BROWSER_EXTENSIONS=/opt/capsolver-extensionđược thiết lập - Agent gọi
agent-browser open <url>— Chromium khởi động với phần mở rộng được tải - Phần mở rộng kích hoạt — worker dịch vụ bắt đầu và script nội dung được chèn vào mọi trang
- Trên các trang có CAPTCHA — script nội dung phát hiện widget, gọi API CapSolver và chèn token giải quyết vào trường dạng ẩn
Vì NanoClaw sử dụng Chromium Debian (không phải Chrome của Google), cờ --load-extension hoạt động đáng tin cậy mà không cần bất kỳ biện pháp khắc phục nào. Và vì agent-browser xử lý cờ này nội bộ, bạn không cần tự quản lý các tham số khởi động Chrome.
Khắc phục sự cố
Phần mở rộng không được tải
Triệu chứng: Agent điều hướng và gửi nhưng CAPTCHA không được giải.
Nguyên nhân có thể:
- Phần mở rộng không được mount — Kiểm tra mount ổ đĩa đúng:
ls /opt/capsolver-extension/manifest.jsonbên trong container - AGENT_BROWSER_EXTENSIONS không được thiết lập — Đảm bảo biến môi trường
AGENT_BROWSER_EXTENSIONSđược thiết lập thành/opt/capsolver-extensiontrong container - Không có màn hình hiển thị — Phần mở rộng Chrome cần môi trường hiển thị. Đảm bảo Xvfb đang chạy với
DISPLAY=:99
Lỗi quyền truy cập trình duyệt (session-env)
Triệu chứng: Agent báo "không thể tạo thư mục phiên tại /home/node/.claude/session-env"
Nguyên nhân: Công cụ agent-browser cần một thư mục phiên có thể ghi. Nếu thư mục .claude trên host không chứa nó, công cụ sẽ thất bại.
Cách khắc phục: Đảm bảo thư mục tồn tại cả trong Dockerfile và trên host:
bash
# Trong Dockerfile:
RUN mkdir -p /home/node/.claude/session-env && chown -R node:node /home/node/.claude
# Trên host (cho ổ đĩa được mount):
mkdir -p data/sessions/main/.claude/session-env
chmod -R 777 data/sessions/main/.claude
CAPTCHA không được giải (Form thất bại)
Nguyên nhân có thể:
- Thời gian chờ không đủ — Tăng lên 70 giây
- API key không hợp lệ — Kiểm tra bảng điều khiển CapSolver
- Số dư không đủ — Nạp tiền tài khoản CapSolver của bạn
- Phần mở rộng không được tải — Xem "Phần mở rộng không được tải" ở trên
Vấn đề hiển thị trong container
Triệu chứng: Chromium bị treo hoặc phần mở rộng không hoạt động bên trong container.
Cách khắc phục: Đảm bảo Xvfb đang chạy trước khi Chromium khởi động:
bash
Xvfb :99 -screen 0 1280x720x24 &
export DISPLAY=:99
Thêm các lệnh này vào script khởi động container để chúng chạy tự động.
Phương án thay thế: CapSolver Skills (Giải quyết dựa trên API)
Ngoài cách tích hợp qua phần mở rộng Chrome, NanoClaw hỗ trợ phương pháp tích hợp thứ hai sử dụng CapSolver Skills — công cụ dòng lệnh Python giải CAPTCHA qua API CapSolver trực tiếp.
Cách hoạt động
Thay vì phần mở rộng giải CAPTCHA một cách vô hình ở nền, agent sẽ thực hiện rõ ràng:
- Trích xuất khóa trang CAPTCHA từ trang
- Gọi API CapSolver qua
python3 /opt/capsolver-skills/scripts/solver.py - Nhận token giải quyết
- Chèn token vào trường dạng ẩn của trang
- Gửi biểu mẫu
Cài đặt
Sao chép repo capsolver-skills vào dự án NanoClaw của bạn:
bash
git clone https://github.com/capsolver/capsolver-skills.git assets/capsolver-skills
Thêm python3 và các phụ thuộc vào container/Dockerfile của bạn:
dockerfile
RUN apt-get update && apt-get install -y python3 python3-pip \
&& pip3 install --break-system-packages requests python-dotenv
Mount thư mục skills và truyền API key trong src/container-runner.ts:
typescript
// Mount capsolver-skills
const capsolverSkillsPath = path.join(process.cwd(), 'assets', 'capsolver-skills');
if (fs.existsSync(capsolverSkillsPath)) {
mounts.push({
hostPath: capsolverSkillsPath,
containerPath: '/opt/capsolver-skills',
readonly: true,
});
}
// Truyền API key
args.push('-e', `API_KEY=${capsolverApiKey}`);
Thiết lập CAPSOLVER_API_KEY trong file .env của bạn:
CAPSOLVER_API_KEY=CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
Ví dụ sử dụng
@OpenCrawl Truy cập https://www.google.com/recaptcha/api2/demo,
sử dụng kỹ năng capsolver để giải reCAPTCHA,
sau đó nhấp Submit và báo kết quả cho tôi.
Các loại CAPTCHA được hỗ trợ
Bộ giải CAPTCHA của CapSolver Skills hỗ trợ hầu hết các loại CAPTCHA qua CLI:
| Lệnh | Loại CAPTCHA |
|---|---|
ReCaptchaV2TaskProxyLess |
reCAPTCHA v2 |
ReCaptchaV3TaskProxyLess |
reCAPTCHA v3 |
AntiTurnstileTaskProxyLess |
Cloudflare Turnstile |
AntiCloudflareTask |
Cloudflare Challenge |
AntiAwsWafTaskProxyLess |
AWS WAF |
GeeTestTaskProxyLess |
GeeTest v3/v4 |
DatadomeSliderTask |
DataDome |
Phần mở rộng vs Skills: Khi nào sử dụng mỗi phương án
| Phần mở rộng Chrome | CapSolver Skills | |
|---|---|---|
| Cách hoạt động | Vô hình, tự động | Gọi API rõ ràng |
| Agent nhận biết | Agent không biết về CAPTCHA | Agent tự giải CAPTCHA |
| Độ phức tạp cài đặt | Mount phần mở rộng + thiết lập biến môi trường | Mount script Python + cài đặt phụ thuộc |
| Tốc độ | Phụ thuộc vào thời gian chờ | Nhanh trực tiếp — không cần chờ |
| Tính linh hoạt | Xử lý mọi CAPTCHA tự động | Kiểm soát chi tiết từng loại CAPTCHA |
| Tốt nhất cho | Nhiệm vụ "truy cập và gửi" đơn giản | Quy trình phức tạp cần chèn token |
Lưu ý: Bạn có thể sử dụng cả hai phương pháp cùng lúc. Phần mở rộng xử lý CAPTCHA tự động ở nền, trong khi bộ giải Skills cho agent kiểm soát rõ ràng khi cần.
Nguyên tắc tốt nhất
1. Luôn sử dụng thời gian chờ hợp lý
Thời gian chờ dài hơn luôn an toàn hơn. CAPTCHA thường được giải trong 10-30 giây, nhưng độ trễ mạng, thách thức phức tạp hoặc thử lại có thể làm tăng thời gian. 60-70 giây là khoảng thời gian lý tưởng.
2. Luôn giữ lời nhắn tự nhiên
Thay vì:
"Đi đến URL, chờ giải CAPTCHA, sau đó gửi"
Sử dụng:
"Đi đến URL, chờ khoảng một phút, sau đó gửi biểu mẫu"
Lời nói tự nhiên hoạt động tốt hơn với AI và tránh kích hoạt các từ chối an toàn.
3. Theo dõi số dư CapSolver của bạn
Mỗi lần giải CAPTCHA đều tốn điểm. Kiểm tra số dư của bạn tại capsolver.com/dashboard thường xuyên để tránh gián đoạn.
4. Sử dụng phương pháp mount ổ đĩa
Mount phần mở rộng (thay vì đóng gói vào hình ảnh) giúp dễ dàng cập nhật phần mở rộng mà không cần xây dựng lại hình ảnh container. Chỉ cần tải phiên bản mới và khởi động lại NanoClaw.
Kết luận
Sự tích hợp NanoClaw + CapSolver mang lại khả năng giải CAPTCHA cho các agent AI trong container — hai cách:
- Phần mở rộng Chrome (không cần code): Mount phần mở rộng, thiết lập API key của bạn và CAPTCHA sẽ được giải tự động ở nền. Chỉ cần chỉ định thời gian chờ cho AI của bạn trước khi gửi.
- CapSolver Skills (dựa trên API): Agent gọi API CapSolver rõ ràng để tạo token và chèn vào trang. Kiểm soát tốt hơn, không cần chờ đợi.
Cả hai phương pháp đều đã được kiểm tra và hoạt động. Sử dụng phần mở rộng cho các quy trình "truy cập và gửi" đơn giản, và CapSolver Skills khi bạn cần kiểm soát chi tiết.
Và nhờ kiến trúc container của NanoClaw, mỗi agent đều có trình duyệt và phiên bản CapSolver riêng biệt — không xung đột, không trạng thái chung, giải CAPTCHA đa agent thật sự.
Đây là cách giải CAPTCHA khi bạn có trợ lý AI được đóng gói trong container: vô hình, tự động, tách biệt và không cần code.
Sẵn sàng bắt đầu chưa? Đăng ký CapSolver và sử dụng mã thưởng NANOCLAW để nhận thêm 6% thưởng cho lần nạp đầu tiên!
Câu hỏi thường gặp
Tôi có cần thông báo cho AI về CapSolver không?
Không. Thực tế, bạn nên tránh đề cập đến CAPTCHA hoặc CapSolver trong các tin nhắn của mình. Phần mở rộng hoạt động ở nền. Chỉ cần bao gồm thời gian chờ trong hướng dẫn của bạn (ví dụ: "chờ 70 giây, sau đó gửi") để phần mở rộng có thời gian giải CAPTCHA trên trang.
Tại sao NanoClaw không cần Chrome để kiểm tra?
NanoClaw sử dụng Chromium Debian được cài đặt qua apt-get, không phải Chrome của Google. Khác với Chrome của Google 137+ (đã ngầm loại bỏ hỗ trợ --load-extension vào giữa năm 2025), Chromium Debian hỗ trợ đầy đủ việc tải phần mở rộng. Không cần biện pháp khắc phục.
CapSolver hỗ trợ những loại CAPTCHA nào?
CapSolver hỗ trợ reCAPTCHA v2 (hộp kiểm và không hiển thị), reCAPTCHA v3, Cloudflare Turnstile, CAPTCHA AWS WAF và nhiều hơn nữa. Phần mở rộng tự động phát hiện loại CAPTCHA và giải nó tương ứng.
CapSolver tốn bao nhiêu tiền?
CapSolver cung cấp giá cả cạnh tranh dựa trên loại CAPTCHA và khối lượng. Truy cập capsolver.com để xem giá hiện tại. Sử dụng mã thưởng NANOCLAW để nhận thêm 6% cho lần nạp đầu tiên.
NanoClaw có miễn phí không?
NanoClaw là mã nguồn mở (giấy phép MIT) và miễn phí để chạy trên phần cứng của bạn. Bạn sẽ cần một API key cho mô hình AI — có thể là API key Anthropic trực tiếp, hoặc API key OpenRouter (cho phép bạn truy cập Claude và các mô hình khác qua một tài khoản). Đối với giải CAPTCHA, bạn sẽ cần tài khoản CapSolver có số dư.
Bạn nên chỉ định AI chờ bao lâu?
Đối với phần lớn CAPTCHA, 60-70 giây là đủ. Thời gian giải thực tế thường là 10-30 giây, nhưng thêm thời gian dự phòng đảm bảo độ tin cậy. Nếu không chắc, hãy dùng 70 giây — trong thử nghiệm của chúng tôi, 60 giây là giới hạn cho reCAPTCHA v2.
Container tách biệt giúp gì trong việc giải CAPTCHA?
Mỗi agent NanoClaw chạy trong container Docker riêng biệt với trình duyệt Chromium và phiên bản phần mở rộng CapSolver riêng. Điều này có nghĩa là nhiều agent có thể giải CAPTCHA đồng thời mà không xung đột — không có cookie chung, không có trạng thái trình duyệt chung, không can thiệp lẫn nhau. Nếu một phiên trình duyệt của agent gặp vấn đề, nó không ảnh hưởng đến các agent khác.
Bạn có thể sử dụng phương pháp này trên máy chủ không đầu?
Có. Bạn sẽ cần Xvfb (X Virtual Framebuffer) cho màn hình vì phần mở rộng Chrome cần môi trường hiển thị. Thiết lập DISPLAY=:99 và chạy Xvfb :99 ở nền bên trong container.
Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.
Thêm

Nâng cao Tự động hóa Doanh nghiệp: Cơ sở hạ tầng Dựa trên Mô hình Ngôn ngữ Lớn (LLM) cho Nhận dạng CAPTCHA Mượt mà & Hiệu quả Hoạt động
Khám phá cách cơ sở hạ tầng tự động hóa AI được cung cấp bởi Mô hình Ngôn ngữ lớn (LLM) đột phá trong việc nhận diện CAPTCHA, nâng cao hiệu quả quy trình kinh doanh và giảm thiểu sự can thiệp thủ công. Tối ưu hóa các quy trình tự động của bạn với các giải pháp xác minh tiên tiến.

Anh Tuan
30-Mar-2026

Mở rộng thu thập dữ liệu cho huấn luyện LLM: Giải quyết CAPTCHAs ở quy mô lớn
Hãy học cách mở rộng thu thập dữ liệu cho việc huấn luyện mô hình LLM bằng cách giải CAPTCHAs quy mô lớn. Khám phá các chiến lược tự động để xây dựng các bộ dữ liệu chất lượng cao cho các mô hình AI.

Ethan Collins
27-Mar-2026

Làm thế nào để giải CAPTCHA trong OpenBrowser bằng cách sử dụng CapSolver (Hướng dẫn tự động hóa AI Agent)
Giải CAPTCHA trong OpenBrowser bằng CapSolver. Tự động hóa reCAPTCHA, Turnstile và hơn thế nữa cho các tác nhân AI một cách dễ dàng.

Anh Tuan
26-Mar-2026

Cách giải CAPTCHA bất kỳ trong HyperBrowser bằng CapSolver (Hướng dẫn cài đặt đầy đủ)
Giải bất kỳ CAPTCHA nào trong HyperBrowser bằng CapSolver. Tự động hóa reCAPTCHA, Turnstile, AWS WAF và nhiều thứ khác một cách dễ dàng.

Anh Tuan
26-Mar-2026

Giải quyết CAPTCHA cho các tác nhân AI theo dõi giá: Hướng dẫn từng bước
Học cách giải quyết hiệu quả CAPTCHAs cho các trợ lý AI theo dõi giá cả với CapSolver. Hướng dẫn từng bước này đảm bảo thu thập dữ liệu không gián đoạn và nhìn nhận thị trường được cải thiện.

Rajinder Singh
24-Mar-2026

Cách giải CAPTCHA bằng TinyFish AgentQL – Hướng dẫn từng bước sử dụng CapSolver
Học cách tích hợp CapSolver với TinyFish AgentQL để giải CAPTCHA tự động như reCAPTCHA và Cloudflare Turnstile. Hướng dẫn từng bước với các ví dụ SDK Python và JavaScript để tự động hóa web dựa trên AI liền mạch.

Nikolai Smirnov
23-Mar-2026


