Cách giải CAPTCHA trong tự động hóa trình duyệt với Hermes Agent và CapSolver

Anh Tuan
Data Science Expert
06-May-2026

Khi AI của bạn duyệt web thay bạn, CAPTCHA là rào cản số một. Các trang được bảo vệ chặn agent, các biểu mẫu từ chối gửi, và các nhiệm vụ dừng lại chờ can thiệp của con người.
Hermes Agent của Nous Research là một agent AI tự cải tiến có thể chạy ở bất kỳ đâu — từ VPS giá 5 đô la đến cụm GPU — và kết nối với bạn trên mọi kênh bạn đang sử dụng: Telegram, Discord, Slack, WhatsApp, Signal, và email. Nó cũng có thể điều khiển trình duyệt để truy cập trang, nhấp nút, điền biểu mẫu, và trích xuất dữ liệu thay bạn. Tuy nhiên, giống như bất kỳ agent nào điều khiển trình duyệt, nó bị chặn bởi CAPTCHA.
CapSolver thay đổi hoàn toàn điều này. Bằng cách tải tiện ích mở rộng CapSolver Chrome vào trình duyệt Hermes kết nối, CAPTCHA sẽ được giải tự động và không thấy ở nền. Không cần code. Không cần gọi API từ phía bạn. Không cần các bài tập kỹ thuật số phức tạp.
Điều tốt nhất là bạn không cần đề cập đến CAPTCHA với agent. Bạn chỉ cần bảo nó chờ một lúc trước khi gửi — và đến lúc nó nhấp vào Gửi, CAPTCHA đã được giải rồi.
Hermes Agent là gì?
Hermes Agent là một agent AI tự động mở nguồn được xây dựng bởi Nous Research. Nó được thiết kế xung quanh ba nguyên tắc: bộ nhớ liên tục (nó nhớ bạn và các dự án của bạn qua các phiên), tự học kỹ năng (nó học quy trình từ kinh nghiệm và lặp lại chúng lần sau), và tính linh hoạt về cơ sở hạ tầng (chạy nó trên VPS nhỏ, container Docker, sandbox serverless, hoặc máy tính GPU của riêng bạn).

Tính năng chính
- Cổng đa kênh: Giao tiếp với agent của bạn qua Telegram, Discord, Slack, WhatsApp, Signal, email, hoặc giao diện terminal riêng
- Mô hình tùy chỉnh: MởRouter (200+ mô hình), Nous Portal, NVIDIA NIM, Z.AI, endpoint của riêng bạn — chuyển đổi bằng
hermes model - Bộ nhớ xuyên phiên: Tìm kiếm phiên FTS5 + tóm tắt bằng LLM có nghĩa là agent nhớ những gì bạn đã nói trong tuần trước
- Hệ thống kỹ năng: Bộ nhớ quy trình mà agent tự xây dựng, tương thích với tiêu chuẩn agentskills.io
- Bảy nền tảng terminal: Local, Docker, SSH, Singularity, Modal, Daytona, Vercel Sandbox
- Công cụ trình duyệt tích hợp: Điều khiển Chromium thực tế qua Playwright + Chrome DevTools Protocol
Công cụ Trình duyệt
Hermes có thể điều khiển trình duyệt Chromium để thực hiện công việc thực tế — điều hướng, đọc DOM, nhấp, gõ, chụp màn hình, quét dữ liệu. Lớp công cụ trình duyệt của nó khác biệt ở một điểm cụ thể: thay vì ép bạn vào một nền tảng duy nhất, Hermes hỗ trợ năm nhà cung cấp trình duyệt thay thế:
| Nhà cung cấp | Loại | Tiện ích mở rộng? |
|---|---|---|
| Browserbase | Đám mây | ✗ |
| Browser Use | Đám mây | ✗ |
| Firecrawl | Đám mây | ✗ |
| Camoufox | Địa phương (Firefox stealth) | ✗ |
| CDP attach | Địa phương (mọi Chromium) | ✓ |
Các nhà cung cấp đám mây không thể tải tiện ích mở rộng — bạn không kiểm soát trình duyệt từ xa. Camoufox dựa trên Firefox và sẽ không chạy tiện ích mở rộng Chrome MV3. Điểm tích hợp sạch sẽ là nhà cung cấp thứ năm: CDP attach, nơi Hermes kết nối với Chromium bạn đã khởi chạy riêng. Đó là nơi CapSolver phù hợp.
Đây là mô hình khác so với các công cụ như OpenClaw (khởi động Chromium riêng và chấp nhận mảng browser.extensions) hoặc Crawlee (nơi bạn kiểm soát cờ khởi động Playwright). Với Hermes, bạn mang theo Chrome của riêng mình với tiện ích mở rộng được tải trước, và Hermes kết nối với nó qua giao thức DevTools.
CapSolver là gì?
CapSolver là dịch vụ giải CAPTCHA hàng đầu cung cấp giải pháp dựa trên AI để vượt qua các thách thức CAPTCHA hiện đại. Với hỗ trợ cho mọi loại CAPTCHA chính và thời gian phản hồi nhanh, CapSolver tích hợp trơn tru vào các quy trình tự động hóa — dù bạn đang điều khiển trình duyệt qua Playwright, gọi API trực tiếp, hay như trong hướng dẫn này, chạy tiện ích mở rộng Chrome của nó bên trong phiên trình duyệt của agent.
Tại sao tích hợp này khác biệt?
Hầu hết các tích hợp giải CAPTCHA yêu cầu bạn viết code — tạo các cuộc gọi API, kiểm tra kết quả, chèn token vào các trường ẩn. Đó là cách hoạt động với các công cụ như Crawlee, Puppeteer, hoặc Playwright.
Hermes + CapSolver khác biệt về bản chất:
| Truyền thống (dựa trên code) | Hermes (ngôn ngữ tự nhiên) |
|---|---|
Viết lớp CapSolverService |
Khởi động Chrome một lần với --load-extension=... |
Gọi createTask() / getTaskResult() |
Chỉ cần trò chuyện với agent của bạn |
Chèn token qua page.$eval() |
Tiện ích mở rộng xử lý mọi thứ |
| Xử lý lỗi, thử lại, thời gian hết hạn trong code | Nói với agent để "chờ 60 giây, sau đó gửi" |
| Code khác nhau cho từng loại CAPTCHA | Hoạt động cho mọi loại tự động |
Ý tưởng chính: Tiện ích mở rộng CapSolver chạy bên trong trình duyệt kết nối. Hermes kết nối với trình duyệt đó qua CDP và điều khiển nó như bình thường. Khi agent truy cập trang có CAPTCHA, tiện ích mở rộng — chạy trong cùng Chrome, hoàn toàn không thấy bởi agent — phát hiện widget, gọi API CapSolver, và chèn token giải pháp vào trang. Đến lúc agent nhấp Gửi, biểu mẫu đã có token hợp lệ.
Bạn chỉ cần cho nó thời gian. Thay vì bảo agent "giải CAPTCHA", bạn chỉ cần nói:
"Đi đến trang đó, chờ 60 giây, sau đó nhấp Gửi."
Đó là tất cả. Agent không cần biết CapSolver tồn tại.
Yêu cầu tiên quyết
Trước khi cài đặt tích hợp, hãy đảm bảo bạn có:
- Hermes Agent đã cài đặt và cổng kết nối đang chạy (hướng dẫn cài đặt)
- Tài khoản CapSolver với khóa API (đăng ký tại đây)
- Chromium hoặc Chrome để kiểm thử (xem lưu ý quan trọng dưới đây)
Lưu ý quan trọng: Bạn cần Chromium, không phải Google Chrome
Google Chrome 137+ (phát hành giữa năm 2025) đã ngầm gỡ bỏ hỗ trợ cho
--load-extensiontrong các phiên bản thương mại. Điều này có nghĩa là tiện ích mở rộng Chrome không thể được tải trong các phiên tự động hóa sử dụng Chrome tiêu chuẩn. Không có lỗi — cờ này chỉ bị bỏ qua.
Điều này ảnh hưởng đến Google Chrome và Microsoft Edge. Bạn phải sử dụng một trong các tùy chọn sau:
| Trình duyệt | Tải tiện ích mở rộng | Đề xuất? |
|---|---|---|
| Google Chrome 137+ | Không hỗ trợ | Không |
| Microsoft Edge | Không hỗ trợ | Không |
| Chrome cho kiểm thử | Hỗ trợ | Có |
| Chromium (độc lập) | Hỗ trợ | Có |
| Chromium được tích hợp trong Playwright | Hỗ trợ | Có |
Cách cài đặt Chrome cho kiểm thử:
bash
# Phương án 1: Qua Playwright (được đề xuất — Hermes đã sử dụng Playwright bên trong)
npx playwright install chromium
# Đường dẫn nhị phân sẽ là:
# ~/.cache/ms-playwright/chromium-XXXX/chrome-linux64/chrome (Linux)
# ~/Library/Caches/ms-playwright/chromium-XXXX/chrome-mac/Chromium.app/Contents/MacOS/Chromium (macOS)
bash
# Phương án 2: Tải trực tiếp từ Chrome cho kiểm thử
# Truy cập: https://googlechromelabs.github.io/chrome-for-testing/
# Tải phiên bản tương thích với hệ điều hành của bạn
Sau khi cài đặt, ghi nhớ đường dẫn đầy đủ đến nhị phân — bạn sẽ cần nó ở bước tiếp theo.
Hướng dẫn cài đặt từng bước
Tích hợp có hai phần hoạt động cùng nhau:
- Một tiến trình Chrome riêng mà bạn khởi động với tiện ích mở rộng CapSolver được tải trước và CDP được mở trên cổng xác định (chúng ta sẽ sử dụng
9222). - Thay đổi nhỏ trong
config.yamlcủa Hermes để nói với nó kết nối đến cổng CDP đó thay vì khởi động trình duyệt riêng.
Đó là tất cả — không cần code, không cần sửa Hermes.
Bước 1: Tải xuống tiện ích mở rộng Chrome của CapSolver
Tải xuống tiện ích mở rộng CapSolver Chrome và giải nén nó vào một vị trí ổn định:
- Truy cập các phiên bản tiện ích mở rộng CapSolver trên GitHub
- Tải xuống phiên bản mới nhất
CapSolver.Browser.Extension-chrome-vX.X.X.zip - Giải nén zip:
bash
mkdir -p ~/.hermes/capsolver-extension
unzip CapSolver.Browser.Extension-chrome-v*.zip -d ~/.hermes/capsolver-extension/
- Xác minh việc giải nén:
bash
ls ~/.hermes/capsolver-extension/manifest.json
Bạn sẽ thấy manifest.json — điều này xác nhận tiện ích mở rộng ở đúng vị trí.
Lưu ý về đường dẫn: Sử dụng đường dẫn tuyệt đối, được giải quyết (không phải
~) khi bạn truyền--load-extension=...đến Chrome sau này. Một số phiên bản Chrome MV3 có các trường hợp đặc biệt nơi dịch vụ công cụ tiện ích mở rộng không thể đăng ký qua các liên kết tượng trưng trong thư mục người dùng tùy chỉnh. Nếu bạn đang liên kết tượng trưng tiện ích mở rộng từ vị trí khác, hãy sử dụngreadlink -fđể giải quyết đường dẫn thực tế và sử dụng đường dẫn đó.
Bước 2: Thiết lập khóa API CapSolver của bạn
Mở tệp cấu hình của tiện ích mở rộng tại ~/.hermes/capsolver-extension/assets/config.js và thay giá trị apiKey bằng khóa của bạn:
js
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX', // ← khóa của bạn ở đây
useCapsolver: true,
enabledForRecaptcha: true,
enabledForRecaptchaV3: true,
// ... phần còn lại của cấu hình
};
Bạn có thể lấy khóa API từ bảng điều khiển CapSolver.
Bước 3: Khởi động Chrome với tiện ích mở rộng và CDP được kích hoạt
Đây là bước quan trọng. Chúng ta khởi động Chrome một lần, riêng biệt với Hermes, với ba cờ quan trọng:
--remote-debugging-port=9222— mở giao thức DevTools để Hermes có thể kết nối--load-extension=...— tải trước tiện ích mở rộng CapSolver--user-data-dir=...— sử dụng một hồ sơ riêng để không xung đột với Chrome cá nhân của bạn
Hermes có quy ước nội bộ cho thư mục người dùng: ~/.hermes/chrome-debug. Sử dụng đường dẫn này có nghĩa là lệnh /browser connect trong Hermes cũng "hoạt động" mà không cần cờ bổ sung.
Phương án A: Khởi động thủ công một lần (tốt cho kiểm tra nhanh)
bash
/path/to/chrome-for-testing/chrome \
--remote-debugging-port=9222 \
--remote-debugging-address=127.0.0.1 \
--user-data-dir="$HOME/.hermes/chrome-debug" \
--load-extension="$HOME/.hermes/capsolver-extension" \
--disable-extensions-except="$HOME/.hermes/capsolver-extension" \
--no-first-run \
--no-default-browser-check \
--no-sandbox
Thay /path/to/chrome-for-testing/chrome bằng nhị phân thực tế của bạn, ví dụ: ~/.cache/ms-playwright/chromium-1200/chrome-linux64/chrome.
Máy chủ không giao diện: Nếu bạn đang chạy trên máy chủ Linux không có màn hình vật lý (VPS, EC2, v.v.), xem phần Thủ tục tốt bên dưới để cài đặt
Xvfb. Hệ thống tiện ích mở rộng Chrome yêu cầu môi trường hiển thị.
Phương án B: Quy trình nền kéo dài (được đề xuất cho sản xuất)
Đối với bất kỳ cài đặt nào sống lâu hơn một lần kiểm tra, bao bọc khởi động trong một tập lệnh nhỏ để bạn có thể giữ Chrome chạy nền, khởi động lại nó một cách sạch sẽ, và giám sát nó với bất kỳ quản lý tiến trình nào bạn đã có (systemd, supervisor, runit, OpenRC, Docker, v.v.).
Lưu tập lệnh này dưới tên ~/.hermes/chrome-debug.sh và cấp quyền thực thi:
bash
#!/usr/bin/env bash
# ~/.hermes/chrome-debug.sh
# Khởi động Chrome-for-Testing với tiện ích mở rộng CapSolver được tải trước
# và CDP được mở trên 127.0.0.1:9222.
CHROME_BIN="$HOME/.cache/ms-playwright/chromium-1200/chrome-linux64/chrome"
EXT_DIR="$HOME/.hermes/capsolver-extension"
USER_DATA_DIR="$HOME/.hermes/chrome-debug"
export DISPLAY=:99 # cho Linux không giao diện — xem phần Thủ tục tốt
exec "$CHROME_BIN" \
--remote-debugging-port=9222 \
--remote-debugging-address=127.0.0.1 \
--user-data-dir="$USER_DATA_DIR" \
--load-extension="$EXT_DIR" \
--disable-extensions-except="$EXT_DIR" \
--no-first-run \
--no-default-browser-check \
--no-sandbox \
--disable-dev-shm-usage \
--disable-features=Translate
Cách khởi động kéo dài đơn giản nhất là:
bash
nohup ~/.hermes/chrome-debug.sh > /tmp/chrome-debug.log 2>&1 &
Đối với sản xuất, giám sát tập lệnh với bất kỳ quản lý tiến trình nào bạn thích. Một đơn vị systemd tối thiểu tại ~/.config/systemd/user/chrome-debug.service:
ini
[Unit]
Description=Chrome được trang bị CapSolver cho Hermes Agent
After=network.target
[Service]
ExecStart=%h/.hermes/chrome-debug.sh
Restart=always
RestartSec=5
[Install]
WantedBy=default.target
Sau đó:
bash
systemctl --user daemon-reload
systemctl --user enable --now chrome-debug
Bất kỳ cài đặt nào tương đương (chương trình supervisor, dịch vụ runit, container Docker, v.v.) hoạt động như nhau — tích hợp chỉ quan tâm đến việc ai đó duy trì chrome-debug.sh chạy.
Bước 4: Cho Hermes kết nối qua CDP
Chỉnh sửa tệp cấu hình Hermes tại ~/.hermes/config.yaml. Tìm phần browser: (thường chỉ có inactivity_timeout) và thêm cdp_url:
yaml
browser:
inactivity_timeout: 120
cdp_url: http://127.0.0.1:9222
Dòng duy nhất này nói với công cụ browser_cdp của Hermes để định tuyến mọi thao tác trình duyệt thông qua phiên Chrome chúng tôi khởi động ở Bước 3, thay vì khởi động riêng.
Tính khả chuyển: Đây là thay đổi duy nhất đối với Hermes. Để quay lại, xóa dòng
cdp_url. Hermes quay lại bất kỳ nhà cung cấp trình duyệt nào nó đang sử dụng trước đó (Browserbase, Browser Use, v.v.) mà không có tác động phụ nào khác.
Bước 5: Khởi động lại Hermes
Nếu Hermes đang chạy, khởi động lại để nó nhận cdp_url mới:
bash
# Chạy trực tiếp (dạng nền hoặc dưới quản lý của bạn):
hermes gateway run
# Hoặc khởi động lại qua bất kỳ quản lý tiến trình nào bạn đang sử dụng để giám sát Hermes —
# điều kiện duy nhất là cấu hình và môi trường mới phải có hiệu lực.
Bước 6: Xác minh cài đặt
Hermes đi kèm với lệnh chẩn đoán tích hợp kiểm tra toàn bộ tích hợp trong một lần:
bash
hermes doctor
Bạn đang tìm các tín hiệu sau:
◆ Tính sẵn có của công cụ
✓ browser-cdp ← Kết nối CDP đang hoạt động
✓ browser
...
◆ Kết nối API
Kiểm tra API OpenRouter... ✓ API OpenRouter
Nếu browser-cdp xuất hiện dưới Tính sẵn có của công cụ, Hermes đã phát hiện điểm cuối CDP của bạn và tích hợp đang hoạt động đúng. Nếu không, Hermes vô hiệu hóa công cụ đó một cách im lặng (không lỗi) — đó là tín hiệu để theo dõi.
Bạn cũng có thể xác nhận Chrome có thể truy cập được:
bash
curl -s http://127.0.0.1:9222/json/version
Một phản hồi như sau xác nhận rằng CDP đang hoạt động:
json
{
"Browser": "Chrome/<phiên bản của bạn>",
"Protocol-Version": "1.3",
"webSocketDebuggerUrl": "ws://127.0.0.1:9222/devtools/browser/..."
}
Về tính khả kiến của dịch vụ worker CapSolver: Các worker dịch vụ Chrome MV3 sẽ bị ngưng hoạt động một cách nghiêm ngặt, và trong các phiên bản Chrome gần đây,
/json/listcó thể hoàn toàn không hiển thị chúng ngay cả khi chúng đang chạy. Việc thiếu vắng trong/json/listkhông phải là dấu hiệu chẩn đoán — xác minh CapSolver đang hoạt động bằng cách tải trang reCAPTCHA thực tế thông qua người điều khiển và quan sát kết quả widget trong trang, không phải bằng cách kiểm tra danh sách mục tiêu.
Cách Sử Dụng
Đây là phần quan trọng nhất. Sau khi cài đặt xong, sử dụng CapSolver với Hermes là rất đơn giản.
Quy tắc vàng
Không đề cập đến CAPTCHA hoặc CapSolver với người điều khiển. Chỉ cần cho nó thời gian trước khi gửi biểu mẫu.
Người điều khiển không cần biết về CAPTCHA. Mở rộng sẽ xử lý mọi thứ ở chế độ nền. Tất cả những gì bạn cần làm là thêm một thời gian chờ vào hướng dẫn của bạn để mở rộng có thời gian giải quyết thách thức trước khi biểu mẫu được gửi.
Ví dụ 1: Kiểm tra một lần
Chế độ một lần của Hermes (hermes -z "...") lý tưởng cho việc kiểm tra tích hợp. Chạy lệnh này từ bất kỳ terminal nào mà hermes CLI có sẵn:
bash
hermes -z 'Mở https://www.google.com/recaptcha/api2/demo. Chờ 60 giây để trang tải hoàn toàn. Sau đó nhấp vào nút được gán nhãn "Gửi!" hoặc có id "recaptcha-demo-submit". Sau khi nhấp, chờ 5 giây và cho tôi biết nội dung văn bản hiển thị trên trang.'
Những gì xảy ra phía sau hậu trường:
- Hermes kết nối với Chrome của bạn qua CDP
- Người điều khiển điều hướng đến trang demo reCAPTCHA của Google
- Script nội dung của CapSolver (đang chạy bên trong Chrome) phát hiện widget reCAPTCHA
- Worker dịch vụ của mở rộng gọi API CapSolver và giải quyết thách thức (thường trong 5–15 giây)
- Token được chèn vào trường biểu mẫu ẩn
g-recaptcha-response - Sau 60 giây, người điều khiển nhấp Submit
- Máy chủ của Google xác minh token và trả về trang kết quả
- Người điều khiển đọc văn bản sau khi gửi: "Verification Success... Hooray!"
Chuỗi "Verification Success... Hooray!" là thông báo xác nhận của Google — chỉ xuất hiện khi token reCAPTCHA hợp lệ được gửi cùng biểu mẫu.
Ví dụ 2: Từ một kênh tin nhắn
Gửi điều này từ bất kỳ kênh nào được kết nối với cổng Hermes (Telegram, Discord, Slack, v.v.):
Đi đến https://example.com/login, điền trường email với
"me@example.com" và trường mật khẩu với "mypassword123",
sau đó chờ 30 giây và nhấp nút Đăng nhập.
Hãy cho tôi biết trang nào được tải sau khi đăng nhập.
Hermes sẽ định tuyến yêu cầu đến người điều khiển của nó, kết nối với cùng Chrome, điền biểu mẫu, cho mở rộng thời gian để giải CAPTCHA trên trang đăng nhập, nhấp Đăng nhập, và trả lời với nội dung trang sau khi đăng nhập — tất cả mà bạn không cần đề cập đến CAPTCHA.
Ví dụ 3: Gửi biểu mẫu liên hệ có reCAPTCHA
Mở https://example.com/contact và điền biểu mẫu liên hệ:
- Tên: "John Doe"
- Email: "john@example.com"
- Tin nhắn: "Xin chào, tôi có một câu hỏi về dịch vụ của bạn."
Chờ 45 giây, sau đó nhấp Gửi Tin Nhắn.
Thông báo nào xuất hiện trên trang?
Thời gian chờ được khuyến nghị
| Loại CAPTCHA | Thời gian giải thường | Thời gian chờ được khuyến nghị |
|---|---|---|
| reCAPTCHA v2 (hộp kiểm) | 5–15 giây | 30–60 giây |
| reCAPTCHA v2 (ẩn) | 5–15 giây | 30 giây |
| reCAPTCHA v3 | 3–10 giây | 20–30 giây |
| CAPTCHA AWS WAF | 5–15 giây | 30 giây |
Lời khuyên: Khi không chắc, hãy sử dụng 60 giây. Tốt hơn là chờ lâu hơn một chút so với việc gửi quá sớm. Thời gian chờ thêm là gần như miễn phí — hóa đơn CapSolver của bạn được tính theo lần giải, không theo giây.
Các mẫu ngôn ngữ tự nhiên hoạt động
Dưới đây là các cách diễn đạt đã được chứng minh bạn có thể sử dụng qua bất kỳ kênh nào của Hermes:
- "Đi đến [URL], chờ 60 giây, sau đó gửi biểu mẫu"
- "Điều hướng đến [URL], điền [trường], chờ 30 giây, sau đó nhấp [nút]"
- "Mở [URL] và sau khoảng một phút, nhấp Gửi và cho tôi biết kết quả"
- "Truy cập [URL], chờ một chút để trang tải hoàn toàn, sau đó gửi"
Những gì không nên nói
Tránh các cách diễn đạt này — chúng có thể làm người điều khiển nhầm lẫn và đã được quan sát thấy khiến một số mô hình an toàn từ chối (đặc biệt là họ GLM):
"Chờ cho đến khi CAPTCHA được giải"(người điều khiển không biết về CAPTCHA)"Sử dụng CapSolver để giải xác minh"(người điều khiển không kiểm soát mở rộng)"Nhấp vào hộp kiểm reCAPTCHA"(mở rộng xử lý điều đó — nhấp có thể gây cản trở)"Bypass kiểm tra bảo mật"(nghe có tính đối kháng — một số mô hình sẽ từ chối)
Cách Hoạt Động Ở Phía Dưới
Đối với những người quan tâm đến kỹ thuật, đây là kiến trúc:
Tin nhắn của bạn Cổng Hermes
──────────────────────────────────────────────────────────
"đi đến trang, ──► Người điều khiển Hermes nhận tin nhắn
chờ 60s, gửi" │
▼
browser_cdp / công cụ trình duyệt
│ (kết nối qua WebSocket
│ đến ws://127.0.0.1:9222)
▼
┌────────────────────────────────────┐
│ chrome-debug Chromium (chế độ nền)│
│ │
│ ┌───────────────────────────────┐ │
│ │ Mở rộng CapSolver MV3 │ │
│ │ (được tải qua --load-extension; │ │
│ │ yêu cầu Chrome để kiểm tra │ │
│ │ hoặc Chromium — Chrome do Google phát hành │ │
│ │ 137+ bỏ qua cờ này) │ │
│ │ │ │
│ │ 1. script nội dung phát hiện CAPTCHA │
│ │ 2. worker dịch vụ gọi API CapSolver │
│ │ 3. token nhận được │ │
│ │ 4. token được chèn vào trường biểu mẫu │ │
│ └───────────────────────────────┘ │
└────────────────────────────────────┘
│
▼
Người điều khiển Hermes chờ 60 giây...
│
▼
browser_cdp: nhấp Submit
│
▼
Biểu mẫu được gửi *với token hợp lệ*
│
▼
Trang xác nhận sau khi gửi
Tại sao lại gắn kết CDP thay vì "Chỉ truyền một mảng mở rộng"?
Lớp công cụ trình duyệt của Hermes được xây dựng xung quanh năm nhà cung cấp thay thế (Browserbase, Browser Use, Firecrawl, Camoufox, Chromium không giao diện). Ba trong số đó là đám mây — bạn không kiểm soát nhị phân trình duyệt, do đó không có nơi để đặt cờ --load-extension. Một (Camoufox) dựa trên Firefox. Năm — gắn kết CDP — là điểm duy nhất nơi Chromium do người dùng kiểm soát có thể được kết nối.
Điều khoản là rất tốt: Hermes giữ được khả năng di chuyển trên đám mây mặc định, nhưng ngay khi bạn muốn có quyền lực trình duyệt (CapSolver, trình chặn quảng cáo của riêng bạn, công cụ MV3 tùy chỉnh, cookie tồn tại, v.v.), bạn khởi chạy Chrome tự mình và chỉ định Hermes đến nó. Một dòng cấu hình. Kiểm soát hoàn toàn.
--load-extension Thực Sự Làm Gì
Khi Chrome khởi động với --load-extension=/path/to/extension, nó xem thư mục đó là một mở rộng chưa nén — cùng cơ chế Chrome sử dụng trong chế độ phát triển. Mở rộng được đăng ký chính xác như khi bạn cài đặt nó từ Chrome Web Store. Không có sự khác biệt về sandbox, không có truy cập API bị suy giảm — nó là một mở rộng có quyền đầy đủ.
Sau đó, mở rộng CapSolver sẽ tiếp quản:
- Script nội dung (được chèn vào mọi trang) theo dõi các widget CAPTCHA đã biết — reCAPTCHA, Cloudflare, AWS WAF, v.v.
- Khi phát hiện widget, script nội dung gửi thông điệp đến worker dịch vụ
- Worker dịch vụ xác thực với API CapSolver bằng khóa từ
assets/config.js, gửi chi tiết thách thức và kiểm tra token - Khi nhận được token, nó được chèn vào trường phản hồi ẩn của trang qua script nội dung
- Khi người điều khiển nhấp Submit, biểu mẫu đã có token hợp lệ
Người điều khiển hoàn toàn không liên quan — nó nhìn thấy trang bình thường, chờ thời gian bạn đã chỉ định, và gửi. Trang chỉ đơn giản là có token hợp lệ.
Ghi chú môi trường: Tránh sử dụng
--disable-background-networkingtrong cờ Chrome của bạn. Nó chặn các yêu cầu XHR/fetch ra ngoài của worker dịch vụ CapSolver — do đó mở rộng không bao giờ có thể truy cập API CapSolver. Công thức trong Bước 3 cố ý bỏ qua nó.
Tham Chiếu Cấu Hình Hoàn chỉnh
Bên Hermes: ~/.hermes/config.yaml
Thay đổi duy nhất cần thiết là thêm cdp_url dưới khối browser::
yaml
browser:
inactivity_timeout: 120
cdp_url: http://127.0.0.1:9222
Bên Chrome: Cờ --load-extension
Tất cả các cờ bạn nên truyền cho Chrome:
| Cờ | Mục đích |
|---|---|
--remote-debugging-port=9222 |
Mở CDP trên cổng TCP 9222 (cần thiết để Hermes kết nối) |
--remote-debugging-address=127.0.0.1 |
Gắn CDP với loopback chỉ (an ninh — không bao giờ mở CDP công khai) |
--user-data-dir=$HOME/.hermes/chrome-debug |
Hồ sơ riêng biệt không xung đột với Chrome cá nhân của bạn |
--load-extension=/abs/path/to/capsolver-extension |
Mở rộng thực tế để tải |
--disable-extensions-except=/abs/path/to/capsolver-extension |
Tận dụng cả hai — chỉ tải mở rộng này |
--no-first-run --no-default-browser-check |
Bỏ qua trình hướng dẫn thiết lập Chrome |
--no-sandbox |
Tắt sandbox của Chrome. Tài liệu Chromium ghi chú rằng đây là "dành cho mục đích kiểm tra", nhưng đây là cách khắc phục thông thường cho các môi trường Linux/Docker không giao diện nơi người dùng không có quyền thiết lập sandbox đúng cách. |
--disable-dev-shm-usage |
Tránh vấn đề /dev/shm trong các container |
Bên CapSolver: assets/config.js
Cấu hình tối thiểu trong ~/.hermes/capsolver-extension/assets/config.js:
js
export const defaultConfig = {
apiKey: 'CAP-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX',
useCapsolver: true,
enabledForRecaptcha: true,
enabledForRecaptchaV3: true,
// ... xem tài liệu CapSolver để biết danh sách đầy đủ các tùy chọn
};
Xử Lý Sự Cố
hermes doctor không liệt kê browser-cdp trong Danh sách Công cụ
Triệu chứng: Sau khi khởi động lại Hermes, công cụ browser-cdp bị thiếu trong đầu ra của hermes doctor.
Nguyên nhân: Hermes chỉ đăng ký browser-cdp khi có cấu hình điểm cuối CDP — browser.cdp_url được thiết lập trong config.yaml, biến môi trường BROWSER_CDP_URL, hoặc phiên kết nối /browser connect đang hoạt động. Kiểm tra là sự hiện diện của cấu hình, không phải khả năng truy cập (xem tools/browser_cdp_tool.py:_browser_cdp_check). Nguyên nhân phổ biến nhất khiến công cụ browser-cdp bị thiếu là do lỗi chính tả hoặc cấu trúc sai trong config.yaml, không phải do Chrome không truy cập được.
Cách sửa:
bash
# 1. Xác minh khóa được đặt đúng dưới "browser:" (không phải cấp độ cao nhất)
grep -A2 '^browser:' ~/.hermes/config.yaml
# đầu ra mong muốn:
# browser:
# ...
# cdp_url: http://127.0.0.1:9222
# 2. Sau đó xác minh Chrome thực sự đang chạy tại điểm cuối đó
curl -s http://127.0.0.1:9222/json/version
# 3. Nếu Chrome bị treo, kiểm tra nhật ký chrome-debug:
tail -n 30 /tmp/chrome-debug.log # hoặc: journalctl --user -u chrome-debug -n 30
Mở rộng không được tải (vấn đề Chrome do Google phát hành)
Triệu chứng: Chrome khởi động sạch sẽ nhưng CAPTCHA không bao giờ được giải — mọi lần gửi đều thất bại.
Nguyên nhân: Bạn đang sử dụng Chrome do Google phát hành 137+, nó bỏ qua --load-extension một cách im lặng.
Cách sửa: Chuyển sang Chrome để kiểm tra hoặc Chromium. Xác minh nhị phân của bạn:
bash
/path/to/your/chrome --version
# Chrome để kiểm tra: "Chromium 143.0.7499.4"
# Chrome do Google phát hành: "Google Chrome 143.0.7499.109" ← sẽ không hoạt động
CAPTCHA Không Được Giải (Biểu mẫu bị lỗi)
Nguyên nhân có thể:
- Thời gian chờ không đủ — Tăng lên 60 giây
- Khóa API CapSolver không hợp lệ — Kiểm tra bảng điều khiển CapSolver của bạn
- Số dư không đủ — Nạp tiền tài khoản CapSolver của bạn
- Mạng nền bị tắt — Đảm bảo không có cờ
--disable-background-networkingtrong cờ Chrome của bạn (nó sẽ giết các cuộc gọi API ra ngoài của mở rộng) - Chrome do Google phát hành — xem trên
Thời gian chờ trình duyệt khi thực hiện hành động đầu tiên sau khi khởi động lại
Triệu chứng: Hành động trình duyệt đầu tiên sau khi khởi động lại Hermes bị thời gian chờ, nhưng các hành động tiếp theo hoạt động tốt.
Nguyên nhân: Giao tiếp CDP khởi động lạnh có thể thỉnh thoảng vượt quá thời gian chờ mặc định của Hermes. Các hành động tiếp theo sử dụng WebSocket đã được làm nóng và nhanh hơn.
Cách sửa: Thử lại lệnh một lần. Nếu vẫn tiếp diễn, tăng browser.inactivity_timeout trong config.yaml.
Chrome bị treo sau khi chuyển đổi nhị phân
Triệu chứng: Sau khi chuyển từ phiên bản Chrome này sang phiên bản khác, Chrome bị treo với lỗi cache đĩa.
Nguyên nhân: Thư mục user-data-dir được tạo bởi phiên bản Chrome khác và giờ không tương thích.
Cách sửa:
bash
# 1. Dừng quá trình chrome-debug hiện tại (bằng cách nào bạn giám sát)
pkill -f "remote-debugging-port=9222"
# 2. Xóa hồ sơ lỗi thời
rm -rf ~/.hermes/chrome-debug
# 3. Khởi động lại chrome-debug (thông qua quản lý quá trình của bạn, hoặc khởi chạy lại script)
nohup ~/.hermes/chrome-debug.sh > /tmp/chrome-debug.log 2>&1 &
Worker dịch vụ CapSolver không xuất hiện trong /json/list
Triệu chứng: curl http://127.0.0.1:9222/json/list chỉ trả về các mục page, không có service_worker.
Nguyên nhân: Worker dịch vụ Chrome MV3 bị ngưng hoạt động nghiêm ngặt, và trong các phiên bản Chrome gần đây, /json/list có thể không hiển thị chúng — ngay cả khi chúng đang xử lý sự kiện.
Cách sửa: Điều này không phải là dấu hiệu chẩn đoán. Không nên dựa vào /json/list để xác minh CapSolver được tải. Thay vào đó, điều hướng người điều khiển đến trang thực tế có bảo vệ reCAPTCHA (ví dụ: https://www.google.com/recaptcha/api2/demo) và quan sát xem việc gửi biểu mẫu có thành công không. Một lần gửi thành công chính là bằng chứng mở rộng được tải và giải thách thức; một mục bị thiếu trong danh sách mục tiêu không phải là tín hiệu lỗi.
Các Nguyên Tắc Tốt
1. Luôn sử dụng thời gian chờ hợp lý
Thời gian chờ dài hơn luôn an toàn hơn. CAPTCHA thường được giải trong 5–20 giây, nhưng độ trễ mạng, thách thức phức tạp hoặc thử lại có thể làm tăng thời gian. 30–60 giây là khoảng thời gian lý tưởng.
2. Giữ tin nhắn tự nhiên
Thay vì:
"Điều hướng đến URL, chờ giải CAPTCHA, sau đó gửi"
Sử dụng:
"Đi đến URL, chờ khoảng một phút, sau đó gửi biểu mẫu"
Phát biểu tự nhiên hoạt động tốt hơn với agent và có xu hướng tương tác tốt hơn với các mô hình được điều chỉnh an toàn — việc sử dụng ngôn ngữ đối lập xung quanh CAPTCHA đã được quan sát là gây ra sự từ chối trên một số mô hình lớp GLM.
3. Theo dõi Số dư CapSolver của bạn
Mỗi lần giải CAPTCHA sẽ tốn điểm số. Kiểm tra số dư của bạn tại capsolver.com/dashboard thường xuyên để tránh gián đoạn.
4. Sử dụng Thư mục User-Data Độc quyền
Không bao giờ chỉ định --user-data-dir đến hồ sơ Chrome thực tế của bạn. Sử dụng ~/.hermes/chrome-debug (mà lệnh /browser connect tích hợp của Hermes cũng nhắm đến theo mặc định). Cách này đảm bảo trình duyệt của agent được tách biệt hoàn toàn khỏi việc lướt web cá nhân của bạn.
5. Kết nối CDP chỉ với Loopback
--remote-debugging-address=127.0.0.1 không phải là tùy chọn trong môi trường sản xuất. Giao thức DevTools của Chrome cung cấp quyền kiểm soát hoàn toàn trình duyệt cho bất kỳ ai có thể truy cập cổng. Không bao giờ để cổng 9222 mở cho mạng công khai.
6. Sử dụng Xvfb trên Máy chủ Không Giao Diện
Các tiện ích mở rộng Chrome yêu cầu môi trường hiển thị, ngay cả khi bạn không muốn xem trình duyệt. Trên máy chủ Linux không có màn hình vật lý, hãy chạy một màn hình ảo:
bash
# Cài đặt Xvfb (Ubuntu/Debian)
sudo apt-get install xvfb
# Khởi động màn hình ảo
Xvfb :99 -screen 0 1920x1080x24 &
# Thông báo cho Chrome sử dụng nó (lệnh khởi động chrome-debug.sh ở trên đã xuất DISPLAY=:99)
export DISPLAY=:99
Nếu bạn đang sử dụng lệnh khởi động chrome-debug.sh từ Bước 3, dòng export DISPLAY=:99 ở đầu đã xử lý điều này — chỉ cần đảm bảo rằng Xvfb :99 đang chạy trên máy chủ.
7. Giám sát Chrome bằng Quản lý Quy trình trong Môi trường Sản xuất
Một lệnh chrome & lỏng lẻo sẽ chết khi shell cha thoát, khi Chrome treo, hoặc khi máy tính khởi động lại. Bao bọc lệnh khởi động bằng chrome-debug.sh (Bước 3) và giám sát nó bằng bất kỳ công cụ nào bạn đã sử dụng cho phần còn lại của hệ thống — systemd, supervisord, runit, Docker, v.v. Tích hợp không phụ thuộc vào công cụ quản lý quy trình; chọn công cụ đã chạy trên máy.
8. Kết hợp với Mô hình Giá Rẻ
Vì mô hình không bao giờ nhìn thấy CAPTCHA — tiện ích mở rộng giải nó một cách vô hình — bạn không cần mô hình tiên phong cho công việc có nhiều CAPTCHA. Một mô hình giá rẻ nhưng có khả năng công cụ là đủ (ví dụ, đặt provider: openrouter và default: z-ai/glm-4.6 trong config.yaml). Tất cả các khả năng thông minh đều nằm trong tiện ích mở rộng; mô hình chỉ cần điều hướng, gõ và nhấp.
Kết luận
Tích hợp Hermes + CapSolver đại diện cho cách tiếp cận hoàn toàn mới để giải CAPTCHA trong quy trình của agent. Thay vì viết mã để phát hiện CAPTCHA, gọi API và chèn token, bạn chỉ cần:
- Khởi động Chrome một lần với
--load-extension=/abs/path/to/capsolver-extensionvà--remote-debugging-port=9222 - Thêm
cdp_urlvào khốibrowser:trong~/.hermes/config.yaml:(lưu ý khóa lồng —yamlbrowser: cdp_url: http://127.0.0.1:9222cdp_urlcấp cao sẽ bị bỏ qua mà không báo lỗi) - Giao tiếp với agent một cách tự nhiên — chỉ cần thêm thời gian chờ trước khi gửi biểu mẫu
- Đọc kết quả trang sau khi gửi biểu mẫu sau khi biểu mẫu được gửi
Tiện ích mở rộng Chrome CapSolver xử lý phần còn lại — phát hiện CAPTCHA, giải chúng thông qua API CapSolver và chèn token vào trang. Agent của bạn không bao giờ cần biết về CAPTCHA.
Đây là cách giải CAPTCHA khi bạn có một agent AI tự động: bất khả thi, tự động và không cần mã hóa.
Sẵn sàng bắt đầu? Đăng ký CapSolver và sử dụng mã khuyến mãi
hermeđể nhận thêm khuyến mãi cho lần nạp đầu tiên!

FAQ
Tôi có cần thông báo cho agent về CapSolver không?
Không. Thực tế, bạn nên tránh đề cập đến CAPTCHA hoặc CapSolver trong các thông điệp của mình. Tiện ích mở rộng hoạt động một cách vô hình ở nền. Chỉ cần thêm thời gian chờ trong hướng dẫn của bạn (ví dụ: "chờ 60 giây, sau đó gửi") để tiện ích mở rộng có thời gian giải bất kỳ CAPTCHA nào trên trang.
Tại sao tôi không thể sử dụng Google Chrome thông thường?
Google Chrome 137+ (phát hành giữa năm 2025) đã loại bỏ hỗ trợ cho cờ dòng lệnh --load-extension trong các phiên bản được thương mại hóa. Điều này có nghĩa là tiện ích mở rộng Chrome không thể được tải trong các phiên bản tự động. Bạn cần Chrome for Testing hoặc Chromium độc lập, vẫn hỗ trợ cờ này.
Tôi có thể sử dụng các nhà cung cấp trình duyệt đám mây của Hermes (Browserbase, Browser Use) thay thế không?
Không — các nhà cung cấp đám mây chạy trình duyệt trên cơ sở hạ tầng của người khác, vì vậy bạn không thể tải tiện ích mở rộng tùy ý vào phiên. Mẫu CDP gắn kết trong hướng dẫn này là cách duy nhất để kết hợp Hermes với tiện ích mở rộng Chrome. (Khi browser.cdp_url được đặt trong config.yaml, Hermes định tuyến lưu lượng trình duyệt qua Chrome cục bộ và các nhà cung cấp đám mây sẽ im lặng cho đến khi bạn xóa dòng.)
Tôi có thể sử dụng các trình duyệt khác ngoài Chrome for Testing không?
Có — bất kỳ trình duyệt dựa trên Chromium nào vẫn hỗ trợ --load-extension đều hoạt động. Bạn có thể sử dụng:
- Chrome for Testing (được khuyến khích — hướng dẫn này sử dụng)
- Chromium (phiên bản độc lập)
- Chromium tích hợp của Playwright (đã có trên máy nếu bạn từng chạy
npx playwright install) - Brave, Vivaldi, Opera — tất cả đều dựa trên Chromium, đều chấp nhận cờ
- Google Chrome cũ ≤ 136 — nhưng cờ đã bị xóa trong 137+, vì vậy đừng cố định ở phiên bản cũ
Công thức tích hợp giống nhau: chỉ định --remote-debugging-port=9222 --load-extension=/path/to/capsolver-extension đến bất kỳ tệp nhị phân nào bạn thích.
Điều không hoạt động:
- Google Chrome thương mại 137+ — bỏ qua
--load-extensionmà không báo hiệu - Microsoft Edge — cùng việc xóa cờ
- Trình duyệt dựa trên Firefox (Firefox, LibreWolf, Camoufox) — tiện ích mở rộng CapSolver có định dạng Chrome MV3, không phải WebExtensions của Firefox
- Các nhà cung cấp trình duyệt đám mây của Hermes (Browserbase, Browser Use, Firecrawl) — bạn không kiểm soát được nhị phân từ xa, vì vậy không thể tải tiện ích mở rộng tùy chỉnh
Camoufox thì sao? Hermes hỗ trợ nó.
Có — Camoufox là một trong năm nhà cung cấp trình duyệt tích hợp của Hermes, và là lựa chọn tinh vi dựa trên Firefox cho các tác vụ không liên quan đến tiện ích mở rộng Chrome. Vấn đề là Camoufox dựa trên Firefox, và tiện ích mở rộng CapSolver được xây dựng theo định dạng Chrome MV3 — vì vậy hai thứ này không thể chạy cùng nhau trong một phiên.
Tin tốt: Với Hermes, bạn không cần phải chọn vĩnh viễn. Cờ browser.cdp_url trong ~/.hermes/config.yaml là một công tắc duy nhất — chỉ định nó đến Chrome đã tích hợp CapSolver khi bạn cần giải CAPTCHA, chỉ định đến Camoufox khi bạn cần tính tinh vi của Firefox. Một cấu hình phổ biến giữ cả hai chạy:
yaml
# Dòng hoạt động: chuyển đổi giữa các hồ sơ bằng cách ghi chú/loại bỏ ghi chú
browser:
cdp_url: http://127.0.0.1:9222 # Chrome CapSolver (hướng dẫn này)
# cdp_url: http://127.0.0.1:9333 # điểm cuối Camoufox
Sau đó khởi động lại Hermes (hermes gateway run, hoặc kích hoạt khởi động lại thông qua công cụ giám sát gateway trên máy của bạn) và thay đổi sẽ diễn ra trong vài giây. Cùng một Hermes, cùng các kênh, cùng kỹ năng — trình duyệt khác nhau cho từng tác vụ.
Lệnh /browser connect của Hermes có hoạt động với cấu hình này không?
Có. Lệnh /browser connect tích hợp của Hermes (trong giao diện TUI hermes tương tác) nhắm đến thư mục user-data mặc định chúng ta đã sử dụng (~/.hermes/chrome-debug) và cổng mặc định (9222). Sau khi thiết lập sidecar chrome-debug, bạn có thể sử dụng /browser connect từ bên trong Hermes tương tác, hoặc để browser.cdp_url trong config.yaml để gắn kết vĩnh viễn — cả hai đều hoạt động với cùng Chrome.
Việc sử dụng Hermes qua các kênh nhắn tin thì sao?
Tích hợp hoàn toàn không phụ thuộc vào kênh. Khi browser.cdp_url được đặt trong config.yaml, mọi hành động trình duyệt — dù đến từ hermes -z trên CLI, giao diện TUI hermes tương tác, hoặc tin nhắn từ Telegram, Discord, Slack, WhatsApp, Signal, hoặc email — đều được định tuyến qua Chrome đã tích hợp CapSolver của bạn. Tiện ích mở rộng giải CAPTCHA giống nhau trong mọi trường hợp.
Tôi nên sử dụng trang demo của Google trong kiểm tra tự động không?
Sử dụng trang demo chỉ để kiểm tra nhanh. Trong FAQ chính thức của Google reCAPTCHA, họ khuyên nên tạo các mã trang kiểm tra riêng cho kiểm tra tự động thay vì dựa vào trang demo công khai trong các pipeline sản xuất.
Tiện ích mở rộng CapSolver hỗ trợ những loại CAPTCHA nào?
Tiện ích mở rộng Chrome CapSolver tự động giải reCAPTCHA v2 (hộp kiểm và vô hình), reCAPTCHA v3, Cloudflare, AWS WAF CAPTCHA, và các widget được triển khai rộng rãi khác. Script nội dung phát hiện loại CAPTCHA trên trang và giải nó tương ứng — không cần cấu hình theo loại. (Lưu ý: Cloudflare Turnstile và Cloudflare 5-second Challenge không được giải bởi tiện ích mở rộng trình duyệt; chúng chỉ có sẵn qua API CapSolver và nằm ngoài phạm vi hướng dẫn này.)
Chi phí của CapSolver là bao nhiêu?
CapSolver cung cấp giá cả cạnh tranh dựa trên loại CAPTCHA và khối lượng. Truy cập capsolver.com để xem giá hiện tại.
Hermes Agent có miễn phí không?
Hermes Agent là mã nguồn mở (github.com/NousResearch/hermes-agent) và miễn phí để chạy trên phần cứng của bạn. Bạn sẽ cần khóa API cho nhà cung cấp mô hình AI bạn chọn (OpenRouter được khuyến khích — Hermes hỗ trợ 200+ mô hình qua nó) và, để giải CAPTCHA, một tài khoản CapSolver với điểm số.
Tôi nên bảo agent chờ bao lâu?
Đối với hầu hết CAPTCHA, 30–60 giây là đủ. Thời gian giải thực tế thường là 5–20 giây, nhưng thêm thời gian dự phòng đảm bảo độ tin cậy. Nếu không chắc, hãy dùng 60 giây.
Tôi có thể sử dụng điều này trên máy chủ không giao diện không?
Có. Bạn sẽ cần Xvfb (X Virtual Framebuffer) cho màn hình vì các tiện ích mở rộng Chrome yêu cầu môi trường hiển thị. Chạy Xvfb :99 -screen 0 1920x1080x24 & trên máy chủ và đảm bảo DISPLAY=:99 được xuất trong lệnh khởi động chrome-debug.sh (lệnh khởi động ở Bước 3 đã làm điều này). Cũng hãy giữ --no-sandbox trong các tham số Chrome vì đa số kernel máy chủ không cấp quyền mà Chrome sandbox yêu cầu.
Tôi có thể chạy nhiều phiên Hermes chỉ định đến cùng một chrome-debug không?
Về mặt kỹ thuật thì có, nhưng bạn sẽ phải quản lý xung đột tab/session tự mình. Đối với hầu hết tác vụ, một phiên Hermes ↔ một chrome-debug là cách đơn giản nhất. Nếu bạn cần tính song song thực sự, chạy nhiều sidecar chrome-debug trên các cổng khác nhau (9222, 9223, …) và chỉ định mỗi Hermes đến cổng riêng của nó.
Điều này có hoạt động với Hermes Skills không?
Có. Hermes Skills là các ký ức quy trình — chuỗi các bước mà agent đã học. Một kỹ năng liên quan đến truy cập trang web có CAPTCHA sẽ tự động hưởng lợi từ tích hợp CapSolver giống như một tin nhắn ad-hoc, vì chính công cụ trình duyệt được tăng cường. Không cần thay đổi nào ở phía kỹ năng.
Tuyên bố Tuân thủ: Thông tin được cung cấp trên blog này chỉ mang tính chất tham khảo. CapSolver cam kết tuân thủ tất cả các luật và quy định hiện hành. Việc sử dụng mạng lưới CapSolver cho các hoạt động bất hợp pháp, gian lận hoặc lạm dụng là hoàn toàn bị cấm và sẽ bị điều tra. Các giải pháp giải captcha của chúng tôi nâng cao trải nghiệm người dùng trong khi đảm bảo tuân thủ 100% trong việc giúp giải quyết các khó khăn về captcha trong quá trình thu thập dữ liệu công khai. Chúng tôi khuyến khích việc sử dụng dịch vụ của chúng tôi một cách có trách nhiệm. Để biết thêm thông tin, vui lòng truy cập Điều khoản Dịch vụ và Chính sách Quyền riêng tư.
Thêm

Lựa chọn Người giải CAPTCHA cho Hệ thống Người agent của Bạn
Một khung quyết định để lựa chọn một trình giải CAPTCHA cho cơ sở hạ tầng tác nhân, tập trung vào bản đồ hóa thách thức, liên kết phiên, khả năng quan sát, kiểm soát tỷ lệ và sử dụng có trách nhiệm.

Anh Tuan
18-Jun-2026

API CAPTCHA tốt nhất dành cho các tác nhân AI vào năm 2026
Hướng dẫn đánh giá thực tế để lựa chọn API CAPTCHA cho các tác nhân AI vào năm 2026, tập trung vào phạm vi nhiệm vụ được tài liệu hóa, hợp đồng kiểm tra, xác thực token và kiểm soát hoạt động.

Anh Tuan
18-Jun-2026

Bên trong Tầng lớp tự động hóa trình duyệt Agentic
Một góc nhìn cấp độ thời gian chạy của tầng lớp tự động hóa trình duyệt có tính tự chủ, tập trung vào cơ sở DOM, trạng thái lập kế hoạch, dấu vết theo phong cách Playwright, xử lý thách thức và quy tắc dừng.

Anh Tuan
18-Jun-2026

Cơ sở hạ tầng Tự động hóa Web cho các Đại diện AI
Hướng dẫn cơ sở hạ tầng có lớp cho các tác nhân AI thực hiện tự động hóa web, tập trung vào các cụm trình duyệt, trạng thái danh tính, giới hạn tốc độ, khả năng quan sát và xử lý thách thức.

Anh Tuan
18-Jun-2026

Cơ sở giải CAPTCHA cho các tác nhân AI
Hướng dẫn kiến trúc hệ thống về cơ sở hạ tầng giải CAPTCHA cho các tác nhân AI, tập trung vào chuyển giao trạng thái biểu mẫu, hàng đợi giải quyết, thời gian chờ và khả năng kiểm toán.

Anh Tuan
18-Jun-2026

Sửa chữa Phát hiện chống bot trong các tác nhân trí tuệ nhân tạo
Một hướng dẫn về tính nhất quán của tín hiệu cho phát hiện bảo vệ chống bot trong các tác nhân AI, tập trung vào vân tay trình duyệt, TLS và tiêu đề, thời gian tương tác, kiểm tra nhóm, và quy tắc dừng.

Anh Tuan
17-Jun-2026

