Công ty mẹ của TikTok, ByteDance, đang thu thập lượng dữ liệu khổng lồ từ web nhanh hơn nhiều so với các công cụ quét web lớn khác. Dưới đây là những gì chúng ta biết về công cụ quét web của ByteDance và cơn khát dữ liệu khổng lồ của nó.
Theo báo cáo của Fortune, ByteDance có thể đang lên kế hoạch phát hành mô hình ngôn ngữ lớn (LLM) của riêng mình và đang tích cực sử dụng công cụ quét web “Bytespider” để thu thập dữ liệu nhằm huấn luyện các mô hình của mình.
Bytespider xuất hiện vào tháng 4, và từ đó, tốc độ tiêu thụ dữ liệu của nó đã khiến các công cụ quét web của OpenAI, Google, Meta và Anthropic trở nên lép vế.
Sam Crowther, CEO của Kasada, một công ty chuyên về quản lý bot, nói với tờ báo rằng tốc độ quét của Bytespider nhanh gấp 25 lần so với GPTbot của OpenAI và nhanh gấp 3.000 lần so với ClaudeBot, công cụ quét web của Anthropic cho mô hình Claude LLM. Crowther cũng cho biết rằng dữ liệu của Kasada đã chứng kiến “những đợt tăng đột biến lớn” về hoạt động quét từ Bytespider trong sáu tuần qua.
Trong khi Bytespider ngấu nghiến tiêu thụ dữ liệu trên web, chính phủ Hoa Kỳ đang cố gắng ngăn chặn khả năng tiếp cận dữ liệu của người dùng Mỹ bởi chính phủ Trung Quốc. Vào tháng 4, Tổng thống Biden đã ký một dự luật buộc phải cấm TikTok trừ khi ByteDance bán nó trong vòng một năm. Với áp lực thời gian để bán TikTok, tốc độ hoạt động khổng lồ của công cụ quét web này dường như phù hợp với sự cấp bách — dù là cho LLM, một thuật toán tốt hơn, hay mục đích khác, chúng ta chưa rõ.
Những gì ByteDance dự định làm với tất cả dữ liệu mới thu thập này vẫn chưa được biết. Nhưng TikTok đã ra mắt một số tính năng dựa trên AI cho nền tảng của mình. Vào tháng 5, họ đã công bố một bộ công cụ cho nhà quảng cáo tạo ra các quảng cáo do AI tạo ra và các hình đại diện do AI tạo ra cho các thương hiệu và người sáng tạo. Cũng có tin đồn rằng TikTok đang phát triển một công cụ tìm kiếm nội bộ, với kết quả được hỗ trợ bởi AI — có thể sử dụng ChatGPT.