技能 数据科学 自动化AI数据采集代理

自动化AI数据采集代理

v20260517
data-scraper-agent
该代理旨在为任何公开数据源(如招聘板、价格、新闻等)构建一个全自动、AI驱动的数据采集系统。它能定时抓取数据,利用免费的大语言模型(如Gemini Flash)进行数据富集和分析,并将结果结构化地存储到Notion、Sheets或Supabase等数据库中。适用于需要持续监控和跟踪网络数据的场景。
获取技能
301 次下载
概览

データスクレイパーエージェント

任意のパブリックデータソース用の本番環境対応、AI搭載データ収集エージェントを構築。 スケジュールで実行され、無料LLMで結果を豊かにし、データベースに保存し、時間とともに改善されます。

スタック:Python · Gemini Flash(無料) · GitHub Actions(無料) · Notion / Sheets / Supabase

アクティベーション時期

  • ユーザーが任意のパブリックWebサイトまたはAPIをスクレイプまたは監視したい場合
  • ユーザーが「チェックするボットを構築」「Xを監視」「データを収集」と言う
  • ユーザーがジョブ、価格、ニュース、リポ、スポーツスコア、イベント、リストを追跡したい場合
  • ユーザーがホスティング用に支払わずにデータ収集を自動化する方法を尋ねる
  • ユーザーが決定に基づいて時間とともにより スマートになるエージェントを望む

コアコンセプト

3つのレイヤー

すべてのデータスクレイパーエージェントには3つのレイヤーがあります:

COLLECT → ENRICH → STORE
  │           │        │
Scraper    AI (LLM)  Database
runs on    scores/   Notion /
schedule   summarises Sheets /
           & classifies Supabase

無料スタック

Layer Tool Why
COLLECT Playwright/BeautifulSoup 無料のオープンソーススクレイピング
ENRICH Gemini Flash 無料で高速LLM
STORE Supabase / Sheets 無料データベースとスプレッドシート
SCHEDULE GitHub Actions 無料クロンジョブ

ワークフロー

  1. ソースを定義 - どこからスクレイプするか、何を抽出するか
  2. スクレイパーを構築 - BeautifulSoup または Playwright ベースのコレクタ
  3. LLMを構成 - Gemini Flash でテキストをスコア付け/要約/分類
  4. ストレージを設定 - Notion、Sheets、Supabase のいずれか
  5. GitHub Actions を設定 - 毎日/毎週実行するスケジュール
  6. フィードバックループを追加 - ユーザーの判断から学習

  • ジョブボード監視:新しい公開
信息
Category 数据科学
Name data-scraper-agent
版本 v20260517
大小 2.89KB
更新时间 2026-05-18
语言