Scrape URL

Scrape a webpage and convert it to clean, LLM-ready markdown or other formats. Handles JavaScript rendering, extracts main content, and returns structured data with metadata. Ideal for: content extraction, RAG data collection, web research, article summarization, data aggregation.

कैटलॉग कार्रवाई एकीकरण

एक वेबपेज को स्क्रेप करें और इसे साफ़, LLM-तैयार मार्कडाउन या अन्य प्रारूपों में परिवर्तित करें। जावास्क्रिप्ट रेंडरिंग को संभालता है, मुख्य सामग्री निकालता है, तथा मेटाडेटा के साथ संरचित डेटा लौटाता है। आदर्श के लिए: सामग्री निष्कर्षण, RAG डेटा संग्रह, वेब अनुसंधान, लेख सारांशीकरण, डेटा एकत्रीकरण।

एक नजर में

फ़ील्ड	मान
Action ID	`firecrawl-scrape-url`
Category	Integrations
Connector	आवश्यक नहीं
Requires gas	नहीं
Funds movement	कोई घोषित नहीं
Tags	`firecrawl`, `scrape`, `web`, `content`, `markdown`, `extraction`, `read`

पेलोड स्कीमा

फ़ील्ड	प्रकार	आवश्यक	विवरण
`url`	`string`	हाँ	स्क्रेप करने के लिए URL। वैध HTTP/HTTPS URL होना चाहिए।
`formats`	`array`	नहीं	लौटाने के लिए आउटपुट प्रारूप। विकल्प: 'markdown' (साफ़ पाठ), 'html' (प्रसंस्कृत HTML), 'rawHtml' (मूल HTML), 'links' (निकाले गए URL), 'screenshot' (पृष्ठ छवि), 'json' (संरचित डेटा), 'summary' (AI सारांश), 'images' (छवि URL)। डिफ़ॉल्ट: ['markdown']
`onlyMainContent`	`boolean`	नहीं	केवल मुख्य सामग्री निकालें, हेडर, नेविगेशन और फुटर को छोड़कर। डिफ़ॉल्ट: true
`waitFor`	`number`	नहीं	स्क्रेपिंग से पहले जावास्क्रिप्ट रेंडर होने का इंतजार करने के लिए मिलीसेकंड में समय। गतिशील साइटों के लिए उपयोगी। सीमा: 0-30000। अवप्रचलित: इसके बजाय कार्रवाइयों का उपयोग करें।
`actions`	`array`	नहीं	स्क्रेपिंग से पहले करने के लिए पृष्ठ कार्रवाइयाँ। जावास्क्रिप्ट-भारी साइटों के लिए उपयोग करें जिन्हें सामग्री दिखने से पहले इंटरैक्शन की आवश्यकता हो।
`timeout`	`number`	नहीं	अनुरोध समय सीमा मिलीसेकंड में। डिफ़ॉल्ट: 30000 (30 सेकंड)। अधिकतम: 300000 (5 मिनट)।

परिणाम स्कीमा

फ़ील्ड	प्रकार	आवश्यक	विवरण
`success`	`boolean`	हाँ	क्या स्क्रेप अनुरोध सफल रहा
`data`	`object`	हाँ	-

उदाहरण

json
{  "type": "firecrawl-scrape-url",  "payload": {    "url": "https://example.com/webhook"  },  "children": []}

bash
curl -X POST "https://api.b3os.org/v1/actions/firecrawl-scrape-url/test" \  -H "Authorization: Bearer YOUR_API_KEY" \  -H "Content-Type: application/json" \  -d '{  "inputs": {    "url": "https://example.com/webhook"  }}'

पेलोड फ़ील्ड्स वर्कफ़्लो अभिव्यक्तियों का उपयोग कर सकते हैं जैसे {{$trigger.body.amount}}, {{$nodes.fetch.result.price}}, और {{$props.asset}} जब मान किसी ट्रिगर, पूर्ववर्ती नोड, या पुन: उपयोग योग्य वर्कफ़्लो प्रॉप से आना चाहिए।

Was this page helpful?