Scrape URL
Scrape a webpage and convert it to clean, LLM-ready markdown or other formats. Handles JavaScript rendering, extracts main content, and returns structured data with metadata. Ideal for: content extraction, RAG data collection, web research, article summarization, data aggregation.
कैटलॉग कार्रवाई एकीकरण
एक वेबपेज को स्क्रेप करें और इसे साफ़, LLM-तैयार मार्कडाउन या अन्य प्रारूपों में परिवर्तित करें। जावास्क्रिप्ट रेंडरिंग को संभालता है, मुख्य सामग्री निकालता है, तथा मेटाडेटा के साथ संरचित डेटा लौटाता है। आदर्श के लिए: सामग्री निष्कर्षण, RAG डेटा संग्रह, वेब अनुसंधान, लेख सारांशीकरण, डेटा एकत्रीकरण।
एक नजर में
| फ़ील्ड | मान |
|---|---|
| Action ID | firecrawl-scrape-url |
| Category | Integrations |
| Connector | आवश्यक नहीं |
| Requires gas | नहीं |
| Funds movement | कोई घोषित नहीं |
| Tags | firecrawl, scrape, web, content, markdown, extraction, read |
पेलोड स्कीमा
| फ़ील्ड | प्रकार | आवश्यक | विवरण |
|---|---|---|---|
url | string | हाँ | स्क्रेप करने के लिए URL। वैध HTTP/HTTPS URL होना चाहिए। |
formats | array | नहीं | लौटाने के लिए आउटपुट प्रारूप। विकल्प: 'markdown' (साफ़ पाठ), 'html' (प्रसंस्कृत HTML), 'rawHtml' (मूल HTML), 'links' (निकाले गए URL), 'screenshot' (पृष्ठ छवि), 'json' (संरचित डेटा), 'summary' (AI सारांश), 'images' (छवि URL)। डिफ़ॉल्ट: ['markdown'] |
onlyMainContent | boolean | नहीं | केवल मुख्य सामग्री निकालें, हेडर, नेविगेशन और फुटर को छोड़कर। डिफ़ॉल्ट: true |
waitFor | number | नहीं | स्क्रेपिंग से पहले जावास्क्रिप्ट रेंडर होने का इंतजार करने के लिए मिलीसेकंड में समय। गतिशील साइटों के लिए उपयोगी। सीमा: 0-30000। अवप्रचलित: इसके बजाय कार्रवाइयों का उपयोग करें। |
actions | array | नहीं | स्क्रेपिंग से पहले करने के लिए पृष्ठ कार्रवाइयाँ। जावास्क्रिप्ट-भारी साइटों के लिए उपयोग करें जिन्हें सामग्री दिखने से पहले इंटरैक्शन की आवश्यकता हो। |
timeout | number | नहीं | अनुरोध समय सीमा मिलीसेकंड में। डिफ़ॉल्ट: 30000 (30 सेकंड)। अधिकतम: 300000 (5 मिनट)। |
परिणाम स्कीमा
| फ़ील्ड | प्रकार | आवश्यक | विवरण |
|---|---|---|---|
success | boolean | हाँ | क्या स्क्रेप अनुरोध सफल रहा |
data | object | हाँ | - |
उदाहरण
json{ "type": "firecrawl-scrape-url", "payload": { "url": "https://example.com/webhook" }, "children": []}
bashcurl -X POST "https://api.b3os.org/v1/actions/firecrawl-scrape-url/test" \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "inputs": { "url": "https://example.com/webhook" }}'
पेलोड फ़ील्ड्स वर्कफ़्लो अभिव्यक्तियों का उपयोग कर सकते हैं जैसे {{$trigger.body.amount}}, {{$nodes.fetch.result.price}}, और {{$props.asset}} जब मान किसी ट्रिगर, पूर्ववर्ती नोड, या पुन: उपयोग योग्य वर्कफ़्लो प्रॉप से आना चाहिए।
