pmfirestone
diff --git a/‎examples/constrained_generation.rs‎
Lines changed: 88 additions & 88 deletions b/‎examples/constrained_generation.rs‎
Lines changed: 88 additions & 88 deletions
diff --git a/‎examples/construct_mask_store.rs‎
Lines changed: 53 additions & 53 deletions b/‎examples/construct_mask_store.rs‎
Lines changed: 53 additions & 53 deletions
diff --git a/‎grammars/json_sugar.lark‎
Lines changed: 56 additions & 0 deletions b/‎grammars/json_sugar.lark‎
Lines changed: 56 additions & 0 deletions
@@ -1,91 +1,91 @@
 // examples/constrained_generation.rs
 //! Generate a constrained output.
 
-use candle_core::IntDType;
-use std::fs;
-use syncode_core::{
-    bytes::restore_bytes, grammar::EBNFParser, lexer::Lexer, mask::grammar_mask, mask_store,
-    parser::Parser,
-};
-use tokenizers::{Tokenizer, tokenizer};
-
-fn main() {
-    let model_id = "Qwen/Qwen3-4B-Thinking-2507";
-    let grammar_file = "./grammars/json.lark";
-
-    let store = mask_store(model_id, grammar_file);
-
-    // Harness to avoid generating with the model.
-    let sample = r#"{"menu": {
-  "id": "file",
-  "value": "File",
-  "popup": {
-    "menuitem": [
-      {"value": "New", "onclick": "CreateNewDoc()"},
-      {"value": "Open", "onclick": "OpenDoc()"},
-      {"value": "Close", "onclick": "CloseDoc()"}
-    ]
-  }
-}}"#;
-
-    let tokenizer = Tokenizer::from_pretrained(model_id, None).unwrap();
-
-    let vocab = tokenizer.get_vocab(false);
-    let tokens: Vec<&String> = vocab.keys().collect();
-    let byte_tokens: Vec<Vec<u8>> = tokens.into_iter().map(|t| restore_bytes(t)).collect();
-
-    let Ok(encoding) = tokenizer.encode(sample, false) else {
-        panic!()
-    };
-
-    let Ok(grammar) = EBNFParser::new(&fs::read_to_string(grammar_file).unwrap(), "start").parse()
-    else {
-        panic!()
-    };
-
-    let Ok(lexer) = Lexer::new(&grammar.terminals, &grammar.ignore_terminals) else {
-        panic!()
-    };
-
-    let Ok(parser) = Parser::new(&grammar) else {
-        panic!()
-    };
-
-    let tokens_ids = encoding.get_ids();
-
-    for (idx, token) in tokens_ids.iter().enumerate() {
-        let mut sequence_so_far: Vec<u8> = Vec::new();
-
-        for token in &encoding.get_tokens()[..idx] {
-            sequence_so_far.extend(restore_bytes(token));
-        }
-
-        let Ok((terminals, remainder)) = lexer.lex(&sequence_so_far[..]) else {
-            panic!()
-        };
-
-        let Ok(accept_sequences) = parser.parse(&terminals, &remainder) else {
-            panic!()
-        };
-
-        println!("{:#?}", accept_sequences);
-
-        let mask = grammar_mask(
-            &accept_sequences,
-            &remainder,
-            &store,
-            &byte_tokens,
-            &grammar,
-        );
-
-        // assert!(
-        //     mask[token.as_usize()],
-        println!(
-            "Mask value: {}\nToken: {} {}\nIter: {}",
-            mask[token.as_usize()],
-            tokenizer.decode(&[*token], false).unwrap(),
-            token,
-            idx
-        );
-    }
-}
+// use candle_core::IntDType;
+// use std::fs;
+// use syncode_core::{
+//     bytes::restore_bytes, grammar::EBNFParser, lexer::Lexer, mask::grammar_mask, mask_store,
+//     parser::Parser,
+// };
+// use tokenizers::{Tokenizer, tokenizer};
+
+// fn main() {
+//     let model_id = "Qwen/Qwen3-4B-Thinking-2507";
+//     let grammar_file = "./grammars/json.lark";
+
+//     let store = mask_store(model_id, grammar_file);
+
+//     // Harness to avoid generating with the model.
+//     let sample = r#"{"menu": {
+//   "id": "file",
+//   "value": "File",
+//   "popup": {
+//     "menuitem": [
+//       {"value": "New", "onclick": "CreateNewDoc()"},
+//       {"value": "Open", "onclick": "OpenDoc()"},
+//       {"value": "Close", "onclick": "CloseDoc()"}
+//     ]
+//   }
+// }}"#;
+
+//     let tokenizer = Tokenizer::from_pretrained(model_id, None).unwrap();
+
+//     let vocab = tokenizer.get_vocab(false);
+//     let tokens: Vec<&String> = vocab.keys().collect();
+//     let byte_tokens: Vec<Vec<u8>> = tokens.into_iter().map(|t| restore_bytes(t)).collect();
+
+//     let Ok(encoding) = tokenizer.encode(sample, false) else {
+//         panic!()
+//     };
+
+//     let Ok(grammar) = EBNFParser::new(&fs::read_to_string(grammar_file).unwrap(), "start").parse()
+//     else {
+//         panic!()
+//     };
+
+//     let Ok(lexer) = Lexer::new(&grammar.terminals, &grammar.ignore_terminals) else {
+//         panic!()
+//     };
+
+//     let Ok(parser) = Parser::new(&grammar) else {
+//         panic!()
+//     };
+
+//     let tokens_ids = encoding.get_ids();
+
+//     for (idx, token) in tokens_ids.iter().enumerate() {
+//         let mut sequence_so_far: Vec<u8> = Vec::new();
+
+//         for token in &encoding.get_tokens()[..idx] {
+//             sequence_so_far.extend(restore_bytes(token));
+//         }
+
+//         let Ok((terminals, remainder)) = lexer.lex(&sequence_so_far[..]) else {
+//             panic!()
+//         };
+
+//         let Ok(accept_sequences) = parser.parse(&terminals, &remainder) else {
+//             panic!()
+//         };
+
+//         println!("{:#?}", accept_sequences);
+
+//         let mask = grammar_mask(
+//             &accept_sequences,
+//             &remainder,
+//             &store,
+//             &byte_tokens,
+//             &grammar,
+//         );
+
+//         // assert!(
+//         //     mask[token.as_usize()],
+//         println!(
+//             "Mask value: {}\nToken: {} {}\nIter: {}",
+//             mask[token.as_usize()],
+//             tokenizer.decode(&[*token], false).unwrap(),
+//             token,
+//             idx
+//         );
+//     }
+// }
@@ -1,66 +1,66 @@
-use rayon::prelude::*;
-use std::fs;
-use syncode_core::bytes::restore_bytes;
-use syncode_core::grammar::EBNFParser;
-use syncode_core::mask::{dfa_mask_store, grammar_mask};
-use syncode_core::{lexer::Lexer, parser::Parser};
-use tokenizers::Tokenizer;
+// use rayon::prelude::*;
+// use std::fs;
+// use syncode_core::bytes::restore_bytes;
+// use syncode_core::grammar::EBNFParser;
+// use syncode_core::mask::{dfa_mask_store, grammar_mask};
+// use syncode_core::{lexer::Lexer, parser::Parser};
+// use tokenizers::Tokenizer;
 
-fn main() -> Result<(), Box<dyn std::error::Error + Send + Sync>> {
-    let model_id = "Qwen/Qwen3-235B-A22B";
-    let language = "json";
-    let grammar_file = format!("./grammars/{language}.lark");
-    let tokenizer = Tokenizer::from_pretrained(model_id, None)?;
-    let vocab = tokenizer.get_vocab(false);
-    let tokens: Vec<&String> = vocab.keys().collect();
-    let byte_tokens: Vec<Vec<u8>> = tokens.into_par_iter().map(|t| restore_bytes(t)).collect();
+// fn main() -> Result<(), Box<dyn std::error::Error + Send + Sync>> {
+//     let model_id = "Qwen/Qwen3-235B-A22B";
+//     let language = "json";
+//     let grammar_file = format!("./grammars/{language}.lark");
+//     let tokenizer = Tokenizer::from_pretrained(model_id, None)?;
+//     let vocab = tokenizer.get_vocab(false);
+//     let tokens: Vec<&String> = vocab.keys().collect();
+//     let byte_tokens: Vec<Vec<u8>> = tokens.into_par_iter().map(|t| restore_bytes(t)).collect();
 
-    let Ok(grammar) = EBNFParser::new(&fs::read_to_string(grammar_file).unwrap(), "start").parse()
-    else {
-        panic!()
-    };
+//     let Ok(grammar) = EBNFParser::new(&fs::read_to_string(grammar_file).unwrap(), "start").parse()
+//     else {
+//         panic!()
+//     };
 
-    let Ok(parser) = Parser::new(&grammar.clone()) else {
-        panic!()
-    };
+//     let Ok(parser) = Parser::new(&grammar.clone()) else {
+//         panic!()
+//     };
 
-    let Ok(lexer) = Lexer::new(&grammar.terminals, &grammar.ignore_terminals) else {
-        panic!()
-    };
+//     let Ok(lexer) = Lexer::new(&grammar.terminals, &grammar.ignore_terminals) else {
+//         panic!()
+//     };
 
-    // println!("{:#?}", byte_tokens[32]);
-    let mask_store = dfa_mask_store(&grammar.terminals, &byte_tokens, &parser, 2);
+//     // println!("{:#?}", byte_tokens[32]);
+//     let mask_store = dfa_mask_store(&grammar.terminals, &byte_tokens, &parser, 2);
 
-    // let mut cache = fs::File::open("./cache/{model_id}/{language}.json")?;
+//     // let mut cache = fs::File::open("./cache/{model_id}/{language}.json")?;
 
-    // ser::to_writer(cache, &mask_store);
+//     // ser::to_writer(cache, &mask_store);
 
-    let candidate = r#"{
-    "basics": {
-      "name": "Preston Firestone",
-      "label": "Programmer",
-      "image": "",
-      "email": "[email protected]",
-      "phone": "+1 (224) 688-2924","#;
+//     let candidate = r#"{
+//     "basics": {
+//       "name": "Preston Firestone",
+//       "label": "Programmer",
+//       "image": "",
+//       "email": "[email protected]",
+//       "phone": "+1 (224) 688-2924","#;
 
-    let tokens = tokenizer.encode(candidate, false);
+//     let tokens = tokenizer.encode(candidate, false);
 
-    let Ok((terminals, remainder)) = lexer.lex(candidate.as_bytes()) else {
-        panic!()
-    };
+//     let Ok((terminals, remainder)) = lexer.lex(candidate.as_bytes()) else {
+//         panic!()
+//     };
 
-    let Ok(accept_sequences) = parser.parse(&terminals, &remainder) else {
-        panic!()
-    };
+//     let Ok(accept_sequences) = parser.parse(&terminals, &remainder) else {
+//         panic!()
+//     };
 
-    let mask = grammar_mask(
-        &accept_sequences,
-        &remainder,
-        &mask_store,
-        &byte_tokens,
-        &grammar,
-    );
+//     let mask = grammar_mask(
+//         &accept_sequences,
+//         &remainder,
+//         &mask_store,
+//         &byte_tokens,
+//         &grammar,
+//     );
 
-    println!("{:#?}", mask);
-    Ok(())
-}
+//     println!("{:#?}", mask);
+//     Ok(())
+// }
@@ -0,0 +1,56 @@
+// Adapted from https://www.crockford.com/mckeeman.html. With regular expressions on right hand side.
+
+json: element
+
+value: object
+     | array
+     | string
+     | number
+     | "true"
+     | "false"
+     | "null"
+
+object: "{" ws* "}"
+      | "{" member ("," member)* "}"
+
+member: ws* string ws* ":" element
+
+array: "[" ws* "]"
+     | "[" element ("," element)* "]"
+
+element: ws* value ws*
+
+string: /"/ character* /"/
+
+character: /[\x{20} -\x{10FFFF}--["\\]]/
+         | "\" escape
+
+escape: /"/
+      | "\"
+      | "/"
+      | "b"
+      | "f"
+      | "n"
+      | "r"
+      | "t"
+      | "u" hex hex hex hex
+
+hex: digit
+   | "A".."F"
+   | "a".."f"
+
+number:  integer fraction? exponent?
+
+integer: "-"? digit
+       | "-"? "1".."9" digit+
+
+digit: "0".."9"
+
+fraction: "." digit+
+
+exponent: ("E"|"e") ("+"|"-")? digit+
+
+ws: /\x{0020}/
+  | /\x{000A}/
+  | /\x{000D}/
+  | /\x{0009}/